探討:如何用大數據創(chuàng)造復雜的人工智能
鳳凰科技 發(fā)表于:13年04月01日 09:49 [轉載] DOIT.com.cn
現在的電腦系統是根據編寫程序時,明確要求它們遵循的規(guī)則來進行運算的。因此,當一個結果偶爾無可避免地出錯的時候,我們可以回過頭去,看看電腦是如何得出這個結果的。
比如,我們可以問“為什么外部傳感器發(fā)現濕度突然大幅上升時,自動駕駛系統會將飛機抬高五度?”今天的電腦代碼可以被打開檢查,人們可以追蹤并理解運算的基礎,無論這個基礎如何復雜。
但是,有了大數據分析之后,這種追蹤就會變得困難許多。算法預言的基礎可能會復雜得讓常人難以理解。
大數據的“不可解釋”性
當電腦根據程序編寫的明確要求遵循系列指令,比如IBM在1954年發(fā)展的將俄語翻譯為英語的程序,人可以輕易理解為什么軟件會用一個詞代替另一個詞。但谷歌翻譯在判斷英語單詞“light”是該翻譯成法語的“lumière”還是“léger”時(即描述“光”還是“重量”),卻動用了數十億頁的翻譯資料。一個人不可能追蹤到程序作出最后選擇的準確原因,因為這些選擇是基于海量的數據和大量的統計運算的。
大數據運作的規(guī)模也超乎我們的想象。比如,谷歌分辨幾個搜尋關鍵詞和流感的關聯是測試4.5億個數學模型的結果。相對地,麻省理工學院統計學助理教授辛西婭?魯丁(Cynthia Rudin),為檢修孔是否會著火設計了106個預測指標,而且她可以向聯合愛迪生電力公司的經理們解釋,為什么她的程序優(yōu)先了某些檢查位置。
人工智能界所說的“可解釋性”,對于我們常人來說是很重要的,我們總是想知其所以然,而不僅是知其然?墒,如果系統自動生成了601個預報,而不是 106個呢?如果這601個中大多數都不是特別重要,但把它們放在一起,就會提升模型的精確性?任何預報的基礎都可能非常復雜。要說服經理們重新分配有限的預算,她該告訴他們什么呢?
在這個情景中,我們可以看到,大數據預報的風險,及其背后的算法和數據集,可以變成不可說明、不可追蹤,甚至不可信的黑匣子。要防止這樣的事情發(fā)生,大數據需要監(jiān)控和透明,這就要求新的專業(yè)知識和機構。這些新成員會幫助社會仔細檢查某些領域的大數據預報,會讓被數據傷害的人得到平反。
算法師的崛起
在社會上,當一個特定領域的復雜性和專業(yè)性大幅上升,因而對管理新技術的專家產生緊急需求時,我們常會看到這些新實體出現。法學、醫(yī)學、會計和工程學的專業(yè)人才在超過一世紀前就經歷了這種巨變。最近,電腦安全和隱私專家突然冒起,以保證公司遵從諸如國際標準組織這樣的機構訂立的最佳操作準則。
大數據會需要新的一群人來擔當這個角色。也許他們會被稱為“算法師”。他們可能分兩類——從外部監(jiān)測公司的獨立實體,或從內部監(jiān)測公司的雇員或部門——就像公司有內部會計師和外來審計師來檢查財務一樣。
這些專業(yè)人士會是計算機科學、數學和統計學方面的專家;他們會檢查大數據的分析和預報。算法師必須中立并保密,就像會計師和其他一些職業(yè)現在所做的那樣。他們會評價數據源的選擇,分析和預報工具的選擇,包括算法和模型,以及對結果的闡釋。在有爭議時,他們會獲取得出某個結果的算法、統計方法和數據集。
如果2004年的時候國土安全局有算法師,他就可能防止該局產生一張如此多錯誤的禁飛名單,上面竟然還有參議員肯尼迪。在日本、法國、德國和意大利,最近都有算法師本可以有所作為的例子,這些國家的人們抱怨說谷歌的“自動完成”功能誹謗了他們,這個功能會根據一個輸入的名字產生一系列常見的搜索關鍵詞。這些詞基本是基于過往搜索的頻率得出的:詞語根據概率排列。盡管如此,當一個潛在的商業(yè)伙伴或情人上網查我們的時候,我們的名字跟“罪犯”或“妓女”放在一起的,誰能不生氣呢?
我們預想的算法師是為像這樣的問題提供市場導向的解決方法的人,他們的存在可能減少過分的規(guī)范管制。他們滿足的需求與會計師和審計師在20世紀早期出現應對泛濫的金融資訊所滿足的需求是相似的。洶涌而來的數字讓人難以理解。它要求專家以靈活而自律的方式組織在一起。市場的反應是讓專門進行財務監(jiān)察的有競爭力的公司形成一個新興行業(yè)。通過提供這種服務,新型職業(yè)提升了社會對經濟的信心。算法師可提供類似的信心提升,大數據按說能夠并應該從中獲益。
打開黑匣子
沒有任何簡單的方法,可以讓我們充分準備好迎接大數據的世界。它要求我們建立新的準則以管束自己。我們實際操作上的一系列重要改變,可以在社會逐漸熟悉大數據的特點和缺點時提供幫助。我們必須設計保障,讓新的“算法師”專業(yè)階層可以評估大數據分析——這樣一個因為大數據而變得難以掌握的世界,才不會變成一個黑匣子,以一種不可知代替另一種不可知。