《人工智能》講述的是人工智能的進化之旅及其對人類的意義。在閱讀這本書的過程中,我們將遇到假裝有孌童癖的計算機、會跳舞的真空吸塵器、會下棋的人工智能以及旨在與死后的人進行對話而被上傳了個人意識的計算機。
這是關于我們如何設想未來的故事,以及在一個充滿技術的世界,我們在面臨計算機智能不斷加速發(fā)展的情況下如何為人類塑造自己的角色的故事。這是一個關于創(chuàng)造性的本質、未來就業(yè)以及當所有知識成為數據并且可以電子存儲時,即將發(fā)生什么的故事。當我們制造的機器比我們更加聰明,我們將要做什么,人類現在還具備什么優(yōu)勢,以及你和我是否也是一種會思考的機器。
1950 年,英國數學家和計算機科學家先驅人物艾倫?圖靈(Alan Turing)曾預測,到20 世紀末,“詞語的使用與一般的教育主張將發(fā)生巨大改變,屆時人們談論機器思維時,不會有人對此進行反駁”。
就像許多未來學家對技術的預測一樣,圖靈對未來非常樂觀,但并不過度樂觀。在21 世紀初期,與“智能”相關的技術以及“機器學習”已經是很常見的話題,而這些概念在圖靈時代曾使許多人感到匪夷所思。
如今,人工智能作為一門學科已經誕生60 年,它依然是人類最重大、最具雄心的項目:努力建造真正的會思考的機器。隨著時光的流逝,技術人員離實現這個目標越來越近,未來的一抹曙光也正在天際迅速明朗。
《人工智能》講述的正是這種熠熠生輝且近在咫尺的未來,隱藏在角落里的變化,以及它們將如何永久性地改變我們的生活。
霍普菲爾德網的興起
與明斯基和派珀特的斷言相反的是,神經網絡研究人員多年來一直認為,神經網絡能夠展現出新的能力,并且解決羅森布拉特感知器的問題,但前提是在網絡輸入和輸出之間放置額外的“隱含”神經元層。不幸的是,沒人知道如何訓練這些多層神經網絡。著名物理學家約翰?霍普菲爾德(John Hopfield)為具體應當如何做提供了建議。
霍普菲爾德對當時人工智能的主流形式是什么并不感興趣。他說:“我從未深入研究過人工智能領域到底發(fā)生了什么。人工智能并不能解決現實世界里的問題。我認為沒必要去了解它。” 然而,多年以后,他一直苦苦追尋被他稱作“需要用一生的時間去研究的問題”。由于對人類大腦十分感興趣,他考慮的問題涵蓋范圍廣泛,從靈長類神經解剖學到昆蟲飛行的行為,再到大鼠海馬的學習乃至阿茲海默癥的治療。有一段時間,霍普菲爾德對細胞自動機和自我復制的機器人的前景十分著迷。然而,幾個月的研究最終還是走進了一條死胡同。
霍普菲爾德說:“放棄一個錯誤的思想十分困難,畢竟我們已經研究一年了。”但是,在計算機內部創(chuàng)造一個生命模型的想法卻一直都在。他對一個想法十分著迷,即用神經網絡完成大腦能夠迅速且輕松完成但計算機卻不能完成的任務。霍普菲爾德最終選擇了聯(lián)想記憶,聯(lián)想記憶是指大腦如何以交互的方式工作,也就是看見一個人就能聯(lián)想起他的名字,或者聽到他的名字就能想起他的長相。聯(lián)想記憶背后的數學運算使霍普菲爾德想到“自旋系統(tǒng)”的數學運算,該運算描述的是固體磁性的復雜形式。他的腦海中突然產生了一個想法?;羝辗茽柕禄貞浀溃骸吧窠浬飳W和我所了解的物理系統(tǒng)之間突然產生了一種聯(lián)系。一個月之后,我已經開始寫論文了?!?/p>
1982 年這篇論文發(fā)表后,一種全新的神經網絡產生了?;羝辗茽柕戮W絡比羅森布拉特的感知器中的單層模擬神經元復雜得多。他的思想再次激發(fā)了人們對神經網絡的熱情,這也使他成為這一過程中出人意料的英雄。加州理工學院的一組追隨者開始以“霍普集會”(Hop-Fest)的名義召開會議。霍普菲爾德的發(fā)現吸引了一些世界上最偉大的理論物理學家參與到神經網絡的研究當中。該領域的研究人員多年來頭一次感覺到熱血沸騰。
然而,事情并沒有我們想象得那么容易。正如我們在第一章中看到的,20世紀80年代早期是“專家系統(tǒng)”的天下,資金也是空前的充裕。盡管后來這些“專家系統(tǒng)”的發(fā)展將遭遇困境,但在當時卻是十分強大,人們根本不認為它們會失敗。世界領先的神經網絡專家特里?謝伊諾斯基(Terry Sejnowski)當時正在普林斯頓大學讀霍普菲爾德的博士,他回憶道:“我們當時好像是生活在恐龍時代的只有毛皮的哺乳動物,在這些長著麟甲的巨獸的腳下混日子,他們有數百萬美元的機器和龐大的預算。那時,所有人都專注于計算邏輯,但是我們明白,他們忽視了推動人工智能向前發(fā)展所面臨的真正困難?!?/p>
幸運的是,神經網絡吸引了許多年輕且富有熱情的研究人員,其中就包括圣地亞哥加州大學的認知科學家戴維?魯梅爾哈特(David Rumelhart)和詹姆斯?麥克蘭德(James McClelland),他們成立了一個“并行分布處理”小組,并產生了令人難以置信的影響力。
說到這里就不得不提到另外一個人,他就是杰夫?辛頓(Geoff Hinton)。
神經網絡的守護神
杰夫?辛頓出生于1947 年,是現代神經網絡最重要的人物之一。作為一名謙遜的英國計算機科學家,他對其所在領域的發(fā)展產生的影響很少有人能企及。他出生于一個數學家家庭:他的曾祖父是著名的邏輯學家喬治?布爾(George Boole),他的布爾代數曾為現代計算機科學奠定了基礎。另一位親戚是數學家查爾斯?霍華德?辛頓(Charles Howard Hinton),因提出“四維空間”這一理念而聞名,阿萊斯特?克勞利(Aleister Crowley)在其小說《月之子》中曾經兩次提到了辛頓。
辛頓說:“我一直對人類如何思考以及大腦如何工作很感興趣。”上學時,一個同學說大腦儲存記憶的方式和3D 全息圖像儲存光源信息的方式是一樣的。要想創(chuàng)建一個全息圖,人們會將多個光束從一件物品上反射回來,然后將相關信息記錄在一個龐大的數據庫中。大腦也是這樣工作的,只是將光束換成了神經元。由于這一發(fā)現,辛頓在劍橋大學選擇了研究哲學和心理學,之后又在蘇格蘭愛丁堡大學研究人工智能。辛頓在20 世紀70 年代中期來到寒冷的愛丁堡,人工智能領域遭遇的首個冬天幾乎在同一時期到來。盡管傳統(tǒng)人工智能剛剛遭受打擊,但辛頓的博士導師仍急于讓他遠離神經網絡。辛頓說:“他一直試著讓我放棄神經網絡的研究并投入到符號人工智能領域。為了能夠有更多時間研究神經網絡,我必須不斷和他討價還價。”辛頓并沒有獲得其他的支持。學生們認為他是瘋了才會在明斯基和派珀特完全否認神經網絡后還繼續(xù)研究。辛頓在愛丁堡期間,明斯基的學生帕特里克?溫斯頓(Patrick Winston)出版了一本早期人工智能教材。書中記載著有關神經網絡的內容:
許多古希臘人都支持蘇格拉底的一個觀點,即深奧且令人費解的思想是上帝創(chuàng)造的。如今,對這些漂泊無定的人而言,甚至概率神經元都相當于上帝。很有可能的是,神經元行為的隨機性的提高是癲癇病患者和醉酒的人的問題,而不是聰明人的優(yōu)勢。
人們對溫斯頓的思想十分不屑,但是他當時對神經網絡的類似于宗教信仰般的看法并不是完全錯誤的。辛頓對人腦必須以某種方式工作這一認識十分欣慰,很明顯,這是無法用傳統(tǒng)的符號人工智能來解釋的。他說:“大多數常識推理都是憑直覺或以類比的方式做出的,其中并不涉及意識推理?!毙令D認為,傳統(tǒng)人工智能的錯誤之處在于:其認為,任何事都是由一系列基本規(guī)則和有意識推理組成的。對符號人工智能研究人員來說,如果我們不能理解某一部分的意識,這是因為我們還沒有弄懂其背后的推理。
畢業(yè)以后,辛頓暫時在英國蘇塞克斯從事博士后工作,之后收到了一份來自美國的工作邀請。于是,辛頓打點行裝,搬到了加州大學,不久以后,又搬到了卡內基–梅隆大學。在接下來的幾年里,他一直積極努力在神經網絡領域取得開創(chuàng)性進展,即便到了今天,其成就仍對人工智能的研究產生著影響。
他最重要的貢獻之一,要算是他對另一位研究人員戴維?魯梅爾哈特的幫助,幫助他再次發(fā)現“反向傳播”流程,這大概是神經網絡中最重要的算法,之后他們首次以可信的方式證明,“反向傳播”使神經網絡能夠創(chuàng)建屬于自己的內部表征。當輸出與創(chuàng)造者希望的情況不符時,“反向傳播”使神經網絡能夠調節(jié)其隱藏層。發(fā)生這種情況時,神經網絡將創(chuàng)建一個“錯誤信號”,該信號將通過神經網絡傳送回輸入節(jié)點。隨著錯誤一層層傳遞,網絡的權重也隨之改變,這樣就能夠將錯誤最小化。試想一下,有一個神經網絡能夠識別圖像,如果在分析一張狗的圖片時,神經網絡錯誤地判斷為這是一張貓的圖片,那么“反向傳播”將使其退回到前面的層,每層都會對輸入連接的權重做出輕微調整,這樣一來,下次就能夠獲得正確的答案。
20 世紀80 年代創(chuàng)建的“NETtalk”項目是“反向傳播”的一個經典案例。NETtalk的一個共同創(chuàng)建者特里?謝伊諾斯基將其描述為用于了解電腦是否能夠學習大聲朗讀書面文字的“夏季項目”。該項目面臨的最大挑戰(zhàn)在于語言一點也不簡單。項目剛剛開始的時候,謝伊諾斯基去圖書館借了一本有關音韻學的書,即諾姆?喬姆斯基(Noam Chomsky)和莫里斯?哈雷(Morris Halle)所著的《英語語音模式》。謝伊諾斯基說:“這本書里都是各種事情的規(guī)則,例如字母e 出現在單詞末尾的時候應該如何發(fā)音等。書中提到了例外情況,之后又列舉了例外情況中的例外。英語就是大量的復雜關聯(lián)。我們似乎選擇了世界上在規(guī)則性方面最糟糕的語言?!?/p>
一直以來,傳統(tǒng)人工智能都在不斷嘗試將這些單獨的例子插入到一個專家系統(tǒng)中。謝伊諾斯基和一位名為查爾斯?羅森伯格(Charles Rosenberg)的語言研究人員決定通過創(chuàng)建一個由300個神經元組成的神經網絡來實現這一目標。當時,辛頓正在實驗室訪問,他建議他們在項目的最開始使用兒童書籍來訓練該系統(tǒng),這本書的詞匯量一定要小。起初,這項任務十分艱難,計算機一次只能讀一個單詞,而他們必須為每個字母都標注正確的音素。例如,字母e在“shed”、“pretty”、“anthem”、“café”或“sergeant”中的發(fā)音各不相同。謝伊諾斯基和羅森伯格每次進行說明的時候,他們創(chuàng)建的神經網絡都悄悄地調節(jié)對每個連接的權重。該系統(tǒng)面臨的最大挑戰(zhàn)是使機器能夠正確發(fā)出每個單詞中間部分的音節(jié)。為了做到這一點,神經網絡必須使用中間字母左邊和右邊的字母給出的提示。
一天下來,NETtalk已經全部掌握了書中的100個單詞。這一結果令他們感到震驚。接下來,他們讓NETtalk使用有20 000個單詞的韋伯詞典。幸運的是,詞典中的所有音素都已經標注出來了。他們下午把單詞輸入到系統(tǒng)中,然后就回家休息了。當他們第二天早上回到辦公室時,系統(tǒng)已經完全掌握了這些單詞。
最后的訓練數據是一本對兒童說話內容進行謄寫的書,以及一位語言學家記錄的兒童發(fā)出的實際音素的清單。這就意味著,謝伊諾斯基和羅森伯格能夠將第一個謄寫本用于輸入層,將第二個音素清單用于輸出層。使用“反向傳播”以后,NETtalk能夠學習如何像孩子那樣說話。一段NETtalk的錄音說明了該系統(tǒng)在這方面取得了飛速的進展。在訓練之初,系統(tǒng)只能夠區(qū)分元音和輔音,其發(fā)出的噪聲則像是歌手表演前做的發(fā)聲練習。在訓練了1 000 個單詞以后,NETtalk發(fā)出的聲音更接近人類發(fā)出的聲音了。謝伊諾斯基說道:“我們完全震驚了,尤其是在當時計算機的計算能力還不如現在的手表的情況下?!?/p>
聯(lián)結主義者
有了杰夫?辛頓等人的幫助,神經網絡開始蓬勃發(fā)展。當時有一個傳統(tǒng),那就是繼任的一代都會給自己重新命名,新研究人員們稱自己為“聯(lián)結主義者”,因為他們對復制大腦中的神經聯(lián)結十分感興趣。到1991 年,僅在美國就有1 萬名活躍的聯(lián)結理論研究人員。
忽然之間,各個領域都取得了突破性的進展。例如,人們發(fā)明了專門用于預測股市的神經網絡。大多數情況下,投資公司使用不同的網絡預測不同的股票,然后由交易商來決定投資哪只股票。然而,有些人在此基礎上更進一步,賦予網絡本身自主權,使其能夠自行買賣。無獨有偶,金融領域迅速涉足電子游戲領域,時刻準備著為人工智能研究人員進行投資。算法交易時代轟轟烈烈地開始了。
當時神經網絡領域的另一個引人注目的應用就是自動駕駛汽車。發(fā)明自動駕駛汽車一直是技術人員的夢想。1925年,發(fā)明家弗朗西斯?霍迪納(Francis Houdina)展示了一款無線電控制的汽車,他操控汽車行駛在曼哈頓的街頭,而車中無須人來操控方向盤。之后,自動駕駛汽車測試使用導絲和車載傳感器使汽車能夠按照路上畫好的白線行駛,或通過識別出地下電纜發(fā)出的交流電行駛。1969年,約翰?麥卡錫發(fā)表了一篇標題為“計算機控制汽車”的論文極具挑戰(zhàn)性。麥卡錫所提議的方案基本上是設計一個“自動化司機”。他的項目需要一個能夠進行公路導航的計算機,計算機上僅帶有一個電視攝像機來輸入信息,該輸入使用與人類司機相同的視覺輸入。麥卡錫假設用戶能夠使用鍵盤輸入地點,并要求汽車立即載他們過去。緊急情況下,用戶可以使用額外的命令變更目的地,要求汽車停在洗手間或賓館門口,在有緊急情況時減速或加速。
類似的項目直到20世紀90年代早期才得以實現,當時卡內基—梅隆大學的研究人員迪安?波默洛(Dean Pomerleau)寫了一篇激動人心的博士論文,文章介紹了如何將“反向傳播”應用于無人駕駛汽車。波默洛稱其開發(fā)的神經網絡為神經網絡中的無人駕駛汽車或ALVINN(控制器),并將道路上的原始圖像作為輸入信息,并實時輸出轉向控制信息。當時,還有許多其他傳統(tǒng)人工智能博士正在研究類似的自動駕駛項目。這些非神經網絡的方法主要通過嚴謹的像素分析將各圖像劃分為不同類別,例如“道路”和“非道路”。然而,與許多傳統(tǒng)人工智能面臨的問題一樣,計算機很難將信息解析為像實時路況那樣的非結構化信息。假如一輛自動駕駛汽車依靠這一技術進行危險的高速行駛,發(fā)生事故的可能性是很大的。波默洛回憶道:“它們可能將樹影或者樹木本身識別成道路,這樣車輛就會朝著樹直接開過去,而不是避讓。”
為了訓練ALVINN,駕駛員只需簡單地駕駛一段路程。波默洛說道:“駕駛員只需駕駛2—3 分鐘,ALVINN 系統(tǒng)就能夠了解并更新反向傳播網絡的權重。結束駕駛時,駕駛員可以放開方向盤,系統(tǒng)會繼續(xù)駕駛車輛開始一段新的路程。”波默洛的發(fā)明只關注了方向,卻無法控制速度或避開障礙物,這兩點必須由駕駛員來完成。盡管如此,波默洛也取得了巨大的成功,1995 年,龐蒂克小型貨車上安裝了從舊汽車上回收的ALVINN 的升級版——RALPH(快速調節(jié)橫向位置處理器)。波默洛和一位名為托德?約赫姆(Todd Jochem)的研究人員為其配備了一臺電腦、640×480 像素的彩色照相機、全球定位系統(tǒng)接收器和光纖陀螺儀,之后他們駕駛該車橫穿美國。借鑒了1986 年“攜手美國” (Hands Across America)慈善活動的名稱,他們將這次旅行稱為“橫穿美國”(NO Hands Across America)。他們在路上賣10 美元一件的襯衫,用于支付食宿費用。最后,這輛汽車一共行駛了2 797英里,途經匹茲堡、賓夕法尼亞、圣地亞哥、加利福尼亞,中間還穿過了胡佛水壩,這一切都是汽車自動駕駛完成的。《商業(yè)周刊》的一位記者在報道這一事件時,一名堪薩斯州騎兵要求其將車停到路邊。而波默洛和約赫姆乘自動駕駛汽車旅行,甚至連雙手都無須握住方向盤。
15年后,谷歌在2010年10月發(fā)布了自己的無人駕駛汽車項目。然而,我們仍要感謝波默洛在神經網絡領域做出的開創(chuàng)性貢獻,他證明了自己的觀點。
歡迎來到深度學習領域
神經網絡在21世紀中葉迎來了又一次重大進展。2005年,杰夫?辛頓在多倫多大學任教,此前不久,他一直在英國倫敦大學學院工作,在那里建立了蓋茨比計算神經科學組。這時,人們已經清楚地認識到,互聯(lián)網能夠生成大量數據集,這在10年前是想都不敢想的。如果說以前的研究人員面臨的問題是沒有足夠的數據來對系統(tǒng)進行適當的訓練,那么互聯(lián)網的興起則大大改善了這一狀況。如今,據國際數據公司等研究公司估測,目前網上在線數據量約為4.4澤字節(jié)a。記者史蒂夫?洛爾(Steve Lohr)在其所著的極為有趣的《數據論》一書中指出,如果能將這些數據輸入iPad Air(蘋果超薄平板電腦)中,那么產生的堆棧將能夠覆蓋地球到月球距離的2/3。
然而,就像地球雖然有大量的水,但并不是所有水都可以喝一樣,這些數據中好多都是未標記的。當數據集較小時,研究人員可以將主要精力放在正確標記所有數據上,這對訓練系統(tǒng)來說更加有用。然而,隨著數據量的增加,研究人員就無法再這樣做。例如,2013 年3 月,網絡相冊Flickr 共有8 700 萬注冊用戶,他們每天上傳超過350 萬張新圖片。從理論上看,這對那些想要建造一個能夠識別圖片的神經網絡的人們來說是一個天大的好消息,但同樣也提出了挑戰(zhàn)。正如我們所看到的,訓練神經網絡最簡單的方法就是向其展示大量圖片,然后指出每張圖片都是什么。通過標記圖片,訓練員既提供了輸入(圖片),又提供了輸出(描述)。神經網絡就可以反向傳播,以糾正錯誤。這就是我們所了解的“監(jiān)督式學習”。但是,流通中還有許多未標記或沒有正確標記的圖片,計算機如何對其進行識別呢?
幸運的是,杰夫?辛頓掀起了一場“非監(jiān)督式學習”的革命,這種學習方式無須向計算機提供任何標記。機器能夠訪問的只有輸入,無須解釋它看到的是什么。首先,這聽起來像是機器無法通過這種方式學習。如果沒有得到明確的解釋,即使是最智能的神經網絡也不會知道某物到底是什么。實際上,辛頓發(fā)現的是“非監(jiān)督式學習”可以用來訓練上層特征,而且每次只能訓練一層。這一發(fā)現成為“深度學習”的催化劑,而“深度學習”就是當前人工智能最炙手可熱的領域。
我們可以將深度學習網絡想象成工廠的一條生產線。輸入原材料后,它們將隨著傳送帶向下傳遞,后續(xù)的各個站點或層會分別提取不同的高級特性。為了繼續(xù)完成一個圖像識別網絡的案例,第一層將用來分析像素亮度。下一層將根據相似像素的輪廓來確定圖中存在的所有邊界。之后,第三層將用來識別質地和形狀等。到達第四層或第五層時,深度學習網絡已經創(chuàng)建了復雜特性檢測器。這時,它就能夠了解4個輪子、擋風玻璃和排氣管通常是同時出現的,眼睛、鼻子和嘴也是同時出現的。它不知道的僅僅是汽車和人臉都是什么樣的。深度學習網絡能夠識別的許多特性可能都和手頭的任務無關,但是其中有一些特性卻是和手頭任務高度相關的。
辛頓解釋道:“訓練這些特性檢測器時,每次訓練一層,這一層都試圖在下面一層找到結構模式。之后,就可以在頂部貼上標簽并使用反向傳播來進行微調?!苯Y果深深震撼了人工智能界。辛頓回憶道:“其中涉及一些數學問題,這總會給人們留下深刻的印象?!?/p>
有關深度學習的消息迅速傳開。辛頓實驗室的兩名成員喬治?達爾(George Dahl)和阿卜杜勒–拉赫曼?穆罕默德(Abdel-rahman Mohamed)迅速論證了該系統(tǒng)不僅能夠進行圖像識別,還能夠進行語音識別。2009年,倆人將其新創(chuàng)建的語音識別神經網絡與已經使用了30多年的行業(yè)標準工具放到一起一較高下,結果是,深度學習網絡獲得了勝利。這時,谷歌邀請辛頓的一位博士生納瓦迪普?杰特列(NavdeepJaitly)修補谷歌的語音識別算法。看了一眼之后,他建議用深度神經網絡取代整個系統(tǒng)。盡管一開始持懷疑態(tài)度,但杰特列的老板最終同意讓他嘗試一下。事實證明,新的程序比谷歌精心調試數年的系統(tǒng)表現還要出色。2012 年,谷歌將深度學習語音識別程序嵌入安卓移動平臺,錯誤率與之前相比立刻下降了25%。
那年夏天,辛頓終于收到了谷歌的電話。這個搜索巨頭邀請他夏天到位于加利福尼亞州山景城的校園工作。盡管辛頓當時已經64 歲了,谷歌卻將他定為“實習生”,因為員工必須嚴格服從公司政策,即必須在公司工作好幾個月之后才能被授予“訪問科學家”的頭銜。盡管如此,辛頓仍然加入了由20 歲出頭的年輕人組成的實習生組。他甚至還戴上了新實習生們專用的上面帶有螺旋槳圖案的帽子,被稱作“新谷歌人”(Nooglers)。辛頓說: “我一定是史上最老的實習生。”當時,他開玩笑似的表示,那些并不知道他是誰的年輕同事肯定是把他當作“老笨蛋”了。
辛頓在谷歌的工作涉及為其他潛在的應用提出有關深度學習的建議。那年夏天的工作進展得十分順利,第二年,谷歌正式聘用了辛頓。除他之外,谷歌還聘請了他的兩名研究生,辛頓和這兩名研究生共同創(chuàng)建了一家名為“DNNresearch”的公司。辛頓在一篇聲明中寫道:“我會繼續(xù)在多倫多大學兼職任教,在那里我還有很多出色的研究生,但是在谷歌我能夠看到我們如何處理超大型計算?!痹谏窠浘W絡領域孤獨地耕耘了30年后,杰夫?辛頓最終在世界最大的人工智能公司發(fā)揮了重要作用。
1998年,蘋果公司推出了其外觀線條呈圓形的iMac電腦;《哈利?波特》風靡世界;第一款移動MP3播放器上市;一位來自雷丁大學控制論專業(yè)的44歲教授在這一年進行了一項非同尋常的運算。凱文?沃維克(Kevin Warwick)教授進行了一個非急需外科手術,目的是將一個包在玻璃管內的硅片植入自己的左臂皮膚之下。一旦植入人體,這款射頻識別設備(RFID)的芯片發(fā)出的無線電信號,就能經由實驗室周圍的天線,隨即傳入能夠控制沃維克周圍環(huán)境的中央計算機。“在(我的實驗室)的主入口處,當我進門時,一個由計算機操作的音箱發(fā)出‘你好’的聲音?!焙髞韯P文?沃維克記下了他的體驗:“計算機檢測到我進入大樓的過程,當我走近實驗室的時候,為我開了門,點亮了燈。芯片植入體內后的9天里,我僅僅沿著特定的方向行進,就可以觸發(fā)周圍的物體自己行動?!?/p>
約20 年后再來看,沃維克的這項實驗依然震憾人心、發(fā)人深省。與沃維克職業(yè)生涯的其他事情相比而言,這項實驗最有意義。然而,在過去的幾十年里,我們對此事的驚詫程度可能多多少少發(fā)生了改變。盡管回避有人愿意采取這種侵入式手術的原因依然很容易,但關于為什么有人想這么做的問題已經不再重要。寫這篇文章的時候,我的手腕上帶著一塊42 毫米的不銹鋼蘋果手表,搭配了米蘭風格的表帶。這款表價格為599 英鎊,它能實現的功能遠遠超過凱文?沃維克在其植入式射頻識別設備上所設想的功能。一旦我收到一條短信或一個電話,或者如果我的朋友在圖片分享網站Instagram貼了一張新圖,我只需要看看手表就一目了然。而且在超市購物時,我可以用手表刷卡支付。同樣,我也可以用手表打開世界各地酒店的房門。外出的時候,手表連續(xù)發(fā)出的嘀嗒聲和震動可以告訴我應該走哪條路。一串嘀嗒聲提醒我右轉,另一串嘀嗒聲則提醒我左轉。第一次震動表明我的旅程結束了,而第二次震動則告訴我到達目的地了。所有這些功能并不需要進行侵入式手術。
如果你正在閱讀這本書,你很可能對“智能設備”這個名詞并不陌生。除了種類日益繁多的智能手表,如Pebble(一款智能手表)、Android Wear(安卓的可穿戴應用程序)及其他設備,還有智能跑鞋,智能跑鞋能夠記錄步數、心跳頻率,并使用嵌入式屏幕傳達你的情緒,比如使用笑臉和愛心等符號。智能冰箱不但可以記錄溫度與冷藏的食品,還會在你最喜歡的食物就要吃完了或將要變質的時候通知你。還有智能安全攝像頭、智能廚房秤、智能燈泡、智能馬桶、智能尿片和智能牙刷。2014年,谷歌以驚人的32億美元現金收購了最著名的智能設備公司Nest Labs。Nest Labs由蘋果前雇員馬特?羅杰斯(Matt Rogers)和“iPod之父”托尼?法德爾(Tony Fadell)聯(lián)手創(chuàng)立,打造了多款可以聯(lián)網的智能設備,其中最重要的是智能恒溫器,通過一段時間的學習,這款恒溫器可以了解用戶的習慣,并相應自動地調節(jié)溫度。
傳感器、人工智能算法與通過Wi-Fi(無線局域網技術)實現的持續(xù)聯(lián)網狀態(tài)相結合,使這些設備變得“智能化”。以前,接入網絡而變得智能是一件令人們不得不“大費周折”的事。今天,我們的在線連接很少出現中斷的現象??偟膩碚f,這些進展使我們從用戶那里收集數據、分享數據,并且?guī)椭脩衾斫鈹祿蔀榭赡堋!皵祿x予我們力量,”世界第一個聯(lián)網電動牙刷生產商Kolibree的營銷與戰(zhàn)略總裁勒妮?布洛杰特(Renee Blodgett)表示:“這是我們第一次將刷牙方式、刷牙部位以及刷牙時哪里需要改進結合在一起。”在我們擁有智能牙刷之前(這對我而言,就是現在),我們不得不依靠一年前進行年度檢查時牙醫(yī)的反饋。而通過智能牙刷,我們可以實時獲得這些信息。
智能設備成為現代生活的必需品
現在,我們處于未來技術的“早期采用”階段,未來技術的支持者聲稱,這些技術將像19 世紀末、20 世紀初電力時代的到來一樣,帶來一場巨大的變革。1879 年,美國發(fā)明家托馬斯?愛迪生已經能夠在加利福尼亞州門洛帕克市自己的實驗室里生產可靠耐用的電燈泡了。到了20 世紀30 年代,美國90% 的城市居民,以及越來越多的農村地區(qū)的人們都可以利用這項技術。隨著開關的撥動,電賦予人們控制光的能力,人們能夠控制自己家和工作場所的光線。這打破了生活的正常生物節(jié)奏,使人們能夠隨心所欲地安排自己的工作和娛樂時間。隨之而來的電網引入了大量的連接設備,創(chuàng)造了工業(yè),并永遠地改變了人們的生活。
美國西爾斯百貨(當時一家初具規(guī)模的郵購公司)1917 年春季的商品目錄使公眾知道“電不僅僅可以用來照明”。事實確實如此。鐵熨斗、洗衣機和真空吸塵器使洗衣與清潔更加容易。由于效率的提高,不但清潔度上升了,而且家庭雇用的家政人員數量也越來越少。電冰箱取代了冰盒,使食物更加易于長期保存。天熱的時候,我們可以使用電扇,而天冷的時候,我們可以使用輻射發(fā)熱器,這是人類第一次能夠控制氣溫。電力為大眾帶來了電話與飛機,并在即時通信年代,受到了新聞與娛樂行業(yè)的追捧。1938 年,美國前總統(tǒng)富蘭克林?羅斯福在佐治亞州巴恩斯維爾演講時宣稱,電力是現代生活的必需品。
我們能否開啟一條同樣的智能設備變革之旅?或許是可以的。當然,移動無線網絡的崛起意味著設備的使用比以前更加方便?!拔锫?lián)網”(這個定義有時候顯得相當笨拙)之夢是,智能硬件要像一個世紀以前的電力那樣,成為21世紀重要的“現代生活的必需品”。那時我們進入了電氣化時代,現在我們將進入互聯(lián)時代。
當前,智能設備領域充斥著大肆炒作之風,愛立信公司的分析師預測,到2020年全球將有約500億臺智能設備,相當于人均6.8臺。“這不僅是一場進化,這還是一場革命?!碧O果前雇員、現在掌管創(chuàng)業(yè)公司SITU(該公司生產量化卡路里攝入量的智能天平)的邁克爾?格羅特豪斯(Michael Grothaus)表示:“這是自個人電腦誕生以來,技術界最激動人心的事了。”
會思考的事物
1991年,劍橋大學計算機科學系特洛伊木馬研究室的研究人員提出了一個新的想法。他們在自己的研究室中放置了一個共用的咖啡壺,然后決定安裝一臺攝像機用以監(jiān)視一天的咖啡用量。研究人員將攝像機設定為每秒捕捉一幀,然后將其編碼為灰度級的JPEG格式文件,最后將圖片文件通過早期的萬維網發(fā)出去。通過各自的計算機,該系研究人員可以登錄到“視頻”源中查看壺里是否還有剩余的咖啡,從而省去他們去打咖啡的無用功。
“‘咖啡俱樂部’的一些成員位于大樓的其他區(qū)域,他們不得不為打咖啡爬上爬下,如果特洛伊木馬研究室熬夜的黑客們先打了咖啡,那么其他成員打咖啡的結果常常是無功而返?!碑敃r在系里工作的計算機科學家昆汀?斯塔福德– 弗雷澤(Quentin Stafford-Fraser)牢騷滿腹地說:“這樣打咖啡對計算機科學研究進程造成的中斷,顯然使我們非??鄲溃谑恰甔Coffee’(X 咖啡)就這樣誕生了?!?/p>
我之所以提出XCoffee,因為它證明了一個非常重要的觀點,即什么是我們認為的“智能技術”。XCoffee也常常被看作智能設備現代趨勢的早期例子。某種程度而言,這是真的。與許多最新的智能配件一樣,XCoffee與網絡連接,因而也成了所謂的“物聯(lián)網”的一部分。但是對我而言,XCoffee更接近硬件極客所說的“黑掉”的范例,“黑掉”這個術語就是俗話說的解決棘手問題的高明方法。成為今天我們稱作智能設備(麻省理工學院媒體實驗室稱之為“會思考的事物”)的前提條件是,它必須以一種自我管理的反饋回路而存在,無須過多人工干預就能夠自動運行。物聯(lián)網并不僅僅把“物”連接到互聯(lián)網。傳統(tǒng)互聯(lián)網使人們能夠搜索、下載音樂或者閱讀信息。另一方面,物聯(lián)網主要用于非人類實體的交流,這是越來越多的人熱衷于M2M(機器對機器)交流的原因。
智能設備應該能夠感知自己所處的環(huán)境、識別特定狀態(tài)、觸發(fā)評估、產生行為等等,從而形成一個連續(xù)的環(huán)路。智能設備的“智能”在于中間的部分,那里負責處理感知到的信息,以及如何基于信息采取具體的行動。一臺真正智能的咖啡機不只是提醒人們咖啡機空了,而是能夠計算出使用者可能口渴的時間,并且自己能及時重新加滿咖啡,調制出咖啡成品以滿足使用者的個體需求。甚至基于無人控制的桌對桌(desk-to-desk)送貨也是可能的。
“控制論”簡史
我們將在本章討論的多數智能設備都包含機器學習的元素。正如圍繞人工智能的各種問題都可以回溯至數百年前一樣,關于具有自我調節(jié)功能的機器的想法也同樣如此。早在公元前205年,寓居于埃及亞歷山大港的希臘數學家克特西比烏斯就建造了世界上第一臺能自我控制的設備??颂匚鞅葹跛沟淖髌肥且慌_水鐘,其最大特點就是擁有一個可以保持恒定流速的校正器。這臺水鐘通過設在水缸里的浮子計時。水從水缸底部的小孔滴落,浮子就隨著水位下降。每運行一單位的時間,浮子頂端的類似于人偶的器械就進行一次齒輪機械操作??颂匚鞅葹跛顾娪卸鄠€不同版本,在不同版本中,它要么落下一塊卵石,要么鳴響一聲喇叭。
克特西比烏斯水鐘意義重大,因為它永久性地改變了我們對人造之物的認知。早在克特西比烏斯水鐘之前,人們認為只有有生命的東西能夠根據環(huán)境的變化調整自己的行為。而克特西比烏斯水鐘誕生之后,自我調節(jié)反饋控制系統(tǒng)成了我們技術的一部分。
進入20 世紀,影響后世的人工智能先驅諾伯特?維納(Norbert Wiener)制定了反饋系統(tǒng)的數學理論。維納提出一個設想:智能行為是接收和處理信息的必然結果。這個設想就是眾所周知的控制論。“二戰(zhàn)”期間,當維納與其同事朱利安?畢格羅(Julian Bigelow)在從事旨在提高高射炮精確率工程的時候,他的反饋系統(tǒng)理論得到了細化。維納和畢格羅解決了向飛行中的飛機提高開火準確率的難題。這曾經是個難題,因為炮手必須預先判斷目標的位置。他們的解決方案是通過預測目標飛行位置并相應調?;鹋诘拿闇势?,從而自動調整炮手的瞄準過程。
維納關于感知和反饋作為一種優(yōu)化性能的方法的設想不僅僅只是用于戰(zhàn)爭。維納與之前的研究者不同,他將反饋構想成一種通用的普適原則。他認為,反饋能夠以同樣的方式應用于機器、組織、城市甚至是人的大腦。他在1905 年出版的《人類的人類用法》(The Human Use of Human Beings)一書中記錄下了許多這樣的設想,此書比“人工智能”的正式問世早了6 年。作為一本出人意料的暢銷書,它描述了智能自動化推動社會進步的各種方式。維納拋棄了建造能夠思考的機器來替代人類的想法,而是在他的書中討論了人類與機器可以合作的方式。在導讀中,他寫道:
這是本書的論點:只有通過學習屬于社會的信息與掌握通信設施才能了解社會;而且,在這些信息與通信設施未來的發(fā)展過程中,人與機器、機器與人以及機器與機器之間的信息注定要發(fā)揮越來越重要的作用。
控制論從來沒有像人工智能那樣獲得過大量的研究經費。然而,關于可以用于預測未來的數學反饋系統(tǒng)的設想幾乎是建造今天所有智能設備的基礎。例如,標準的“無聲”恒溫器通過傳感器收到溫度信息,并根據其冷熱程度,為你開啟火爐或空調。另一方面,一個“智能”恒溫器能夠整合其他數據源,如當天的天氣預報或家里人對房間溫度的歷史設定信息。它甚至可以根據房間內多人的身體傳感器讀數的集合,選擇一個平均的溫度。代替那種簡單的反應式工作,智能設備的工作變成了預測式的。
這要求不同設備之間相互作用。與預先連接的同類設備相比,這些智能設備可能是相對智能些,但離我們實際稱之為的“智能”還相去甚遠。但是當設備彼此之間能夠分享數據和目標時,新的可能性就展現了出來。這就是專家所描述的“環(huán)境智能”,即通過使用嵌入網絡的智能,多種設備共同執(zhí)行各種任務。就像白蟻共同建造一處蟻穴一樣,整體是大于部分的總和的。
早期的自動機器人
這種對機器與環(huán)境(或者更好的情況是,多種機器與其環(huán)境)之間突發(fā)行為的興趣源于控制論運動,并引發(fā)了機器人領域的一些早期重要工作,如威廉?格雷?沃爾特(William Grey Walter)所從事的工作,他是一位出生在美國而生活在英國的神經科學家。1949 年,沃爾特建立了世界上第一對三輪機器人,他稱之為“烏龜”。與剛剛開始研究數字計算機的計算機科學家不同,沃爾特依靠模擬電子學來仿制其機器人的大腦。他的目標是證明少量腦細胞之間豐富的關系能夠產生復雜的行為。他對這樣的概念十分癡迷,即機器可以定義目標,并隨后通過學習自己的行為產生的后果從而完成目標。
沃爾特的“ 烏龜” 分別名為埃爾默(Elmer)和埃爾希(Elsie),都裝配有光敏元件、標志燈、觸摸感應器、推進馬達、轉向馬達和保護殼。盡管這對機器人還不能可靠地工作,但它們能夠自動探測周圍的環(huán)境。在沃爾特所著《活著的大腦》(The Living Brain)一書里,他回憶了一段經歷:一位年長的女士認為這對自主漫游的機器人在追逐她,于是逃上樓將自己鎖在臥室。在沃爾特工作的位于布里斯托爾的博爾頓神經學研究所(Burden Neurological Institute),沃爾特在技術人員W. J. 邦尼?沃倫(W. J. Bunny Warren)的幫助下,使烏龜機器人得到了改進。他在1951 年的“不列顛節(jié)”(Festival of Britain)上展示了后續(xù)三臺“馬基納?斯巴卡拉特里克斯”(MachinaSpeculatrix)機器人,它們基于埃爾默和埃爾希原型進行了許多重大改進。其中包括當電池即將耗盡時,機器人會轉身向光源前進。今天,雖然人們幾乎已經遺忘了沃爾特的烏龜機器人,但是它們是早期自動機器人的典范,能夠通過自己的行為,以試錯的方式進行學習。
談到威廉?格雷?沃爾特的烏龜機器人的后續(xù)產品,就不可能不提到iRobot公司創(chuàng)造的真空清潔機器人Roomba。Roomba呈小型圓盤狀,在計算機的引導下可以在家里自動工作。盡管它可以通過基于反饋的“智能”對刺激做出反應,但一般情況下,它遵循一系列預先設計的清潔策略。首先,它會一直清理直至與障礙物發(fā)生碰撞,碰撞指示其改變線路并以新方向重新開始清理。為了使之有效移動,Roomba包含了許多智能傳感器,其中兩個是紅外傳感器,幫助它檢查墻體以及被它稱為“懸崖”的物體,比如樓梯和其他會造成下落的地方。當Roomba撞到障礙物時,觸摸感應緩沖器會阻止其向前行進。在Roomba的下面裝配有俗稱的“壓電傳感器”,可以檢測到灰塵。如果在一個地方發(fā)現過多的灰塵,Roomba將重復其步驟以進行第二次清理,第二次速度將放慢并清理得更加徹底。僅僅觀察這些簡單的步驟,Roomba就展示出了一種看上去像是由人執(zhí)行的突發(fā)行為。
某種意義而言,“突發(fā)”這個詞表明這種行為是不可預測的,其實不然。如果完全基于上述的簡單規(guī)則,我們可以理解為什么Roomba能以自己的方式行動。然而,如同沃爾特的“烏龜”一樣,當Roomba設法完成自己的任務時,行為實體(behavioural agent)與環(huán)境的結合可能產生一些意想不到的響應。
單獨一臺Roomba的運行和表現都非常好。但是,就像沃爾特通過其烏龜機器人所發(fā)現的,當不止一臺實體相互作用的時候,事情就真的變得很有趣了。沃爾特最有趣的觀察結果是,當這些“烏龜”彼此圍繞旋轉的時候,他發(fā)現了它們“跳舞”的方式。這種舞蹈由一種看上去由機器人儀式化的碰撞和后退組成。這是他裝在烏龜機器人身上的標志燈造成的,當轉向馬達開啟的時候標志燈就亮了,而轉向馬達停止時標志燈就熄滅了。由于每個烏龜機器人依靠對方的標志燈來定位,它們就像同一物種的兩個生物首次見面一樣彼此吸引。當“烏龜”走過顯現它們身影的鏡子時,會發(fā)生同樣的現象。沃爾特宣布,如果這是一種動物行為的話,這種行為“或許可以證明烏龜機器人具有自我意識”。
即使Roomba 的熱衷者也不愿意承認兩臺交互的真空清潔機器人具有“自我意識”,但沃爾特表明多重代理系統(tǒng)使智能設備變得更加有趣,這點是沒有錯的。舉例來說,如果你家的門能夠自動開或關,從而使Roomba 可以一次清掃多個房間,這將產生什么效果呢?這在某些場合是令人滿意的,比如,如果你有一只寵物而你不希望它進入某一房間,或者如果你有一個特殊的房間在供暖,你不想它進入這個房間。同樣,如果Roomba 能夠接入裝在前門或汽車里的傳感器,并且知道在你去上班的時候就開始工作,那么你回家的時候清潔工作就已經完成了?;蛟S,這就是那些制造智能設備的大公司正在努力的方向。
2015年6月之前,我從來不會花很多時間考慮諸如哪個城市的居民睡眠最少,抑或通勤不足5英里的上班人士是否比距離更遠的人鍛煉得更多這樣的問題。然而對于感興趣的人而言,答案分別是:日本東京的市民睡眠最少(平均每天睡5小時44分鐘);“是的,通勤不足5英里的上班人士比距離更遠的人鍛煉得更多”(每天多走422步)。
這是班達爾?安塔比(Bandar Antabi)告訴我的。安塔比無疑是世界上最佳的酒吧競猜選手。你若問他,他會告訴你,如果你希望夜晚早點降臨的話,那么你最佳的居住地是澳大利亞的布里斯班,在那兒,人們大約晚上10點57分就要進入夢鄉(xiāng),而“夜貓子”的首選居住之地應該是俄羅斯的莫斯科,那里通常凌晨12點46分才是人們入睡的時間。他說,在情人節(jié)女人會比平時少吃約3%的大蒜,但是當天男人會多吃37%。瑞典的斯德哥爾摩人是最活躍的步行者(按每天平均量計算),而巴西圣保羅人是世界上最不活躍的步行者,等等,就像你把達斯汀?霍夫曼(Dustin Hoffman)在《雨人》中的角色放在維基百科上數小時一樣,很快你就得到了所有答案。
班達爾是個非常聰明的人,但他也是個非常不擅長處理瑣事的人。他能采集這些信息是因為作為特殊項目主管,他所任職的公司Jawbone已經花費多年時間不知疲倦地在收集這些信息。
1999 年,Jawbone 以為美軍開發(fā)降噪技術而起家,隨后才涉足藍牙頭戴設備、揚聲器以及后來的可穿戴生活記錄儀等領域。就是可穿戴生活記錄儀這種裝滿傳感器的智能設備使Jawbone 今天聞名于世,如UP3,它是一種如同手表的細腕帶,專注地記錄著從你的睡眠模式、呼吸節(jié)奏、心率到“皮膚電反應”等所有事情的設備。Jawbone 的大量用戶所生成的原始數據使班達爾知道了如此多的“真相”。現在,這些數據包括了3 萬億步、2.5 億次睡眠以及將近200 萬頓飯。隨著時間的流逝,數據將繼續(xù)增加,還可能納入幾十種其他的計量內容,如用戶每天攝入的咖啡因總量等。簡而言之,Jawbone 希望成為你計量生物學上的記錄者。
“我們的任務是建立這種個性化的數據集,它整合了你的個人身份、檔案、生物學信息、年齡、身高、性別、飲食偏好、情緒等信息?!卑噙_爾告訴我這些的時候,我在Jawbone 英國公司的總部諾丁山辦公大廈13 層,坐在他的對面,喝著一杯星巴克咖啡。他繼續(xù)說道:“我們也想了解你的相關活動。你什么時候坐著,什么時候活動且消耗卡路里,你的睡眠質量如何。通過挖掘這些信息,隨著時間的推移,我們可以為你提供大量的信息。我們正在建立一個關于你的健康的場景化數據集?!?/p>
Jawbone 與許多技術硬件公司建立了有經紀人參與的合作,但是如果只是分享數據的話,這些業(yè)務是不值得我花費筆墨的。你的恒溫器真的需要知道在昨夜的晚餐中你吃了什么嗎?如果你的電視知道你一周要慢跑4 次,這會對你有什么好處呢?班達爾說,實際上這意義深遠?!坝袛祿m然是好事,”他對我說,“但是理解數據才是我們關注的?!?/p>
“理解數據”意味著可以通過恰當的人工智能算法,以具有上下文意義的方式分析你的數據。“我們可以使用這種技術,以一種有利的方式將數據用于適合的設備?!彼^續(xù)說道,“比如,你可以將Jawbone的智能設備與你的智能恒溫器配對,那么當你睡覺的時候,臥室里的溫度可以自動調節(jié)至最有利于你睡眠的狀態(tài)。當你醒來時,溫度可以再次改變。”
這些數據處理即通常所說的事件驅動程序或者IFTTT規(guī)則(通過不同平臺的條件來決定是否執(zhí)行下一條命令)。這些簡單的規(guī)則,依據簡單的方法,將服務環(huán)節(jié)串聯(lián)了起來。IFTTT規(guī)則先驅林登?蒂貝茨(Linden Tibbets)曾將這些規(guī)則稱為“數字傳送帶”,因為它們可以使智能技術的創(chuàng)造者或用戶將完全割裂的概念聯(lián)系起來。這種在智能設備領域可能或者當前正在發(fā)生作用的交互例子不勝枚舉,比如,如果你的汽車知道你昨夜沒有睡好,它可以從你的智能恒溫器提取數據,這些數據如果顯示出你遇到寒冷會更精神,它就可以打開空調,確保你能保持足夠的清醒。通過你的可穿戴健身記錄儀,它可以了解到當你聽某一類型音樂時你的表現最佳,因此,它可以自動播放金屬樂隊的音樂使你一天都活躍起來。它甚至可以知道昨夜你和朋友外出聚會,現在仍然還處于醉酒狀態(tài)。為了實現這點,它使用嵌入在變速桿上的傳感器,分析你手掌汗液里的酒精含量。如果遇到這種狀況,它會讓汽車熄火,并建議你呼叫一輛優(yōu)步(Uber)出租車。
還有一個例子,你的智能電視可以收到你的睡眠記錄,并可以基于你一天的時間安排為你提供定制化收看電視節(jié)目的時間建議。如果晚上9 點放棄看讓你腦子興奮好幾個小時的《權力游戲》(Game of Thrones)這樣的節(jié)目后,為什么不選擇看《摩登家庭》(Modern Family)呢?或許你在觀看一個你喜歡的烹飪節(jié)目,智能電視就將節(jié)目中的食譜發(fā)送至智能冰箱,冰箱監(jiān)控著所有食物,所以它知道里面是否存放有烹飪這道菜所必需的各種原料。如果沒有的話,它可以將所需原料加入家庭采購雜貨的快遞清單之中。隨著越來越多的設備與網絡連接,能夠提取彼此的數據并由事件驅動程序將它們相互關聯(lián),技術迷期待已久的夢想即將實現了。