另外,李開復還說,如果從過去深藍擊敗世界冠軍的“成長過程”來看,深藍大約1993年達到職業(yè)大師水平,4年后才在一場六盤的比賽中擊敗世界冠軍(大約500Elo積分點的提升)。今天的AlphaGo應該和1993年的深藍相似,剛進入職業(yè)大師水平。若要擊敗世界冠軍,雖然未必需要4年的時間,但是幾個月似乎不夠。
雖然沒有給出明確的預測結果,回答的很慎重。另外,存儲在線總編宋家雨昨天撰文從理性角度分析了AlphaGO下棋方法做出了對勝敗的預測。他提到:
從技術上看,AlphaGO涉及兩個專業(yè)術語:深度神經(jīng)網(wǎng)絡和蒙特卡洛算法。機器學習,神經(jīng)網(wǎng)絡,簡單說就是模擬人類大腦思考問題的方式。
有一種解釋比較透徹:機器下棋的算法本質(zhì)都是搜索樹,AlphaGO也不例外。IBM深藍就是依靠這種方法,該方法之所以不能應對圍棋,原因在于樹寬。國際象棋的樹寬只有幾十,圍棋則可以達到300多(3611),在有限時間內(nèi)要遍歷300多樹寬,就只有犧牲遍歷深度(俗稱“往后看幾步”),而圍棋又是依賴遠見的游戲,不僅要看“幾步”,甚至要看幾十步,甚至上百步。
在圍棋比賽中,棋手經(jīng)常出現(xiàn)長考,其實就是計算這種深度。以往棋手長考時間很長,現(xiàn)在為了轉播需要,棋手的保留時間有限,所以很多情況來不及計算。對于AlphaGO也是如此,盡管擁有1202個CPU和176個GPU,40個線程,但面對圍棋比賽的需要,計算能力仍然受限,沒有辦法進行完全計算。
如果犧牲了遍歷深度,那么AlphaGO要想擊敗高手就是一個笑話。在不犧牲深度的情況下,就需要適當縮小樹寬,避免一些沒有必要的搜索樹的計算。所謂蒙特卡洛算法。采樣越多,越近似最優(yōu)解。就像從100個蘋果中挑出最大的。隨機拿1個,再隨機拿另外1個進行比較,留下大的,再隨機拿1個……,拿的次數(shù)越多,挑出的蘋果就越大,但除非拿100次,否則無法肯定挑出了最大的。這就屬于蒙特卡羅算法。與蒙特卡洛算法對應的是拉斯維加斯算法:采樣越多,越有機會找到最優(yōu)解。
采用蒙特卡洛算法,可以解決樹寬的問題,結合機器學習,AlphaGO被科學界寄予了厚望,存儲在線總編對比賽結果的預測是AlphaGO贏。
AlphaGo對未來的意義
AlphaGo 是什么?在今年一月的Nature上有AlphaGo的詳細介紹,AlphaGo是一套為了圍棋優(yōu)化的設計周密的深度學習引擎,使用了神經(jīng)網(wǎng)路加上MCTS (Monte Carlo tree search),并且用上了巨大的谷歌云計算資源,使用了GPU的通用計算能力。
AlphaGo的特點在于充分利用現(xiàn)在的機器學習技術,可擴張的架構,它不僅僅是用一臺超級計算機,而是可以利用谷歌龐大的計算資源來做這個深度學習,提升學習能力。谷歌提供了15-20名世界頂級的計算機科學家和機器學習專家和全世界最龐大的谷歌后臺計算平臺,看看能把圍棋這種高難度的人類游戲項目做到什么高度?
把人類感性的東西,通過計算機龐大的計算能力和高水平的人工智能程序來解釋,通過機器的自我學習來提升,這是很有意義的。
AlphaGo里面的深度學習、神經(jīng)網(wǎng)絡、MCTS,和AlphaGo的擴張能力計算能力都是通用的技術。AlphaGo今天要進入一個新的應用領域,用AlphaGo的底層技術和AlphaGo的團隊,應該可以更快更有效地開發(fā)出解決方案。
AlphaGo如果在圍棋上擊敗頂級的人類智能,那么這種學習能力用于其他難以精確計算而依靠人類經(jīng)驗判斷的領域,也會擊敗人類。
要知道,現(xiàn)在傳感器實際上有遠遠優(yōu)于人類的感知能力,如果計算機對非精確描述的事物學習能力也超過人類,那么人類真的就可以被替代了。
無人駕駛是小菜一碟,人類能學會的,計算機都可以學會,而且學得更好,那么人類的所有的技能與經(jīng)驗就全部變成可替代的了,包括編程。計算機可以自我發(fā)展,完成各種功能,人類的各種勞動都可以解放了。
這個世界聽上去似乎很熟悉,沒錯,The Matrix就在不遠的將來。