智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影
受Google谷歌邀請(qǐng),智東西到新加坡現(xiàn)場(chǎng)觀看了2024年國(guó)際象棋世界冠軍賽,深度體驗(yàn)了一把AI技術(shù)與棋藝的碰撞。
這次行程收獲頗豐,我們閉門(mén)觀看了Google DeepMind聯(lián)合創(chuàng)始人兼CEO Demis Hassabis的自傳電影《The Thinking Game》、聽(tīng)了Google DeepMind資深科學(xué)家Nenad Tomaev探討AlphaZero發(fā)展的演講,還在AI體驗(yàn)區(qū)暢玩生成式AI設(shè)計(jì)棋子。
這次谷歌作為大賽冠名贊助商,把AI和國(guó)際象棋的融合鼓搗出花,讓AI既做設(shè)計(jì),又當(dāng)起專(zhuān)業(yè)國(guó)際象棋解說(shuō)。
因?yàn)閷?duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的重大貢獻(xiàn),Google DeepMind聯(lián)合創(chuàng)始人兼CEO Demis Hassabis和Google DeepMind高級(jí)研究科學(xué)家John Jumper共同獲得了2024年諾貝爾化學(xué)獎(jiǎng),電影里回顧了兩人帶領(lǐng)團(tuán)隊(duì)用AI改變科研方式的幕后故事。
了解AI發(fā)展史的朋友想必都知道,AI和棋類(lèi)游戲是一對(duì)“初戀CP”。AI產(chǎn)業(yè)革命就是被2016年AlphaGo打敗世界圍棋冠軍李世石給喚醒的。
這次觀影會(huì),就帶領(lǐng)我們回顧了一手造就這對(duì)CP的過(guò)程。
據(jù)介紹這部自傳電影的拍攝耗時(shí)5年,一路跟拍Demis Hassabis和Google DeepMind團(tuán)隊(duì),揭秘了很多細(xì)節(jié),比如Demis Hassabis為啥會(huì)從國(guó)際象棋選手變成開(kāi)發(fā)游戲的,為啥在17歲時(shí)放棄100萬(wàn)美元堅(jiān)決要去讀大學(xué),又為啥在AI很冷門(mén)時(shí)就毅然要?jiǎng)?chuàng)辦一家AI公司,還選擇研究AI下棋這條古怪賽道。
就是這樣一個(gè)看起來(lái)完全不知道怎么盈利的創(chuàng)業(yè)方向,在近幾年為全人類(lèi)創(chuàng)造了無(wú)法估量的價(jià)值加速破解生命密碼、治愈疑難雜癥的進(jìn)程。
我們也跟隨鏡頭回到了AI產(chǎn)業(yè)革命的起點(diǎn),看到Demis Hassabis早期對(duì)游戲和戰(zhàn)略思維的熱情為他未來(lái)在AI領(lǐng)域的開(kāi)創(chuàng)性工作奠定基礎(chǔ),看到世界頂級(jí)AI研究機(jī)構(gòu)如何破釜沉舟、不懈追求創(chuàng)造出在各種任務(wù)上能媲美或超過(guò)人類(lèi)能力的AI。
一群技術(shù)理想主義者在前景模糊時(shí)選擇堅(jiān)定地往前走,最終贏得了世界的掌聲。
一、Demis Hassabis自傳:回首AGI來(lái)時(shí)路,在挫折中堅(jiān)持
片名《The Thinking Game》是整部影片的主線(xiàn)。
Demis Hassabis從小在國(guó)際象棋上天賦異稟,將這種腦力競(jìng)技視作一種“思維游戲《The Thinking Game》”。
他琢磨的“思維游戲”,在8歲時(shí)變成了寫(xiě)代碼和制作游戲,日后又變成了AI。他將構(gòu)建AGI(通用人工智能)視作人類(lèi)踏上的最令人興奮的旅程,想要終其一生進(jìn)行探索,使用AI作為最終工具來(lái)解決世界上復(fù)雜的科學(xué)問(wèn)題。
影片帶領(lǐng)觀眾一起穿越時(shí)空,走進(jìn)Google DeepMind實(shí)驗(yàn)室,通過(guò)快節(jié)奏的故事展開(kāi)和高密度的對(duì)話(huà)補(bǔ)充,回顧這個(gè)時(shí)代最重要的科學(xué)冒險(xiǎn)之一。
1、天才的覺(jué)醒
國(guó)際象棋的對(duì)決是頂尖腦力的碰撞。Demis Hassabis在4歲接觸國(guó)際象棋時(shí)就已經(jīng)展現(xiàn)出天賦,他在孩提時(shí)期就在思索:大腦是怎么做到的?
在12歲參加一場(chǎng)錦標(biāo)賽時(shí),他突然產(chǎn)生了一個(gè)直覺(jué):如果把這棟樓所有人的腦力插到一個(gè)系統(tǒng)里,能用來(lái)解決癌癥問(wèn)題。這使他覺(jué)察到國(guó)際象棋不是他一生該做的事。
17歲的Demis Hassabis被劍橋大學(xué)錄取時(shí),因?yàn)槟昙o(jì)太小沒(méi)達(dá)到入學(xué)標(biāo)準(zhǔn)。于是他加入了一家游戲開(kāi)發(fā)公司Bullfrog Games,參與開(kāi)發(fā)了史上最成功的游戲之一模仿人類(lèi)行為的《主題公園》(Theme Park),展現(xiàn)了AI如何能帶來(lái)改變。
后來(lái)Bullfrog老板愿掏100萬(wàn)美元,讓Demis Hassabis不要繼續(xù)上大學(xué)。在20世紀(jì)90年代,對(duì)于一個(gè)17歲的窮小子來(lái)說(shuō),100萬(wàn)是一筆相當(dāng)大的誘惑。但被拒絕了,他對(duì)上劍橋大學(xué)意向堅(jiān)決,想成為解決AI的人。
1997年,IBM“深藍(lán)”擊敗國(guó)際象棋冠軍卡斯帕羅夫。令Demis Hassabis印象深刻的不是AI系統(tǒng)“深藍(lán)”,而是卡斯帕羅夫的頭腦,他可以跟頂尖AI對(duì)弈,也可以做其他很多“深藍(lán)”不會(huì)的事情。
“通用”,才是真正智能的關(guān)鍵。
用AI解決生物醫(yī)學(xué)問(wèn)題的萌芽,則跟一個(gè)熱衷于蛋白質(zhì)折疊問(wèn)題的朋友有關(guān)。朋友癡迷的討論觸發(fā)Demis Hassabis的思考,他認(rèn)為這可以用AI改變。
2、秘密的啟航
Demis Hassabis剛開(kāi)始研究AI時(shí),在學(xué)術(shù)圈得不到什么支持。那會(huì)兒AI研究還是幾乎尷尬的存在,甚至不被認(rèn)為是門(mén)嚴(yán)肅的科學(xué)。
做AI將需要大量的資金、大量的計(jì)算,頂著巨大的風(fēng)險(xiǎn)。但他相信,一旦成功,這將是有史以來(lái)的一件大事!
為這個(gè)項(xiàng)目尋找初始資金異常困難,他們四處推銷(xiāo),告訴投資人這是有史以來(lái)最重要的事情,然后聽(tīng)到經(jīng)典問(wèn)題:你的產(chǎn)品是什么?怎么賺錢(qián)?
2010年,Demis Hassabis等人創(chuàng)辦DeepMind,并堅(jiān)持將DeepMind總部設(shè)在英國(guó)倫敦。他認(rèn)為真正了不起的人在劍橋、牛津、UCL等高校;而硅谷每年投大量公司,不見(jiàn)效就立刻換新的,這種風(fēng)氣不利于長(zhǎng)期研究挑戰(zhàn)。
創(chuàng)立頭兩年,DeepMind沒(méi)有出現(xiàn)在公眾視野,一切都很模糊,沒(méi)建網(wǎng)站,辦公室在一個(gè)秘密地點(diǎn),一度被來(lái)應(yīng)聘者的家人擔(dān)心是騙子公司。
后來(lái)有兩家公司參與了收購(gòu)DeepMind的談判。Demis Hassabis很糾結(jié)。他希望收購(gòu)方意識(shí)到研究的重要性,給足夠的研究時(shí)間、不緊盯商業(yè)利益。
最終,DeepMind被谷歌以4億英鎊收購(gòu)了。DeepMind團(tuán)隊(duì)也沒(méi)有搬去硅谷,仍在倫敦獨(dú)立運(yùn)營(yíng)。
3、從戰(zhàn)勝人類(lèi)到改變科研
在Demis Hassabis看來(lái),游戲是AI的完美訓(xùn)練場(chǎng)。
DeepMind將強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)結(jié)合,想要訓(xùn)練AI最多能玩上千種不同的雅達(dá)利游戲。一開(kāi)始AI玩游戲總是丟分,經(jīng)過(guò)幾百場(chǎng)比賽后,它突然能玩得像人類(lèi)一樣好。
通用智能的雛形出現(xiàn)了。DeepMind的團(tuán)隊(duì)又將挑戰(zhàn)的目標(biāo)轉(zhuǎn)向圍棋,讓AI圍棋系統(tǒng)AlphaGo看了10萬(wàn)場(chǎng)比賽,然后模仿人類(lèi)選手。最終在舉世矚目的人機(jī)對(duì)決上,AlphaGo擊敗了世界圍棋冠軍李世石。第二年,AlphaGo又戰(zhàn)勝了代表圍棋頂級(jí)戰(zhàn)力的中國(guó)選手柯潔。
隨后,DeepMind發(fā)現(xiàn)了一種更優(yōu)雅的方法,剝離了所有人類(lèi)知識(shí),讓AI完全從零開(kāi)始自學(xué)。能夠掌握三種不同復(fù)雜游戲的AlphaZero由此誕生,它自學(xué)了國(guó)際象棋、將棋、圍棋,并都擊敗了世界冠軍程序,標(biāo)明單一算法可以學(xué)習(xí)如何在各種環(huán)境中發(fā)現(xiàn)新知識(shí)。
▲AlphaZero僅用4小時(shí)就首次超越了國(guó)際象棋程序Stockfish,僅用2小時(shí)首次超越Elmo,僅用30小時(shí)首次超越AlphaGo版本
下一個(gè)挑戰(zhàn)是讓AI打《星際爭(zhēng)霸》游戲。一開(kāi)始AlphaStar連業(yè)余選手都打不過(guò),但最終它做到與《星際爭(zhēng)霸》職業(yè)選手展開(kāi)了一場(chǎng)精彩的對(duì)決。
幾次人機(jī)大戰(zhàn)背后,Google DeepMind團(tuán)隊(duì)都頂著失敗和不被看好的壓力。一旦AI輸了,團(tuán)隊(duì)就會(huì)回到桌前進(jìn)行改進(jìn)。
Demis Hassabis隨即轉(zhuǎn)向更大的挑戰(zhàn)用AI解決蛋白質(zhì)折疊問(wèn)題。
盡管第一代AlphaFold贏得了國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽,但它遠(yuǎn)不夠解決現(xiàn)實(shí)科研問(wèn)題。Demis Hassabis大膽指定年輕資淺的John Jumper當(dāng)突擊組組長(zhǎng),并補(bǔ)充了計(jì)算生物學(xué)家成員。
Jumper突擊小組將AI算法完全推倒重來(lái),在疫情居家辦公的艱難環(huán)境中,成功研發(fā)出革命性的AlphaFold2,破解了50年來(lái)的蛋白質(zhì)折疊難題,拉開(kāi)了整個(gè)蛋白質(zhì)結(jié)構(gòu)世界的簾幕,大舉加速新藥開(kāi)發(fā)的進(jìn)程。(Demis Hassabis和Jumper因此斬獲2024年諾貝爾化學(xué)獎(jiǎng))
Google DeepMind還在探索更廣泛的智能。
在影片結(jié)尾,Demis Hassabis拿著手機(jī)將鏡頭掃過(guò)桌面上的棋盤(pán)、鉛筆雕塑……,向AI發(fā)問(wèn),AI則能毫不費(fèi)力地對(duì)答如流。
從創(chuàng)立到現(xiàn)在,Google DeepMind一直在做探索無(wú)人區(qū)的研究,換言之沒(méi)有人知道這是不是一條有生之年會(huì)成功的路,但團(tuán)隊(duì)中的成員們都認(rèn)可相同的目標(biāo),而且堅(jiān)持往前走。這在被追問(wèn)商業(yè)盈利前景的現(xiàn)實(shí)創(chuàng)業(yè)環(huán)境中很難得,谷歌確實(shí)給了Google DeepMind很大的自由和底氣。
影片也有稍顯遺憾之處。這部雖然叫Demis Hassabis的自傳電影,看起來(lái)更像是Google DeepMind成長(zhǎng)的紀(jì)錄片,但對(duì)Demis Hassabis的刻畫(huà)卻顯得封閉而內(nèi)斂。在影片中,他像個(gè)緘默的天才。觀眾只能聽(tīng)到他宣之于口的觀點(diǎn),卻很難感受到他的內(nèi)心世界。
2、AI體驗(yàn)區(qū):將AI引入國(guó)際象棋,帶給棋迷智能新工具
這次多謝谷歌邀請(qǐng),現(xiàn)場(chǎng)觀看了一場(chǎng)世界棋王丁立人和印度特級(jí)大師古克什的對(duì)壘。將現(xiàn)場(chǎng)的局勢(shì)拍給Gemini,它則能對(duì)棋局進(jìn)行分析和預(yù)測(cè)。
谷歌通過(guò)Gemini打造了Chatting Chess體驗(yàn),可以用生動(dòng)有趣的語(yǔ)言,深入淺出地講解國(guó)際象棋中各種復(fù)雜概念,比如解釋開(kāi)局策略、棋子結(jié)構(gòu)抑或是科普國(guó)際象棋冠軍賽的一些關(guān)鍵里程碑。
看AI分析棋局還是有一定門(mén)檻的。谷歌推出的另一個(gè)互動(dòng)項(xiàng)目GenChess則更輕松易玩用生成式AI設(shè)計(jì)國(guó)際象棋棋子。
這也是我在AI體驗(yàn)區(qū)駐留最久的展位。上手很輕松,輸入關(guān)鍵詞,選“經(jīng)典”或“創(chuàng)意”風(fēng)格,AI就能按照你的關(guān)鍵詞來(lái)創(chuàng)作出一組個(gè)性化的棋子。
生成過(guò)程快到只有幾秒鐘,背后是Imagen 3和Gemini Flash*模型在發(fā)揮作用。在體驗(yàn)區(qū)可將自己鐘意的棋子設(shè)計(jì)打印出來(lái)。
具體實(shí)現(xiàn)方法是:輸入關(guān)鍵詞后,Gemini Flash會(huì)將其增強(qiáng)為詳細(xì)且富有創(chuàng)意的提示詞,每個(gè)提示詞對(duì)應(yīng)于象棋中的6個(gè)棋子之一。然后Imagen3基于這些被增強(qiáng)的提示詞, 生成一套獨(dú)特的國(guó)際象棋。
在新加坡,我也在線(xiàn)上體驗(yàn)了這個(gè)項(xiàng)目(部分Google技術(shù)僅適用于出海技術(shù)開(kāi)發(fā)者)。功能更豐富,點(diǎn)擊“Generate Opponent”,它會(huì)自動(dòng)根據(jù)你輸入關(guān)鍵詞的對(duì)立主題來(lái)生成對(duì)手棋,比如“奶酪”對(duì)應(yīng)“紅酒”、“Meme”對(duì)應(yīng)“Reality”。
然后就可以來(lái)一盤(pán)國(guó)際象棋比試了。用自己和AI聯(lián)合設(shè)計(jì)的棋子來(lái)下棋,格外愉快。
游戲提供了三種難度選項(xiàng)(簡(jiǎn)單、中等、困難)和兩種計(jì)時(shí)選項(xiàng)(5/3和10/0)。
除了AI設(shè)計(jì)棋子、跟AI下棋外,谷歌還在國(guó)際象棋世界冠軍賽期間推出很多有意思的AI項(xiàng)目,比如與國(guó)際棋聯(lián)合作在全球最大AI/ML開(kāi)源社區(qū)Kaggle上舉辦國(guó)際象棋AI編程挑戰(zhàn)賽。
在AI+國(guó)際象棋領(lǐng)域整活兒,還得是谷歌。
三、Google DeepMind大牛硬核分享:破譯AlphaZero與游戲創(chuàng)造性
除了輕松的體驗(yàn)環(huán)節(jié)外,我們還有幸聽(tīng)了一堂關(guān)于AI國(guó)際象棋算法的大師課。
演講者是Google DeepMind資深研究科學(xué)家Nenad Tomaev。他不僅深度參與了AlphaZero的開(kāi)發(fā),也是一名國(guó)際象棋選手。
在超過(guò)1小時(shí)的演講及Q&A環(huán)節(jié),他深度分享了AI與游戲的關(guān)聯(lián)、AlphaZero的發(fā)展歷程、AI在下棋時(shí)的“大腦”內(nèi)部運(yùn)行機(jī)制等內(nèi)容。
通過(guò)這場(chǎng)演講,我們對(duì)Demis Hassabis所說(shuō)的“游戲是AI的完美訓(xùn)練場(chǎng)”有了更清晰的認(rèn)知。
游戲設(shè)置的清晰目標(biāo)有助于衡量進(jìn)展,多樣化挑戰(zhàn)可激勵(lì)智能,模擬環(huán)境能測(cè)試大量想法,而且可將AI性能量化并與人類(lèi)能力對(duì)比,從游戲中獲取的算法設(shè)計(jì)經(jīng)驗(yàn)也可以復(fù)用于在其他領(lǐng)域構(gòu)建AI系統(tǒng)。這提供了開(kāi)發(fā)和測(cè)試AI算法的絕佳環(huán)境。
傳統(tǒng)國(guó)際象棋引擎依賴(lài)于人類(lèi)玩家的經(jīng)驗(yàn)與規(guī)則。前代用深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的下棋程序也需從人類(lèi)比賽中學(xué)習(xí)。AlphaZero則采用了完全不同的方法,從隨機(jī)游戲開(kāi)始訓(xùn)練,在沒(méi)獲取任何人類(lèi)先驗(yàn)知識(shí)的情況下自學(xué)成才。
這種算法設(shè)計(jì)思路使AlphaZero不受人類(lèi)游戲規(guī)則約束,具備重新學(xué)習(xí)每一種游戲的能力,因此掌握了更強(qiáng)的“通用性”。
Nenad Tomaev提到AlphaZero在搜索棋路時(shí)優(yōu)先考慮質(zhì)量,而非數(shù)量,不用傳統(tǒng)搜索算法也能構(gòu)建出更強(qiáng)大的網(wǎng)絡(luò)。傳統(tǒng)方法用子力價(jià)值進(jìn)行快速位置評(píng)估。AlphaZero則不太重視子力價(jià)值,而是愿意在游戲初期犧牲子力,以獲取長(zhǎng)期戰(zhàn)略?xún)?yōu)勢(shì)。
其初步評(píng)估偏離了人類(lèi)感知,但隨著訓(xùn)練推進(jìn)而收斂,它展示了一個(gè)平行于人類(lèi)戰(zhàn)略進(jìn)化的學(xué)習(xí)曲線(xiàn)。該模型的偏好從子力豐富轉(zhuǎn)向位置優(yōu)勢(shì),表明國(guó)際象棋理解的成熟類(lèi)似于人類(lèi)玩家。
國(guó)際象棋的美妙之處在于找到規(guī)則的例外。由于計(jì)算限制,AI必須通過(guò)創(chuàng)造性地解決問(wèn)題。
AlphaZero能發(fā)現(xiàn)與傳統(tǒng)人類(lèi)游戲玩法不一致的新穎復(fù)雜概念,做出不明顯但有利的選擇,拓展對(duì)策略游戲中AI認(rèn)知的理解界限。AI還有助于給人類(lèi)棋手的策略帶來(lái)新啟發(fā),豐富了數(shù)百年來(lái)對(duì)國(guó)際象棋策略的思考。
DeepMind探索了在AlphaZero引入“多重人格”的方法,希望讓AI能平等考慮所有選擇,從而優(yōu)化決策過(guò)程。他們打造了一個(gè)由不同AlphaZero組成的單一網(wǎng)絡(luò),相當(dāng)于有一個(gè)多元化的團(tuán)隊(duì),取決于AlphaZero扮演哪個(gè)玩家,每個(gè)玩家的策略都不同,有一個(gè)目標(biāo)來(lái)激勵(lì)不同參與者的不同策略的多樣性,這些策略會(huì)以某種方式組合,產(chǎn)生最終的行動(dòng)。
多個(gè)AlphaZero算法與不同策略集的方法,最初可能涉及較少的最優(yōu)解,但最終通過(guò)創(chuàng)造性的適應(yīng)和迭代帶來(lái)更好的性能。引入策略變化可以使國(guó)際象棋中的AI Agent更強(qiáng)大、更具創(chuàng)造力。
關(guān)于破譯深度學(xué)習(xí)黑盒的問(wèn)題,Nenad Tomaev認(rèn)為,這個(gè)問(wèn)題永遠(yuǎn)不會(huì)得到完全解答,因?yàn)槿祟?lèi)也并不能完全理解自己,會(huì)因?yàn)榉浅D:脑、基于自己并不完全理解的直覺(jué)做出很多決定。Gemini、ChatGPT等系統(tǒng)也是這樣,它們可以告訴你給出這些答案的思考過(guò)程,但這些答案不會(huì)100%準(zhǔn)確。
據(jù)Nenad Tomaev分享,一種受AlphaZero啟發(fā)的新方法正在醫(yī)療健康領(lǐng)域探索。特別是一個(gè)對(duì)話(huà)診斷系統(tǒng),通過(guò)模擬訓(xùn)練,語(yǔ)言模型承擔(dān)醫(yī)生和患者的角色,通過(guò)提出適當(dāng)?shù)膯?wèn)題和進(jìn)行鑒別診斷,進(jìn)而提高診斷準(zhǔn)確性。該方法處于概念驗(yàn)證階段,尚未在真實(shí)患者身上測(cè)試,但初步人體試驗(yàn)已顯示出有希望的結(jié)果,在很大一部分病例中表現(xiàn)優(yōu)于人類(lèi)醫(yī)生。
結(jié)語(yǔ):AI在棋盤(pán)上的探索遠(yuǎn)無(wú)止境
棋類(lèi)游戲是AI走進(jìn)大眾視野的第一站。從AlphaGo系列與人類(lèi)高手的切磋,再到后來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的AlphaFold、加速數(shù)學(xué)研究的AlphaProof、發(fā)現(xiàn)全新算法的AlphaDev,AI發(fā)展日新月異,對(duì)生活、行業(yè)及科研都產(chǎn)生了不可逆轉(zhuǎn)的積極影響。
從無(wú)人問(wèn)津之時(shí),Google DeepMind團(tuán)隊(duì)已經(jīng)為自己立下一個(gè)不圖功利的遠(yuǎn)大目標(biāo),谷歌也為其提供了源源不斷的資源支持和寬松優(yōu)越的研發(fā)環(huán)境。
在他們證明了AI具備突破智力極限的潛能后,深度學(xué)習(xí)革命才一夜席卷大江南北,幫助人類(lèi)解決從日,嵤碌綇(fù)雜的科學(xué)難題。
今天,AI下國(guó)際象棋不再稀奇,但AI+國(guó)際象棋的探索空間遠(yuǎn)無(wú)止境,既在棋盤(pán)之上,又超越棋盤(pán),將自主學(xué)習(xí)機(jī)制及改進(jìn)方法用于探索新藥發(fā)現(xiàn)、醫(yī)療健康、量子計(jì)算等更多領(lǐng)域,助力人類(lèi)探索科學(xué)進(jìn)步和創(chuàng)造力的更高峰。
*部分Google技術(shù)僅適用于出海開(kāi)發(fā)者