劃重點
1、李飛飛稱,空間智能將使機器高效處理視覺數(shù)據(jù),精準做出預測,并基于這些預測采取行動。
2、李飛飛透露,他的團隊曾開發(fā)名為Walt的生成視頻模型,比OpenAI的Sora還要早幾個月問世。
3、空間智能將賦予機器彼此互動的能力,甚至還能與人類互動,與真實或虛擬的三維世界互動。
科技新聞訊外媒消息稱,知名計算機科學家李飛飛正積極籌備一家初創(chuàng)企業(yè),該企業(yè)旨在通過借鑒人類視覺數(shù)據(jù)處理技術,賦予人工智能高級推理能力,此舉無疑將推動該領域技術實現(xiàn)質(zhì)的飛躍。
作為人工智能領域的佼佼者,李飛飛開創(chuàng)性的貢獻已得到業(yè)界的廣泛認可。據(jù)知情人士透露,她已成功在近期種子輪融資中為公司吸引了大量資金。其中,硅谷知名風險投資公司AndreessenHorowitz以及她去年加入的加拿大科技投資公司RadicalVentures均位列投資者名單之中。
在近期公開亮相的時候,李飛飛也避談她新的創(chuàng)業(yè)項目。外媒稱,在描述這家初創(chuàng)公司的愿景時,一位消息人士引用了李飛飛上個月在溫哥華TED大會上的精彩演講。在演講中,她詳細闡述了一種前沿算法,該算法能夠合理推斷圖像和文本在三維環(huán)境中的表現(xiàn),并根據(jù)這些預測采取行動。這一創(chuàng)新理念被業(yè)內(nèi)專家譽為“空間智能”。
近日,李飛飛在X上放出來她在TED上的這段演講。
在宇宙誕生的初始階段,無盡的黑暗籠罩著一切,直至首批生物逐步演化出了視力,那一刻,生命的光輝得以綻放。如今,李飛飛預言,一個類似的轉折點即將在計算機與機器人領域上演。
在演講中,李飛飛詳細闡述了機器將如何逐步獲得所謂的“空間智能”,這一能力使得機器能夠高效地處理復雜的視覺數(shù)據(jù),精準地做出預測,并基于這些預測迅速采取行動。此外,她還預判了這一突破性進展將如何改變?nèi)斯ぶ悄茉诂F(xiàn)實世界中與人類交互的方式。
以下為李飛飛演講全文:
首先,讓我為你們描繪一個畫面。準確地說,我并非要向你們展示任何具體的畫面,而是帶你們回到5.4億年前的世界。那是一個純粹而深邃的黑暗世界。由于光線微弱,天空并非呈現(xiàn)我們所熟悉的黑色。而由于視覺的缺失,使得周圍的一切顯得如此漆黑。
盡管陽光可以穿透到海面下1000多米的地方,再從熱泉口照向海底,那里充滿了生命,但在這古老的海水中,卻沒有一只眼睛去捕捉這些光影。沒有視網(wǎng)膜,沒有角膜,沒有晶狀體,所有的光和生命都隱匿在未知的黑暗中。那時,視覺這一概念尚未成形,前無古人,未有來者。直到那個特殊的時刻到來。
由于一些我們剛剛開始理解的原因,三葉蟲,這些最早能夠感知光線的生物,開始在這片古老的海洋中嶄露頭角。它們成為了我們今日所熟知現(xiàn)實世界的首批居民,首次發(fā)現(xiàn)了除了自己之外,還有一個充滿無數(shù)生命的世界。
人們普遍認為,視覺能力的出現(xiàn),是寒武紀生物大爆發(fā)的關鍵所在。在這一時期,各種動物物種如雨后春筍般涌現(xiàn)。最初,視覺只是一種被動的體驗,一種簡單的讓光線進入感知的過程,但隨著時間的推移,它逐漸變成為主動技能。神經(jīng)系統(tǒng)開始進化,視覺不僅僅用于感知,更成為了理解和行動的源泉。這一切都推動了智慧的誕生。
如今,我們不再滿足于大自然賦予我們的視覺智能,好奇心驅(qū)使著我們創(chuàng)造出與我們一樣聰明的機器。
九年前,在這個舞臺上,我發(fā)表了一份關于計算機視覺的早期進展報告,這是人工智能領域的一個重要分支。當時,三股強大的力量首次匯聚一堂。一種被稱為神經(jīng)網(wǎng)絡的算法,一種被稱為圖形處理單元的專用硬件,以及龐大的數(shù)據(jù)集,如我的實驗室數(shù)年來整理的1500萬張圖片,被稱為ImageNet。這三者的結合,共同開啟了現(xiàn)代人工智能的新紀元。
我們確實已經(jīng)跨越了漫漫長路。曾幾何時,僅僅是給圖片加上標簽便被視為一次巨大的飛躍。然而,這些算法的速度和準確性都在以驚人的速度提升。我領導的實驗室所主辦的ImageNet年度挑戰(zhàn)賽,正是這一進步的鮮明寫照。
在此圖表中,你們可以清晰地觀察到每年的改進以及那些具有里程碑意義的模型。我的學生和合作者們更是在這些工作的基礎上更進一步,他們創(chuàng)造了能夠精準分割物體,甚至預測物體間動態(tài)關系的先進算法。
然而,這僅僅是冰山一角。記得上次我向你們展示的,那個能夠用人類自然語言描述照片內(nèi)容的計算機視覺算法嗎?那是我與我的學生安德烈卡爾帕西(AndrejKarpathy)共同努力的成果。
當時,我半開玩笑地問他:“安德烈,我們能讓電腦做相反的事嗎?”他笑著回答:“哈哈,那簡直不可能。”但正如今天所見到的樣子,不可能最終變?yōu)榱丝赡。這得益于一系列擴散模型的突破,它們?yōu)楫斀竦纳墒饺斯ぶ悄芩惴ㄗ⑷肓藦姶髣恿,使得這些算法能夠?qū)⑷祟惖奶崾巨D化為圖片和視頻。
你們中的許多人或許已經(jīng)見證了OpenAI最近推出的Sora的驚艷表現(xiàn)。但值得一提的是,即便沒有龐大的GPU資源支持,我的學生和我們的合作者們依然成功開發(fā)了一個名為Walt的生成視頻模型,它比Sora還要早幾個月問世。
你們可以看到其中的一些初步成果,盡管仍有改進的空間。舉例來說,看看那只貓的眼睛,它在波浪下的模樣,顯然有些失真,像是從未被水打濕過一般。這確實是一個需要我們進一步優(yōu)化的地方。
若以過去為序幕,我們將從這些錯誤中汲取寶貴的教訓,共同創(chuàng)造一個我們夢寐以求的未來。在這個未來,我們期待人工智能能夠為我們完成它所擅長的一切,或是成為我們得力的助手。
多年來,我一直強調(diào)拍照與觀看、理解之間存在顯著差異。而今天,我想再補充一點:僅僅觀看是遠遠不夠的。觀看是為了行動,為了學習。當我們在這個三維空間和時間交織的世界中采取行動時,我們不斷學習,我們學會如何更深入地觀察,如何更有效地行動。大自然為我們樹立了榜樣,它創(chuàng)造了一個由“空間智能”驅(qū)動的良性循環(huán),將觀察與行動緊密相連。
為了更具體地闡述空間智能在日常生活中的作用,請仔細觀察這張圖。當你準備采取行動時,請舉手示意。就在那一刻,你的大腦迅速捕捉到了這個杯子的幾何形狀,它在三維空間中的精確位置,以及它與桌子、貓和其他物體的相互關系。這種瞬間的分析能力讓你能夠預測接下來可能發(fā)生的事情。這種行動的沖動,是所有具備空間智能的生物與生俱來的本能,它將我們的感知與行動緊密相連。
若想推動人工智能超越其現(xiàn)有的界限,我們所追求的不再是僅限于視覺識別和語言交流的智能體。我們渴望的是那些能夠行動的人工智能,能夠主動介入并與我們生活的世界互動。
確實,我們正在取得令人興奮的進展。在空間智能領域,最近的里程碑便是教會計算機觀察、學習、行動,并在實踐中不斷提高其觀察能力。這并非易事。大自然歷經(jīng)數(shù)百萬年的進化才賦予了生物空間智能,它依賴于眼睛接收光線,在視網(wǎng)膜上形成二維圖像,隨后大腦將這些數(shù)據(jù)轉化為三維信息。直到最近,谷歌的一組研究人員才開發(fā)出一種算法,能夠通過拍攝一系列照片,將它們轉化為三維空間模型,就像我們在這里所展示的例子一樣。
我的學生和我們的合作者們更進一步,他們創(chuàng)造了一種算法,能夠?qū)⑤斎氲亩S圖像轉換成三維形狀。這里有更多的實例供你們參考。
回想一下,我們之前討論過計算機程序如何將人類的文字提示轉化為視頻,F(xiàn)在,密歇根大學的一組研究人員已經(jīng)找到了一種方法,可以將簡單的文字描述轉化為三維房間的布局,就像這里所展示的這樣。與此同時,我在斯坦福大學的同事們及其學生也已經(jīng)開發(fā)了一種算法,僅憑一張圖像便能生成無限逼真、可供觀眾探索的三維空間。
這些進展只是未來可能性的初步跡象,它們?yōu)槲覀兘沂玖艘粋嶄新的世界。在這個世界中,人類可以將整個現(xiàn)實世界轉化為數(shù)字形式,并對其豐富性和細微差別進行建模。大自然在我們個人的意識中悄無聲息地完成了這一壯舉,而空間智能技術有望為我們的集體意識帶來同樣的變革。
隨著空間智能技術的飛速發(fā)展,一個良性循環(huán)的新時代正在我們眼前展開。這種反復循環(huán)的過程將極大地促進機器人的學習,這對于任何需要理解三維世界并與之互動的智能系統(tǒng)來說都是至關重要的組成部分。
十年前,我的實驗室通過啟用ImageNet數(shù)據(jù)庫,引入了一個包含數(shù)百萬張高質(zhì)量照片的龐大資源,為訓練計算機的識別能力奠定了堅實的基矗如今,我們采用類似的方法,但目標已經(jīng)轉向訓練計算機和機器人在三維世界中的行為和動作。不過,這次我們不再局限于收集靜態(tài)圖像,而是著手開發(fā)由三維空間模型驅(qū)動的模擬環(huán)境,這樣計算機就能擁有無限多種學習行動的可能性。在我實驗室領導的一項名為“Behavior”的開創(chuàng)性項目中,你們所見的僅僅是教導我們機器人的一小部分例子。
在機器人語言智能領域,我們也取得了令人矚目的進展。借助基于語言模型的大型輸入,我的學生和我們的合作者成功展示了機械臂如何根據(jù)口頭指令執(zhí)行多種任務,比如打開抽屜、拔掉手機充電插頭,甚至是用面包、生菜和西紅柿制作三明治,并貼心地為使用者放置一張餐巾。盡管我總是希望在三明治里多加一些配料,但這無疑是一個良好的開端。
回溯到生命起源的海洋,在遙遠的古代,生物通過感知和觀察環(huán)境的能力,開啟了與其他生命形式互動的寒武紀大爆發(fā)。今天,這束照亮生命起源的光束已經(jīng)觸及了數(shù)字思維的領域?臻g智能賦予了機器與彼此互動的能力,更重要的是,它們還能與人類互動,與真實或虛擬的三維世界互動。隨著這樣的未來逐漸成形,它將對許多人的生活產(chǎn)生深遠的影響。
以醫(yī)療保健為例,過去的十年里,我的實驗室在利用人工智能解決影響患者結果和醫(yī)務人員倦怠的挑戰(zhàn)方面,已經(jīng)邁出了初步的嘗試。我們與斯坦福醫(yī)學院緊密合作,正在試驗智能傳感器,這些傳感器能夠檢測臨床醫(yī)生進入病房前是否正確洗手,或者記錄手術器械的使用情況,甚至在病人面臨身體危險(如摔倒)時及時提醒護理團隊。我們認為這些技術是一種環(huán)境智能,它們?nèi)缤嗔艘浑p眼睛,確實能夠在醫(yī)療保健領域產(chǎn)生積極的影響。然而,我期望我們的病人、臨床醫(yī)生和護理人員能夠得到更多互動的幫助,他們同樣迫切需要一雙額外的手。想象一下,一個自動化機器人負責運輸醫(yī)療用品,而護理人員則能專注于照顧病人;蛘咄ㄟ^增強現(xiàn)實技術,引導外科醫(yī)生進行更安全、更快速、侵入性更小的手術。
想象一下,那些嚴重癱瘓的病人僅憑思想便能控制機器人。是的,通過解讀腦電波,他們能夠完成我們?nèi)粘V辛曇詾槌5娜蝿铡T谖覍嶒炇易罱M行的初步研究中,你們已經(jīng)窺見了這一未來的面貌。在這段視頻中,機械臂正在烹飪?nèi)毡緣巯矡,而它的每一個動作,都僅由佩戴者通過腦電圖帽非侵入性地收集的腦電波來控制。
五億年前,視覺的出現(xiàn)如同一道曙光,照亮了一個原本黑暗的世界。它引領了生命史上最深刻的進化過程,推動了動物世界智力的飛速發(fā)展。與此相似,人工智能在過去十年中的進步同樣令人震驚。但在我看來,除非我們賦予計算機和機器人空間智能,否則數(shù)字寒武紀大爆發(fā)的全部潛力將不會完全實現(xiàn),正如大自然為我們所有人所創(chuàng)造的那樣。
這是一個激動人心的時刻,我們有機會教導我們的數(shù)字伴侶學習推理,并與我們稱之為家的美麗三維空間互動。更進一步,我們還能創(chuàng)造更多新世界,等待我們共同去探索。然而,實現(xiàn)這樣的未來并非易事,它要求我們所有人都采取深思熟慮的步驟,開發(fā)出始終以人為中心的技術。
但只要我們做對了,由空間智能驅(qū)動的計算機和機器人將不再僅僅是工具,它們將成為我們值得信賴的合作伙伴。在尊重我們的個人尊嚴和促進我們的集體繁榮的同時,它們將提高和增強我們的生產(chǎn)力和人性。
最令我對未來感到興奮的是,人工智能將變得更有洞察力和空間意識。它們將加入我們的行列,一同追求以更好的方式創(chuàng)造一個更美好的世界。(編譯/金鹿)