作者 | 鄧詠儀
編輯 | 蘇建勛
“講卡傷感情,沒卡沒感情!
2024年的IDEA大會上,IDEA創(chuàng)院理事長、美國國家工程院外籍院士沈向洋,拋出了一句格外現(xiàn)實又幽默的話。
另一方面,這也展現(xiàn)了他對未來AI時代一種鮮明的樂觀情緒。
大模型的發(fā)展已經(jīng)不如ChatGPT發(fā)布后那樣,經(jīng)歷陡峭增長。進入到人類探索AGI(通用人工智能)的第二年,大語言模型的迭代已經(jīng)放緩。相應(yīng)地,AI應(yīng)用、落地,占據(jù)了全球話題的中心。
但沈向洋覺得,雖然GPT-5尚未見身影,但算力的增長還是呈樂觀趨勢根據(jù)EPOCH AI數(shù)據(jù)統(tǒng)計,大模型對于算力的需求,每年都是呈現(xiàn)四倍多的增長。
按這樣的增長速度,以往按18個月算力漲一倍的摩爾定律也不再奏效。沈向洋重點解釋了黃仁勛的“黃氏定律”,以模型訓(xùn)練來衡量算力的增長。若恒定按照一年漲四倍的算力速度增長,十年或許會預(yù)見100萬倍的算力需求增長。不過這一定律,仍需要時間來檢驗。
“大模型要往前走,不單是參數(shù)擴大、模型規(guī)模大了之后,對訓(xùn)練的要求變高了,數(shù)據(jù)量也要增長。某種意義上來講,對算力的需求呈跟參數(shù)的平方關(guān)系,這就是不得了的算力需求!彼f。
沈向洋 來源:作者拍攝
“過去這幾年大家都講‘人工智能三件套’,實際上都繞不開‘算力、算法、數(shù)據(jù)’這三件事情。”在這次大會上,沈向洋穿針引線,花了3個小時圍繞“算法、算力、數(shù)據(jù)”這三個方向,來介紹IDEA的全新進展。
視覺模型仍是IDEA的研究重點IDEA正式發(fā)布的最新通用視覺大模型DINO-X,可以擁有真正的物體級別理解能力。
這意味著,不像普通的視覺模型有訓(xùn)練數(shù)據(jù)的限制,DINO-X可以實現(xiàn)開放世界(Open-world)實現(xiàn)目標(biāo)檢測無需用戶提示,直接就可以檢測所有物體,包括罕見的長尾物體(出現(xiàn)頻率低但種類繁多的物體)。
這也會大大拓展模型的落地場景。
比如,“具身智能”是2024年火了一整年的AI行業(yè)話題。對于視障人士服務(wù)、服務(wù)類機器人等高難度場景,以往非常依賴大量的高質(zhì)量數(shù)據(jù)標(biāo)注,耗費巨量人力。但在DINO-X的幫助下,視覺模型可以幫助標(biāo)注公司快速完成大批量的高質(zhì)量圖像標(biāo)注或者為標(biāo)注員提供自動化的輔助結(jié)果,從而降低手工標(biāo)注的工作量。
來源:IDEA
對傳統(tǒng)的視覺模型應(yīng)用廣泛的場景,DINO-X也在自動駕駛、智能安防、工業(yè)檢測等領(lǐng)域,會成為一個有力的補充,系統(tǒng)能夠應(yīng)對各種復(fù)雜場景,識別出傳統(tǒng)模型難以檢測的物體。
IDEA團隊還推出行業(yè)平臺架構(gòu),通過一個大模型基座,結(jié)合通用識別技術(shù)結(jié)合,讓模型不需重新訓(xùn)練,就可邊用邊學(xué),支撐多種多樣的B端應(yīng)用需求。
“用一個模型解決一百萬個問題”,是這次模型發(fā)布的關(guān)鍵理念。
有別于主流的“全圖理解”的方法,IDEA通過在物體級別的理解上加入語言模塊,來優(yōu)化大模型的幻覺問題。結(jié)合自研的“視覺提示優(yōu)化”方法后,無需更改模型結(jié)構(gòu),不用重新訓(xùn)練模型,也可以實現(xiàn)小樣本下的場景化定制。
來源:IDEA研究院
不過,隨著模型體量不斷變大,高質(zhì)量數(shù)據(jù)已經(jīng)成為桎梏。“現(xiàn)在人工智能的發(fā)展,已經(jīng)耗盡了人類社會的所有高質(zhì)量數(shù)據(jù)。”沈向洋表示。
合成數(shù)據(jù)隨之而生。IDEA團隊此次也發(fā)布了自研的語境圖譜技術(shù),解決過往文本數(shù)據(jù)合成方案的多樣性匱乏等問題。該技術(shù)相當(dāng)于是合成數(shù)據(jù)引入“指導(dǎo)手冊”,以圖譜為綱,指導(dǎo)用于合成的語境采樣。
從實驗結(jié)果顯示,IDEA團隊的方案能持續(xù)為大模型帶來能力提升,表現(xiàn)超過目前的最佳實踐(SOTA);從token消耗來看,平均節(jié)約成本85.7%。目前,該技術(shù)內(nèi)測平臺已開放,通過API提供服務(wù)。
在2024年,IDEA在AI應(yīng)用落地層面明顯提速。相較去年的科研論文閱讀平臺,今年IDEA公布了更多垂直領(lǐng)域的應(yīng)用探索。
在預(yù)測方面,IDEA研發(fā)了多個化學(xué)領(lǐng)域?qū)<掖竽P,在分子屬性預(yù)測和化學(xué)反應(yīng)預(yù)測能力上,都可以達(dá)到業(yè)界領(lǐng)先水平。
AI模型也可以應(yīng)用在科研數(shù)據(jù)上,加快科研數(shù)據(jù)的處理速度。IDEA新發(fā)布的化學(xué)文獻(xiàn)多模態(tài)大模型,就聯(lián)合晶泰科技發(fā)布專利數(shù)據(jù)挖掘平臺PatSight。這一模型將藥物領(lǐng)域的專利化合物數(shù)據(jù)挖掘時間,從數(shù)周縮短至1小時。
而今年的一大熱門方向AI編程,正是因為模型智力水平不斷提升,而成為下一個熱門的應(yīng)用方向。IDEA研究院的MoonBit團隊,就展示了其開發(fā)平臺的編程模塊MoonBit。這個云原生AI編程工具,已具備完備的多后端支持和跨平臺能力,可在硬件上直接運行,支持RISC-V架構(gòu),并將于12月正式開放。
模型也從軟件層面走到硬件層面,更多在現(xiàn)實世界產(chǎn)生效用。
坐落在大灣區(qū)IDEA,有著得天獨厚的硬件產(chǎn)業(yè)基礎(chǔ)和優(yōu)勢。這次會議上,IDEA也一連宣布三個合作:與騰訊合作,在深圳福田區(qū)、河套深港科技創(chuàng)新合作區(qū)落地建設(shè)福田實驗室,聚焦人居環(huán)境具身智能技術(shù);與美團合作,探索無人機視覺智能技術(shù);與比亞迪合作,拓展工業(yè)化機器人智能應(yīng)用。
“低空經(jīng)濟”則是另一個IDEA強調(diào)的領(lǐng)域。IDEA不僅發(fā)布了《低空經(jīng)濟發(fā)展白皮書3.0》,還發(fā)起共建OpenSILAS創(chuàng)新聯(lián)合體,與17家首批發(fā)起單位攜手,預(yù)期打造一個開放共享、技術(shù)領(lǐng)先、不斷迭代的系統(tǒng)和平臺。
2024年,已經(jīng)是IDEA大會的第四屆大會。在這四年中,AI不僅從以CV(視覺識別)為主的1.0時代,跨越到以生成式AI為主的2.0時代,更是帶來了AI治理等下一個時代的重要命題。如今的人類社會也許需要更多思考:我們與AI該如何更好地共存?
“AI的發(fā)展,能不能從經(jīng)濟最大的增長,轉(zhuǎn)化到人類的最大福祉?這是在座的,在IDEA研究院從事技術(shù)研發(fā)的同事,以及產(chǎn)業(yè)落地的同事,在人工智能發(fā)展的道路上必須要去思考的問題。”沈向洋說。