11月22日,美國(guó)國(guó)家工程院外籍院士、粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院創(chuàng)院理事長(zhǎng)沈向洋在2024IDEA大會(huì)上分享了其對(duì)人工智能“三件套”(算力、算法、數(shù)據(jù))的最新思考。他表示,在技術(shù)大爆發(fā)時(shí)期開展創(chuàng)新,對(duì)技術(shù)的深度理解尤為重要。站在商業(yè)的視角,新技術(shù)快速?zèng)_入市場(chǎng),則意味著技術(shù)需要理解需求。技術(shù)要在持續(xù)不斷的反饋和創(chuàng)新中,與市場(chǎng)完成匹配。
從“摩爾定律”到“黃氏定律”:算力需求持續(xù)增長(zhǎng)
整個(gè)計(jì)算行業(yè)過(guò)去四五十年的發(fā)展,最重要的一件事情是算力的不斷提升。根據(jù)英特爾創(chuàng)始人之一戈登摩爾(Gordon Moor)提出的摩爾定律,當(dāng)價(jià)格不變時(shí),集成電路上可容納的元器件的數(shù)目,約每隔18-24個(gè)月便會(huì)增加一倍,性能也將提升一倍;蛘邠Q句話,性能每2年翻一倍,價(jià)格下降一半。
然而過(guò)去這十幾年隨著人工智能的蓬勃發(fā)展,特別是深度學(xué)習(xí)的發(fā)展,對(duì)算力的需求更加提高。英偉達(dá)提出了以其創(chuàng)始人黃仁勛的名字命名的“黃氏定律”,認(rèn)為GPU(圖形處理器)將推動(dòng)AI性能實(shí)現(xiàn)逐年翻倍。
“從以前的百億級(jí),到現(xiàn)在的千億級(jí)、萬(wàn)億級(jí),大模型參數(shù)規(guī)模越來(lái)越大,對(duì)訓(xùn)練的要求越來(lái)越高。要訓(xùn)練這樣的模型,數(shù)據(jù)量要增長(zhǎng),性能要隨之提升,對(duì)算力的需求也會(huì)呈現(xiàn)出平方級(jí)的增長(zhǎng)。所以我經(jīng)常講一句話,那就是‘講卡傷感情,沒卡沒感情’。”沈向洋感慨說(shuō)道。
同時(shí),沈向洋評(píng)論稱,英偉達(dá)是過(guò)去十幾年,IT行業(yè)、人工智能行業(yè)最了不起、最成功的一家公司之一,它硬生生把自己從一家做硬件、芯片的乙方公司做成了甲方!按蠹覍(duì)英偉達(dá)的未來(lái)充滿信心,最重要的是對(duì)算力的需求。這也解釋了為什么過(guò)去十年英偉達(dá)的市值漲了300倍!
從GPT到o1:人工智能發(fā)生范式轉(zhuǎn)移
沈向洋表示,從2017年開始Transformer架構(gòu)(一種基于注意力機(jī)制的深度學(xué)習(xí)模型架構(gòu))出來(lái),人工智能、深度學(xué)習(xí)、大模型基本上是沿著Transformer這條線“堆”數(shù)據(jù)、“堆”算力。GPT4推出之后,盡管GPT5一直沒有出來(lái),但OpenAI仍然推出了一些新技術(shù)突破的東西,包括多模態(tài)GPT-4o。最新的o1(OpenAI最新發(fā)布的大語(yǔ)言模型)推理學(xué)習(xí)能力展現(xiàn)出的人工智能的范式轉(zhuǎn)移非常值得我們認(rèn)真思考。
GPT系列做的事情是通過(guò)預(yù)訓(xùn)練來(lái)預(yù)測(cè)“下一個(gè)Token(吞吐量)”。技術(shù)背景是把所有的數(shù)據(jù)進(jìn)行“聰明的”壓縮,它可以很快給你答案。只要問(wèn)一句話就能得到一個(gè)結(jié)果。而新的范式變革是增強(qiáng)學(xué)習(xí),即可以自行改善的“Learning(學(xué)習(xí))”,在給出答案之前還有一個(gè)后訓(xùn)練、后推理的過(guò)程。
實(shí)際上,增強(qiáng)學(xué)習(xí)并不是一個(gè)新鮮事物。AlphaGo下圍棋就是用這種增強(qiáng)學(xué)習(xí)的方法打敗人類世界冠軍的。不過(guò)新的增強(qiáng)學(xué)習(xí)“打法”更為通用。以前做一個(gè)系統(tǒng)只能解決一個(gè)問(wèn)題,比如下圍棋或者做其他工作。今天o1不僅可以做數(shù)據(jù)、做編程,還可以做物理、做化學(xué)等等!拔矣X得接下來(lái)這幾年,算法沿著SRL(強(qiáng)化學(xué)習(xí))這條道路走下去,一定會(huì)有令人驚艷的全新突破!鄙蛳蜓蟊硎。
從海量到高質(zhì)量數(shù)據(jù)短缺:未來(lái)大模型需要合成數(shù)據(jù)
公開數(shù)據(jù)顯示,GPT3的訓(xùn)練用了2T(即2萬(wàn)億Token)的數(shù)據(jù)。GPT4大概用了20T(即20萬(wàn)億Token)的數(shù)據(jù),幾乎相當(dāng)于今天能找到的所有清洗過(guò)的互聯(lián)網(wǎng)數(shù)據(jù)。GPT5要比GPT4有長(zhǎng)足的進(jìn)步,預(yù)測(cè)數(shù)據(jù)量大概會(huì)達(dá)到200T(即200萬(wàn)億Token)的規(guī)模。
為了進(jìn)一步闡釋大模型訓(xùn)練所需的數(shù)據(jù)量規(guī)模,沈向洋列舉了幾個(gè)例子:1萬(wàn)億數(shù)據(jù)相當(dāng)于500萬(wàn)本書,或者20萬(wàn)張高清照片,亦或是500萬(wàn)篇論文。一個(gè)人從小學(xué)、中學(xué)、大學(xué)到念完大學(xué)的時(shí)候,真正學(xué)到的東西相當(dāng)于1000本,也僅僅是0.00018T的數(shù)據(jù)。人類歷史上所有的書加起來(lái)大概也只有21億Token的數(shù)據(jù)。
“現(xiàn)在互聯(lián)網(wǎng)上已經(jīng)找不到那么多高質(zhì)量的數(shù)據(jù)了,人工智能向前發(fā)展要造數(shù)據(jù)、合成數(shù)據(jù),這有可能帶來(lái)大模型創(chuàng)業(yè)的下一個(gè)百億美金問(wèn)題,那就是怎么來(lái)合成數(shù)據(jù)!鄙蛳蜓蟊硎。GPT系列模型的訓(xùn)練依靠的是互聯(lián)網(wǎng)語(yǔ)料數(shù)據(jù),比如文本、圖片、音頻、視頻等多模態(tài)數(shù)據(jù),o1的訓(xùn)練則需要強(qiáng)邏輯性的數(shù)據(jù),很多數(shù)據(jù)是網(wǎng)上沒有的,需要做一些優(yōu)質(zhì)的合成數(shù)據(jù)。
“我們不能盲目的造數(shù)據(jù),而是要有理有據(jù),有邏輯關(guān)系的存在。要先采集真實(shí)數(shù)據(jù),建一個(gè)語(yǔ)境圖譜,然后再合成數(shù)據(jù),把這些合成數(shù)據(jù)放進(jìn)大模型繼續(xù)做預(yù)訓(xùn)練和推理。”沈向洋介紹說(shuō)道。據(jù)他透露,IDEA DataMaker(數(shù)據(jù)合成平臺(tái))知識(shí)驅(qū)動(dòng)大模型數(shù)據(jù)合成技術(shù)已經(jīng)可以將模型推理準(zhǔn)確率提升25.4%以上,平均節(jié)約成本達(dá)85.7%。同時(shí),IDEA大模型合成數(shù)據(jù)加密訓(xùn)練技術(shù)可以打破數(shù)據(jù)孤島,助力私域數(shù)據(jù)的安全流通。相較于基礎(chǔ)模型,該技術(shù)可將大模型專業(yè)推理能力提升12.8%~24.1%,加密接近無(wú)損甚至少量提升。
作者丨宋婧編輯丨趙晨美編丨馬利亞監(jiān)制丨連曉東