展會(huì)信息港展會(huì)大全

把GPT-3.5裝進(jìn)手機(jī)里?小模型爆發(fā)背后沒什么神奇的魔法
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-24 22:04:19   瀏覽:3450次  

導(dǎo)讀:文/ 騰訊科技 郝博陽 Scaling Law(縮放定律)是AI界當(dāng)下的金科玉律。簡單解釋的話它就是在說數(shù)據(jù)越多,參數(shù)越大,算力越強(qiáng),模型最終的能力就越強(qiáng)。正是這一規(guī)則讓OpenAI相信AGI可能到達(dá),只要數(shù)據(jù)夠多,參數(shù)夠大,AGI就一定能達(dá)到。 但這一規(guī)律在近期發(fā)布...

文/ 科技新聞 郝博陽

Scaling Law(縮放定律)是AI界當(dāng)下的金科玉律。簡單解釋的話它就是在說數(shù)據(jù)越多,參數(shù)越大,算力越強(qiáng),模型最終的能力就越強(qiáng)。正是這一規(guī)則讓OpenAI相信AGI可能到達(dá),只要數(shù)據(jù)夠多,參數(shù)夠大,AGI就一定能達(dá)到。

但這一規(guī)律在近期發(fā)布的一系列模型前,似乎在面對(duì)著挑戰(zhàn)乃至逆轉(zhuǎn)。

Llama 3才火了一周,70B的“小參數(shù)”大模型就能和據(jù)說1.8T參數(shù)的GPT4掰掰手腕,而Llama 3 8B更是能力上全面超越比自己大了近10倍的Llama 2 70B。

根據(jù)其官網(wǎng)介紹Llama 3相對(duì)于Llama 2的主要架構(gòu)更改只有從32k提升到128K 的分詞器,采用了分組查詢注意力 (GQA)以及提升上下文長度的RoPE技術(shù)。這些改變都不算對(duì)架構(gòu)的巨大改變,但小模型的能力就是在飛躍式的提升。

由此來看,參數(shù)越多模型越強(qiáng)這條Scaling Law的黃金法則看起來好像要失效了。

結(jié)果這兩天微軟又發(fā)出了Phi-3系列模型,其僅3.8B的mini版模型號(hào)稱能力對(duì)標(biāo)GPT3.5,拳打Llama 3 8B,腳踢 Mistreal 7B等一眾比它大了一倍的頂尖“小模型”。微軟還把它直接裝進(jìn)了蘋果A16芯片的手機(jī)里,僅占1.8G內(nèi)存,完美流暢運(yùn)行。

把GPT-3.5裝進(jìn)手機(jī)里?小模型爆發(fā)背后沒什么神奇的魔法

(每秒12個(gè)token,在本地模型里算是超高速了)

這一超越人們一般認(rèn)知的性能,在Phi 3的論文中被形容成當(dāng)前模型的表現(xiàn)偏離了標(biāo)準(zhǔn)的Scaling Law。(deviate from the standard scaling-laws)

小模型到底有沒有在打破Scaling Law?我們得先挖挖這些小模型是用什么妙法“突破”Scaling Law的。

兩條路,“突破” Scaling Law

雖然Llama 3 8B和Phi3 3.8B都展示出了非常好的效果,但它們選擇的路徑并不相同。大模型三要素:框架,數(shù)據(jù)和參數(shù),參數(shù)既然固定是小的,框架在這么小參數(shù)下做MOE也沒意義,能做的改變有限,因此他們都只能在數(shù)據(jù)這個(gè)要素上下功夫。

Llama 3:有錢任性路徑

Llama 3 8B所走的路徑是猛加訓(xùn)練數(shù)據(jù)量。一個(gè)80億(8B)參數(shù)的模型,Meta用了15萬億(15T)的數(shù)據(jù)進(jìn)行訓(xùn)練!這和他們訓(xùn)練70B模型用的量級(jí)一致。所以它是符合Scaling Law的,只不過這次增加的不是參數(shù)量,而是數(shù)據(jù)量而已。

既然如此,為什么之前很少有人做這樣給小參數(shù)模型喂超大數(shù)據(jù)的嘗試呢?

因?yàn)樵诖笳Z言模型界一直都還有一個(gè)規(guī)則,叫Chinchilla Scaling規(guī)則。這出自一篇發(fā)布于2022年的論文,作者Hoffman試圖去找到對(duì)應(yīng)某種參數(shù)的最佳數(shù)據(jù)訓(xùn)練量。他通過三種擬合方法,最終發(fā)現(xiàn)大概用20倍于參數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練是效率最高的(即tokens/parameters為20/1)。數(shù)據(jù)比這個(gè)少的話,參數(shù)多提升也不大;數(shù)據(jù)比參數(shù)多20倍的話,模型性能的提升就沒有訓(xùn)練更大參數(shù)模型那么明顯了。所以如果有足夠算力去訓(xùn)練更多的數(shù)據(jù)時(shí),大多數(shù)模型都會(huì)選擇對(duì)應(yīng)的更大的參數(shù)量級(jí)去進(jìn)行訓(xùn)練,因?yàn)檫@樣可以達(dá)到在一定的算力之下效果的最優(yōu),能帶來做多的泛化和最好的效果。

把GPT-3.5裝進(jìn)手機(jī)里?小模型爆發(fā)背后沒什么神奇的魔法

(Chinchilla 的最佳效率點(diǎn)分布)

但Meta在 Llama 3 的開發(fā)過程中對(duì)Chinchilla Scaling Law進(jìn)行了一波壓力測(cè)試。根據(jù)Llama 3的簡易版技術(shù)文檔中所述, 雖然 8B 參數(shù)模型的 Chinchilla 最優(yōu)訓(xùn)練計(jì)算量差不多是 200B token,但Meta發(fā)現(xiàn),即使在模型使用超過兩個(gè)數(shù)量級(jí)(大概4萬億)的數(shù)據(jù)進(jìn)行訓(xùn)練后,模型性能仍在繼續(xù)提高。所以Meta干脆直接給 8B 和 70B 參數(shù)模型喂了15T的token進(jìn)行訓(xùn)練,結(jié)果他們發(fā)現(xiàn)模型能力還在繼續(xù)呈對(duì)數(shù)線性改進(jìn)。

針對(duì)這點(diǎn),前OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy還在Llama 3 發(fā)布后特別發(fā)了一條推文,指出只要你持續(xù)加數(shù)據(jù)量,模型就是會(huì)越來越好。他還點(diǎn)出大家之所以不這么做,一方面是出于誤解:覺得超過Chinchilla的最佳數(shù)據(jù)量,模型的能力提升會(huì)大幅收斂。Llama 3正是用事實(shí)證明了并不會(huì)。另一方面,在現(xiàn)在卡慌的背景下用這么多數(shù)據(jù)持續(xù)多次的訓(xùn)練一個(gè)小模型并不經(jīng)濟(jì),因?yàn)橛猛人懔蛿?shù)據(jù)做大模型,其能力更強(qiáng)。

把GPT-3.5裝進(jìn)手機(jī)里?小模型爆發(fā)背后沒什么神奇的魔法

所以只有Meta這種坐擁35萬塊H100,不差卡的真土豪才敢只從擴(kuò)量數(shù)據(jù)這條路上去驗(yàn)證Scaling Law。

Phi-3:工匠雕花路線

微軟雖然也不缺卡,但他們明顯還是更考慮性價(jià)比的。在Phi-3的技術(shù)說明中,mini版本所用的訓(xùn)練集為3.3萬億個(gè)token,也大大超過了Chichilla最優(yōu),但只有Llama 3 8B的1/5。

Phi系列從其第一代開始一直走的都更偏向于另一個(gè)路徑:優(yōu)化數(shù)據(jù)。除了精心篩選數(shù)據(jù)外,微軟還利用更大的模型生成對(duì)應(yīng)的教科書和習(xí)題集,專門優(yōu)化模型的推理能力。

回到優(yōu)化數(shù)據(jù)這一點(diǎn)上,實(shí)際上目前大模型訓(xùn)練時(shí)用到的數(shù)據(jù)集大多來自網(wǎng)絡(luò)抓取,它們非常雜亂,其中有相當(dāng)一部分都是網(wǎng)絡(luò)垃圾郵件或者廣告等重復(fù)且無法增加信息豐度的內(nèi)容。對(duì)這些數(shù)據(jù)進(jìn)行處理就能使得在這個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練的模型效果得到顯著提升。

比如最近Huggingface就發(fā)布了一個(gè)名為Fineweb的數(shù)據(jù)集,訓(xùn)練了 200 多個(gè)消融模型來仔細(xì)解析和過濾,排重Common Crawl從2013-2024年間的所有數(shù)據(jù),得到了一個(gè)15T的訓(xùn)練集,在這個(gè)訓(xùn)練集上進(jìn)行訓(xùn)練的模型最終效果可以顯著提升。

把GPT-3.5裝進(jìn)手機(jī)里?小模型爆發(fā)背后沒什么神奇的魔法

最上面的是FineWeb,最下面的是一般數(shù)據(jù)

Phi3的核心數(shù)據(jù)處理方法和邏輯沒有什么改變。主要是做了一些拓展和優(yōu)化,把1.5T的數(shù)據(jù)集提升到了3.3T。想了解其詳細(xì)的數(shù)據(jù)處理邏輯可看前文微軟的AI彎道超車法:大模型卷不過,小模型我必坐頭把交椅_科技新聞

當(dāng)然Phi 3的做法更復(fù)雜,其數(shù)據(jù)包含了兩個(gè)主要組成部分,a) 經(jīng)過大語言模型過濾的高質(zhì)量網(wǎng)頁數(shù)據(jù)。這些數(shù)據(jù)要進(jìn)一步按照"教育水平"篩選,保留更多能提高模型"推理能力"的網(wǎng)頁。b) 由大語言模型生成的合成數(shù)據(jù)。這部分?jǐn)?shù)據(jù)專門用于教授模型邏輯推理和各種特定領(lǐng)域的技能。

因?yàn)镻hi3 mini的內(nèi)容容量較小,無法容納所有的訓(xùn)練數(shù)據(jù),它還將訓(xùn)練分為兩個(gè)獨(dú)立的階段:第一階段主要使用網(wǎng)絡(luò)數(shù)據(jù)源,旨在教會(huì)模型一般知識(shí)和語言理解;第二階段將更嚴(yán)格過濾的網(wǎng)頁數(shù)據(jù)與一些合成數(shù)據(jù)混合,以提高模型的邏輯推理和特定領(lǐng)域能力。第二階段會(huì)覆蓋掉第一階段中不太重要的一些常識(shí)數(shù)據(jù),為推理能力相關(guān)的數(shù)據(jù)騰出空間。

通過這通對(duì)數(shù)據(jù)的細(xì)致處理和雕花,Phi-3 mini居然能達(dá)到比它大至少50倍的GPT3.5層級(jí)的推理能力。

把GPT-3.5裝進(jìn)手機(jī)里?小模型爆發(fā)背后沒什么神奇的魔法

得分基本全面碾壓

當(dāng)然,Phi3 mini的驚艷表現(xiàn)其實(shí)也無法動(dòng)搖Scaling Law 本身,至多只能說力大磚飛有效,但用點(diǎn)巧勁處理一下力(數(shù)據(jù)),磚飛的更遠(yuǎn)。

小模型越強(qiáng),大模型離我們的生活就越近

最近一段時(shí)間,圍繞Scaling Law的討論,并不只限于小模型所表現(xiàn)出來“非標(biāo)準(zhǔn)”表現(xiàn)。扎克伯格在Llama 3發(fā)布之后接受訪談時(shí)就提到,縮放定律現(xiàn)在已經(jīng)遇到了能源瓶頸,從今之后,大模型的提升會(huì)是漸進(jìn)的,而非飛躍式的。而2025年實(shí)現(xiàn)AGI基本不太可能。

其他專家,包括AI三巨頭之一的約書亞本吉奧,反對(duì)派巨頭Garry Marcus都表示,如果沒有框架性的更新,在現(xiàn)行低效的Transformer框架下,AI的發(fā)展和Scaling速度都會(huì)放緩。

這其實(shí)在各個(gè)AI大廠的實(shí)踐中也有體現(xiàn)。據(jù)之前外媒報(bào)道,微軟為GPT-6訓(xùn)練搭建10萬個(gè)H100訓(xùn)練集群。但以當(dāng)前美國的電網(wǎng)能力根本承受不了這樣的能耗,一旦在同一個(gè)州的部署超過10萬個(gè)H100 GPU,那整個(gè)電網(wǎng)都得崩潰。

如果Scaling Law真的撞上了能源墻,那下一步大廠們應(yīng)該干點(diǎn)什么呢?

其實(shí)和互聯(lián)網(wǎng)大廠在發(fā)展中的邏輯一樣,如果增長無法保證,那就趕緊轉(zhuǎn)化成實(shí)用用例把錢賺上,穩(wěn)住腳跟。

但直到今天,AI的現(xiàn)實(shí)用例都非常稀缺。這一方面是因?yàn)榧夹g(shù)發(fā)展需要時(shí)間,如Agent之類真的能導(dǎo)向?qū)嵱玫募夹g(shù)組建還在完善過程中。另一方面其實(shí)就是大模型的高昂推理成本讓很多看起來收益還不那么明顯的項(xiàng)目很難真正落地。

但現(xiàn)在,隨著Llama 3 8B還是Phi3 mini的出現(xiàn),一條將大模型引向?qū)嵱玫穆芬苍絹碓矫骼柿恕?/p>

把GPT-3.5裝進(jìn)手機(jī)里?小模型爆發(fā)背后沒什么神奇的魔法

網(wǎng)友表示雖然高性能小模型訓(xùn)練貴,但推理便宜啊,整體還是更便宜,尤其對(duì)于要覆蓋較大用戶群體的推理成本很低

無論是在越來越強(qiáng)支持AI得設(shè)備上實(shí)裝,還是單純提供價(jià)格低廉的云服務(wù),高性能小模型都意味著AI將更容易的擺脫成本上的桎梏,被更有效的應(yīng)用。

小模型的強(qiáng)勢(shì),實(shí)際上將大模型和我們拉的更近了。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港