克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
羊駝家族的“最強(qiáng)開源代碼模型”,迎來了它的“超大杯”
就在今天凌晨,Meta宣布推出Code Llama的70B版本。
在HumanEval測(cè)試中,Code Llama-70B的表現(xiàn)在開源代碼模型中位列第一,甚至超越了GPT-4。
此次發(fā)布的超大杯,保持著與小號(hào)版本相同的許可協(xié)議,也就是仍然可以免費(fèi)商用。
版本上,也和往常一樣分為原版、針對(duì)自然語言指令微調(diào)的Instruct版和針對(duì)Python微調(diào)的Python版。
其中擊敗GPT-4的是Instruct版本,它取得了67.8分的pass@1成績,勝過了GPT-4的67分。
與34B模型相比,基礎(chǔ)版和Instruct版的成績分別提高了8.6%和63.4%。
Code Llama的所有版本均在16000個(gè)token的序列上進(jìn)行訓(xùn)練,上下文長度可達(dá)10萬token。
這意味著,除了生成更長的代碼,Code Llama還可以從用戶的自定義代碼庫讀取更多內(nèi)容,將其傳遞到模型中。
這樣一來就可以針對(duì)具體問題的相關(guān)代碼進(jìn)行快速定位,解決了用戶面對(duì)海量代碼進(jìn)行調(diào)試時(shí)“無從下手”的問題。
Meta CEO小扎也在個(gè)人博客中宣布了這一消息,表示為70B Code Llama感到驕傲。
而小扎的這則帖文,也被細(xì)心的網(wǎng)友發(fā)現(xiàn)了玄機(jī)。
Llama 3要來了?
等一下……他說的是……Llama……3?
的確,在帖文的結(jié)尾處,小扎說希望這些成果能夠應(yīng)用到Llama 3當(dāng)中。
難道,Llama 3,真的要來了嗎?
早在去年8月,有關(guān)Llama 3的傳聞就已經(jīng)出現(xiàn),而直到上周小扎才正式透露,Llama 3的訓(xùn)練過程正在進(jìn)行。
同時(shí),Meta也在進(jìn)一步擴(kuò)充算力,預(yù)計(jì)到今年年底將擁有35萬塊H100。
如果將其他顯卡也折算成H100,Meta總計(jì)將擁有等效于60萬塊H100的算力。
不過小扎透露的消息似乎沒有滿足網(wǎng)友的好奇心,關(guān)于Llama 3究竟何時(shí)能上線的討論也不絕于耳。
Llama 2的訓(xùn)練用了21天,我們是不是可以期待著Llama 3差不多也是這樣呢?
關(guān)于這個(gè)問題,暫時(shí)還沒有官方消息,有人推測(cè)就在今年第一季度。
但可以確定的是,Llama 3將繼續(xù)保持開源。
同時(shí)小扎還表示,AGI將是下一代人工智能的一大標(biāo)志,也是Meta所追求的目標(biāo)。
為了加速AGI的實(shí)現(xiàn),Meta還將旗下的FAIR團(tuán)隊(duì)和GenAI團(tuán)隊(duì)進(jìn)行了合并。
卷參數(shù)量,有必要嗎?
除了Llama 3這個(gè)“意外發(fā)現(xiàn)”,關(guān)于Code Llama本身,網(wǎng)友們也提出了不少問題和期待。
首先是關(guān)于運(yùn)行Code Llama所需要的硬件資源,有網(wǎng)友期待在蘋果M2 Max等芯片上就能運(yùn)行。
但實(shí)際情況是,由于沒有N卡用不了CUDA,Code Llama在M系蘋果芯片上的運(yùn)行結(jié)果并不理想。
針對(duì)N卡則有人猜測(cè),如果對(duì)模型進(jìn)行量化操作,可能4090就能帶動(dòng)。
也有人質(zhì)疑這種想法是過度樂觀,4090能帶動(dòng)的量化程度可能并不適用于這款模型。
但如果愿意用運(yùn)算速度換取顯存空間,用兩塊3090來代替也未嘗不可。
但即便4090屬于消費(fèi)級(jí)顯卡,大部分程序員仍然不一定有能高效運(yùn)行70B模型的設(shè)備。
這也就引發(fā)了另一個(gè)問題堆參數(shù)量,是否真的有必要?
從Pass@1排行榜中,深度求索團(tuán)隊(duì)的DeepSeek Coder表現(xiàn)就比Code Llama高出2.3分,但參數(shù)量卻只有6.7B,不足后者的十分之一。
如果縱向比較,DeepSeek Coder的6.7B和33B版本僅差了2.5分,參數(shù)量帶來的性能提升并沒有Code Llama當(dāng)中明顯。
所以,除了堆參數(shù)量,Meta或許還得在模型本身上再下點(diǎn)功夫。
參考鏈接:
[1]https://twitter.com/aiatmeta/status/1752013879532782075
[2]https://ai.meta.com/blog/code-llama-large-language-model-coding/
[3]https://www.facebook.com/zuck/posts/pfbid0KccyDFLszKeHkWVssrcSJYnigb1VYfsLuExTjxVPKWzDpXgmd9FYMfZ1hcWpyf3Zl
[4]https://news.ycombinator.com/item?id=39178886