展會(huì)信息港展會(huì)大全

AI大模型的能力比拼或許不再拘泥于“算力”
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-21 19:32:43   瀏覽:175次  

導(dǎo)讀:在如今大模型爆發(fā)的時(shí)期,拉住一個(gè)AI從業(yè)者問(wèn)他市場(chǎng)上誰(shuí)家的大模型更為優(yōu)秀。他應(yīng)該會(huì)告訴你“去看這家有多少算力投入訓(xùn)練”,更為言簡(jiǎn)的話他會(huì)以“存儲(chǔ)有多少塊英偉達(dá)算力芯片”作為更直接的衡量標(biāo)準(zhǔn)。這樣的解釋也沒(méi)有太大的問(wèn)題,如今市面上無(wú)論開(kāi)源大模型,還是閉源大模型,其內(nèi)核都來(lái)自谷歌研究團(tuán)隊(duì)在2017年發(fā)布的《Attention is All You Need》這篇論文中所開(kāi)發(fā)出的“Tra ......

在如今大模型爆發(fā)的時(shí)期,拉住一個(gè)AI從業(yè)者問(wèn)他市場(chǎng)上誰(shuí)家的大模型更為優(yōu)秀。他應(yīng)該會(huì)告訴你“去看這家有多少算力投入訓(xùn)練”,更為言簡(jiǎn)的話他會(huì)以“存儲(chǔ)有多少塊英偉達(dá)算力芯片”作為更直接的衡量標(biāo)準(zhǔn)。

這樣的解釋也沒(méi)有太大的問(wèn)題,如今市面上無(wú)論開(kāi)源大模型,還是閉源大模型,其內(nèi)核都來(lái)自谷歌研究團(tuán)隊(duì)在2017年發(fā)布的《Attention is All You Need》這篇論文中所開(kāi)發(fā)出的“Transformer模型”。包括特斯拉的自動(dòng)駕駛FSD,以及OpenAI的ChatGPT都是對(duì)Transformer模型的產(chǎn)品化開(kāi)發(fā),可以說(shuō)當(dāng)前市面上所有正在運(yùn)行的AI大模型都是“Transformer模型”的變種。

就像《邪不壓正》這部電影里李天一和朱潛龍的經(jīng)典臺(tái)詞“都是同一個(gè)師傅教的,破不了招啊!比缃竦腁I大模型市場(chǎng)也面臨這樣的局面,既然做不到“內(nèi)核”多樣化,那么只能通過(guò)快速且大量的數(shù)據(jù)訓(xùn)練,讓“經(jīng)驗(yàn)值”快速提升從而達(dá)到升級(jí)的目的。

據(jù)了解,僅在2023年,OpenAI訓(xùn)練GPT-4時(shí),就用了25000張型號(hào)為A100的英偉達(dá)GPU。據(jù)外媒報(bào)道,當(dāng)前OpenAI至少擁有40萬(wàn)塊英偉達(dá)的GB200芯片和H100芯片。而甲骨文CEO拉里埃里森也在一次播客訪談中講到,他曾經(jīng)跟特斯拉CEO馬斯克在一次邀請(qǐng)黃仁勛(英偉達(dá)老板)的飯局上,“乞求”黃仁勛給甲骨文和特斯拉預(yù)留足夠的算力芯片。

AI大模型的能力比拼或許不再拘泥于“算力”

事情的發(fā)展如果繼續(xù)沿著“堆算力”的方向發(fā)展,整個(gè)行業(yè)就沒(méi)有變局的可能。但是,打破湖面的漣漪終究會(huì)來(lái),在12月中旬中國(guó)初創(chuàng)企業(yè)DeepSeek開(kāi)發(fā)的大語(yǔ)言模型(LLM)DeepSeek-V3引發(fā)美歐業(yè)界廣泛關(guān)注,該模型在技術(shù)性能、開(kāi)源模式、成本效益等方面的突出表現(xiàn)獲得積極評(píng)價(jià)。

根據(jù)測(cè)評(píng)機(jī)構(gòu)Artificial Analysis的獨(dú)立分析,DeepSeek-V3可與世界頂尖的AI模型競(jìng)爭(zhēng)。在文本理解、編碼、數(shù)學(xué)和學(xué)科知識(shí)方面,DeepSeek-V3優(yōu)于Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等開(kāi)源模型,并在性能上和世界頂尖的閉源模型OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet不分伯仲。DeepSeek-V3在中文處理、編碼和數(shù)學(xué)計(jì)算等方面的優(yōu)勢(shì),使其在教育和科研領(lǐng)域具有大潛力。

可以說(shuō),DeepSeek-V3的能力超過(guò)了許多開(kāi)源對(duì)手,例如Meta公司的Llama-3.1模型和阿里巴巴的Qwen2.5模型。一般情況下,頂級(jí)閉源模型的能力通常優(yōu)于開(kāi)源模型,但DeepSeek在代碼生成、數(shù)學(xué)運(yùn)算等方向表現(xiàn)出了非凡的實(shí)力。

其次,DeepSeek-V3的開(kāi)發(fā)和訓(xùn)練成本也明顯低于其他大模型。OpenAI創(chuàng)始成員之一安德烈卡帕蒂?gòu)?qiáng)調(diào)了這種非凡的效率:像DeepSeek-V3這樣性能和級(jí)別的模型,通常需要1.6萬(wàn)到10萬(wàn)個(gè)GPU的集群來(lái)訓(xùn)練,而中國(guó)初創(chuàng)公司僅用了2048個(gè)GPU在57天內(nèi)便完成了訓(xùn)練。其成本約557.6萬(wàn)美元,僅為其他主流模型(如GPT-4)的1/10左右。

用更為明顯的數(shù)字來(lái)說(shuō)明,DeepSeek-V3模型只用了2048張英偉達(dá)H800顯卡,兩個(gè)月時(shí)間,便訓(xùn)練出了一個(gè)擁有6710億參數(shù)的超大規(guī)模模型,訓(xùn)練成本約為550萬(wàn)美元。數(shù)據(jù)對(duì)比后,DeepSeek的厲害之處更為明顯。如果是其他硅谷公司來(lái)完成同等能力的模型,通常會(huì)選擇最高端的英偉達(dá)顯卡,而不是價(jià)格較低的H800顯卡。此外,他們至少需要1.6萬(wàn)塊高端顯卡才能達(dá)到類似水平,遠(yuǎn)無(wú)法像DeepSeek這樣僅用2000塊H800顯卡完成任務(wù)。

從算力上看,V3的訓(xùn)練耗費(fèi)僅為同等規(guī)模硅谷公司模型的十一分之一。而在成本上,Meta的同等能力模型訓(xùn)練花費(fèi)高達(dá)數(shù)億美元,完全無(wú)法與DeepSeek的性價(jià)比相提并論。

盤古智庫(kù)的專家胡延平對(duì)于DeepSeek-V3的評(píng)價(jià)更為中肯,DeepSeek-V3的成功更多是證明了行業(yè)大模型路線的可行性,雖然相較于通用大模型它還是有差距。不過(guò),我國(guó)產(chǎn)業(yè)界對(duì)于AI大模型的發(fā)展路徑本來(lái)就是在“產(chǎn)業(yè)化落地”方向,行業(yè)大模型與產(chǎn)品落地匹配度更高,更適合我國(guó)對(duì)于AI賦能各行各業(yè)的需求。

值得一提的是,DeepSeek-V3發(fā)布后的一段時(shí)間內(nèi),英偉達(dá)的股價(jià)也遭遇了波動(dòng)。有華爾街分析師認(rèn)為,DeepSeek-V3的上市,讓市場(chǎng)對(duì)于AI大模型“堆算力”的發(fā)展模式產(chǎn)生了動(dòng)搖。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港