欧美精品免费,5566少妇人妻一区二区三区,午夜精品久久久久9999

AI大模型的能力比拼或許不再拘泥于“算力”

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 19:32:43 瀏覽：175次

導(dǎo)讀：在如今大模型爆發(fā)的時(shí)期，拉住一個(gè)AI從業(yè)者問(wèn)他市場(chǎng)上誰(shuí)家的大模型更為優(yōu)秀。他應(yīng)該會(huì)告訴你“去看這家有多少算力投入訓(xùn)練”，更為言簡(jiǎn)的話他會(huì)以“存儲(chǔ)有多少塊英偉達(dá)算力芯片”作為更直接的衡量標(biāo)準(zhǔn)。這樣的解釋也沒(méi)有太大的問(wèn)題，如今市面上無(wú)論開(kāi)源大模型，還是閉源大模型，其內(nèi)核都來(lái)自谷歌研究團(tuán)隊(duì)在2017年發(fā)布的《Attention is All You Need》這篇論文中所開(kāi)發(fā)出的“Tra ......

在如今大模型爆發(fā)的時(shí)期，拉住一個(gè)AI從業(yè)者問(wèn)他市場(chǎng)上誰(shuí)家的大模型更為優(yōu)秀。他應(yīng)該會(huì)告訴你“去看這家有多少算力投入訓(xùn)練”，更為言簡(jiǎn)的話他會(huì)以“存儲(chǔ)有多少塊英偉達(dá)算力芯片”作為更直接的衡量標(biāo)準(zhǔn)。

這樣的解釋也沒(méi)有太大的問(wèn)題，如今市面上無(wú)論開(kāi)源大模型，還是閉源大模型，其內(nèi)核都來(lái)自谷歌研究團(tuán)隊(duì)在2017年發(fā)布的《Attention is All You Need》這篇論文中所開(kāi)發(fā)出的“Transformer模型”。包括特斯拉的自動(dòng)駕駛FSD，以及OpenAI的ChatGPT都是對(duì)Transformer模型的產(chǎn)品化開(kāi)發(fā)，可以說(shuō)當(dāng)前市面上所有正在運(yùn)行的AI大模型都是“Transformer模型”的變種。

就像《邪不壓正》這部電影里李天一和朱潛龍的經(jīng)典臺(tái)詞“都是同一個(gè)師傅教的，破不了招啊�！比缃竦腁I大模型市場(chǎng)也面臨這樣的局面，既然做不到“內(nèi)核”多樣化，那么只能通過(guò)快速且大量的數(shù)據(jù)訓(xùn)練，讓“經(jīng)驗(yàn)值”快速提升從而達(dá)到升級(jí)的目的。

據(jù)了解，僅在2023年，OpenAI訓(xùn)練GPT-4時(shí)，就用了25000張型號(hào)為A100的英偉達(dá)GPU。據(jù)外媒報(bào)道，當(dāng)前OpenAI至少擁有40萬(wàn)塊英偉達(dá)的GB200芯片和H100芯片。而甲骨文CEO拉里埃里森也在一次播客訪談中講到，他曾經(jīng)跟特斯拉CEO馬斯克在一次邀請(qǐng)黃仁勛（英偉達(dá)老板）的飯局上，“乞求”黃仁勛給甲骨文和特斯拉預(yù)留足夠的算力芯片。

AI大模型的能力比拼或許不再拘泥于“算力”

事情的發(fā)展如果繼續(xù)沿著“堆算力”的方向發(fā)展，整個(gè)行業(yè)就沒(méi)有變局的可能。但是，打破湖面的漣漪終究會(huì)來(lái)，在12月中旬中國(guó)初創(chuàng)企業(yè)DeepSeek開(kāi)發(fā)的大語(yǔ)言模型（LLM）DeepSeek-V3引發(fā)美歐業(yè)界廣泛關(guān)注，該模型在技術(shù)性能、開(kāi)源模式、成本效益等方面的突出表現(xiàn)獲得積極評(píng)價(jià)。

根據(jù)測(cè)評(píng)機(jī)構(gòu)Artificial Analysis的獨(dú)立分析，DeepSeek-V3可與世界頂尖的AI模型競(jìng)爭(zhēng)。在文本理解、編碼、數(shù)學(xué)和學(xué)科知識(shí)方面，DeepSeek-V3優(yōu)于Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等開(kāi)源模型，并在性能上和世界頂尖的閉源模型OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet不分伯仲。DeepSeek-V3在中文處理、編碼和數(shù)學(xué)計(jì)算等方面的優(yōu)勢(shì)，使其在教育和科研領(lǐng)域具有大潛力。

可以說(shuō)，DeepSeek-V3的能力超過(guò)了許多開(kāi)源對(duì)手，例如Meta公司的Llama-3.1模型和阿里巴巴的Qwen2.5模型。一般情況下，頂級(jí)閉源模型的能力通常優(yōu)于開(kāi)源模型，但DeepSeek在代碼生成、數(shù)學(xué)運(yùn)算等方向表現(xiàn)出了非凡的實(shí)力。

其次，DeepSeek-V3的開(kāi)發(fā)和訓(xùn)練成本也明顯低于其他大模型。OpenAI創(chuàng)始成員之一安德烈卡帕蒂?gòu)?qiáng)調(diào)了這種非凡的效率：像DeepSeek-V3這樣性能和級(jí)別的模型，通常需要1.6萬(wàn)到10萬(wàn)個(gè)GPU的集群來(lái)訓(xùn)練，而中國(guó)初創(chuàng)公司僅用了2048個(gè)GPU在57天內(nèi)便完成了訓(xùn)練。其成本約557.6萬(wàn)美元，僅為其他主流模型（如GPT-4）的1/10左右。

用更為明顯的數(shù)字來(lái)說(shuō)明，DeepSeek-V3模型只用了2048張英偉達(dá)H800顯卡，兩個(gè)月時(shí)間，便訓(xùn)練出了一個(gè)擁有6710億參數(shù)的超大規(guī)模模型，訓(xùn)練成本約為550萬(wàn)美元。數(shù)據(jù)對(duì)比后，DeepSeek的厲害之處更為明顯。如果是其他硅谷公司來(lái)完成同等能力的模型，通常會(huì)選擇最高端的英偉達(dá)顯卡，而不是價(jià)格較低的H800顯卡。此外，他們至少需要1.6萬(wàn)塊高端顯卡才能達(dá)到類似水平，遠(yuǎn)無(wú)法像DeepSeek這樣僅用2000塊H800顯卡完成任務(wù)。

從算力上看，V3的訓(xùn)練耗費(fèi)僅為同等規(guī)模硅谷公司模型的十一分之一。而在成本上，Meta的同等能力模型訓(xùn)練花費(fèi)高達(dá)數(shù)億美元，完全無(wú)法與DeepSeek的性價(jià)比相提并論。

盤古智庫(kù)的專家胡延平對(duì)于DeepSeek-V3的評(píng)價(jià)更為中肯，DeepSeek-V3的成功更多是證明了行業(yè)大模型路線的可行性，雖然相較于通用大模型它還是有差距。不過(guò)，我國(guó)產(chǎn)業(yè)界對(duì)于AI大模型的發(fā)展路徑本來(lái)就是在“產(chǎn)業(yè)化落地”方向，行業(yè)大模型與產(chǎn)品落地匹配度更高，更適合我國(guó)對(duì)于AI賦能各行各業(yè)的需求。

值得一提的是，DeepSeek-V3發(fā)布后的一段時(shí)間內(nèi)，英偉達(dá)的股價(jià)也遭遇了波動(dòng)。有華爾街分析師認(rèn)為，DeepSeek-V3的上市，讓市場(chǎng)對(duì)于AI大模型“堆算力”的發(fā)展模式產(chǎn)生了動(dòng)搖。

AI大模型的能力比拼或許不再拘泥于“算力”
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 19:32:43 瀏覽：175次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明