展會(huì)信息港展會(huì)大全

DeepSeek,能顛覆AI競(jìng)賽規(guī)則嗎?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-04 18:09:02   瀏覽:227次  

導(dǎo)讀:「核心提示」一家中國(guó)大模型公司,如何另辟蹊徑,改變牌局?作者 | 周可編輯 | 邢昀這個(gè)春節(jié)假期,無(wú)論你是不是科技新聞的長(zhǎng)期讀者,大概率逃不過(guò)一款名為 DeepSeek的AI產(chǎn)品相關(guān)資訊持續(xù)刷屏。一切始于1月20日,中國(guó)科技公司深度求索推出推理模型DeepSeek-R1,僅用 OpenAI十分之一的成本就達(dá)到其最新模型GPT-o1同級(jí)別的表現(xiàn)。此前,深度求索宣布其推出的DeepSeek-V3僅花費(fèi)558萬(wàn) ......

DeepSeek,能顛覆AI競(jìng)賽規(guī)則嗎?

「核心提示」

一家中國(guó)大模型公司,如何另辟蹊徑,改變牌局?

作者 | 周可

編輯 | 邢昀

這個(gè)春節(jié)假期,無(wú)論你是不是科技新聞的長(zhǎng)期讀者,大概率逃不過(guò)一款名為 DeepSeek的AI產(chǎn)品相關(guān)資訊持續(xù)刷屏。

一切始于1月20日,中國(guó)科技公司深度求索推出推理模型DeepSeek-R1,僅用 OpenAI十分之一的成本就達(dá)到其最新模型GPT-o1同級(jí)別的表現(xiàn)。

此前,深度求索宣布其推出的DeepSeek-V3僅花費(fèi)558萬(wàn)美元,不到國(guó)外公司十分之一的GPU芯片和訓(xùn)練時(shí)長(zhǎng),就實(shí)現(xiàn)了與GPT-4o和Claude Sonnet 3.5等花費(fèi)數(shù)億美元訓(xùn)練的頂尖模型相當(dāng)?shù)男阅。這一消息迅速激起全球科技界持續(xù)關(guān)注。

R1發(fā)布后的十天內(nèi),DeepSeek先后登上中國(guó)、美國(guó)等70多個(gè)國(guó)家蘋果應(yīng)用商店下載榜榜首。這是全球范圍內(nèi),首次有產(chǎn)品超越OpenAI的ChatGPT。幾年來(lái),AI競(jìng)賽的焦慮第一次傳導(dǎo)到美國(guó)科技公司。

DeepSeek火爆之下,對(duì)算力需求是否產(chǎn)生負(fù)面影響的討論,也引發(fā)了華爾街恐慌。1 月27日,美國(guó)主要科技股市值開盤縮水超1萬(wàn)億美元,英偉達(dá)股價(jià)帶頭跳水 16.86%,市值蒸發(fā)5890億美元,相當(dāng)于跌沒了兩個(gè)阿里巴巴。甲骨文下跌 13.78%,超微電腦下跌 12.49%,芯片制造商博通下跌 17.4%,臺(tái)積電跌 13%。

科技股股價(jià)暴跌的同時(shí),美國(guó)科技公司開始研究、模仿中國(guó)對(duì)手。據(jù)報(bào)道,Meta已成立四個(gè)小組專門研究DeepSeek。同時(shí),更多質(zhì)疑和圍剿也接踵而至。

過(guò)去幾年的AI競(jìng)賽中,中國(guó)互聯(lián)網(wǎng)和科技公司始終是美國(guó)公司的跟隨者,中國(guó)公司只能寄希望于用更多的資源投入追趕對(duì)手,但風(fēng)向始終由OpenAI、Meta為代表的美國(guó)公司掌握。2022年起,美國(guó)政府宣布升級(jí)芯片出口管制,此后多次更新出口限制清單,限制高算力芯片出口,中國(guó)AI企業(yè)普遍陷入算力焦慮。

DeepSeek最新模型的出現(xiàn),打破了大模型發(fā)展淪為巨頭與資本游戲的行業(yè)共識(shí),為業(yè)內(nèi)追趕美國(guó)大模型的中國(guó)公司們提供一條新的思路:繞過(guò)美國(guó)堆算力的技術(shù)路徑,優(yōu)化算法、探索效率優(yōu)先,走一條“低成本高產(chǎn)出”之路,也可以實(shí)現(xiàn)彎道超車。

1、量化基金背景的大模型,如何彎道超車?

在本次新模型發(fā)布引發(fā)全球關(guān)注后,一些國(guó)外媒體和投資者一度將DeepSeek稱為一家不知名的中國(guó)公司。這種描述并不準(zhǔn)確。

DeepSeek背后的深度求索是一家創(chuàng)立于2023年的年輕公司,但其母公司幻方量化,是管理了超過(guò)1000億元資產(chǎn)的國(guó)內(nèi)頭部量化交易公司,在多年前就開始涉足AI 研究。

DeepSeek創(chuàng)始人梁文鋒最早開啟AI研究的初衷是,用GPU計(jì)算交易倉(cāng)位,訓(xùn)練量化交易模型。此后,出于探索AI能力邊界的好奇,他們囤積了過(guò)萬(wàn)塊先進(jìn)GPU芯片開始訓(xùn)練AGI模型,儲(chǔ)備量接近國(guó)內(nèi)一線互聯(lián)網(wǎng)公司,高于大模型創(chuàng)業(yè)六小龍。這為DeepSeek日后的模型進(jìn)展打下了基礎(chǔ)。

DeepSeek也不是突如其來(lái)地“驚艷”所有人,在近期推出的V3和R1模型之前,它就曾以帶頭打響大模型價(jià)格戰(zhàn)而在國(guó)內(nèi)AI行業(yè)引發(fā)關(guān)注。2024年5月,DeepSeek發(fā)布DeepSeek-V2 ,價(jià)格僅為GPT-4-Turbo的近百分之一。

此后的30天,字節(jié)、百度、阿里等公司的大模型相繼降價(jià),DeepSeek更是一年內(nèi)3次降價(jià),每次降幅超過(guò)85%。

降價(jià),來(lái)自訓(xùn)練和推理成本的持續(xù)降低。相比OpenAI和它的中國(guó)效仿者們用數(shù)億美元訓(xùn)練大模型,DeepSeek選擇了一條更“摳門”,更“極致”的路線。

它的研究人員提出的一種新的MLA(一種新的多頭潛在注意力機(jī)制)架構(gòu),與 DeepSeek MoESparse (混合專家結(jié)構(gòu))結(jié)合,把顯存占用降到了其他大模型最常用的MHA架構(gòu)的5%-13%。

行業(yè)通常用數(shù)萬(wàn)億token(文本單位)訓(xùn)練模型,但DeepSeek通過(guò)“數(shù)據(jù)蒸餾”技術(shù),即用一個(gè)高精度的通用大模型當(dāng)老師,而不是用題海戰(zhàn)術(shù)來(lái)更高效訓(xùn)練學(xué)生“模型”,把數(shù)據(jù)計(jì)算最大程度降低,僅用1/5的數(shù)據(jù)量達(dá)到同等效果,促成了成本的下降。

一個(gè)通俗的舉例可幫助我們理解這種變化,傳統(tǒng)大模型每次處理問(wèn)題都需激活全部參數(shù),而普通用戶提出的問(wèn)題可能并不需要如此多的資源投入,這如同讓一家醫(yī)院的全部科室去會(huì)診一個(gè)普通感冒;而DeepSeek-R1會(huì)先判斷問(wèn)題類型,再精準(zhǔn)調(diào)用對(duì)應(yīng)模塊數(shù)學(xué)題交給邏輯推理單元,寫詩(shī)則由文學(xué)模塊處理。這種設(shè)計(jì)讓模型響應(yīng)速度提升3倍,能耗也更低。

更快速度和更低能耗,建立在“低成本、高性能”的初始規(guī)劃上。DeepSeek通過(guò)算法優(yōu)化顯著降低訓(xùn)練成本。R1 的預(yù)訓(xùn)練費(fèi)用只有557.6萬(wàn)美元,在2048塊英偉達(dá)H800 GPU(針對(duì)中國(guó)市場(chǎng)的低配版GPU)集群上運(yùn)行55天完成。此前,OpenAI等企業(yè)訓(xùn)練模型,都需要數(shù)千甚至上萬(wàn)塊高算力的Nvidia A100、H100等頂級(jí)顯卡,花費(fèi)數(shù)億美元的訓(xùn)練成本。

并非 OpenAI 或者中國(guó)大公司的大模型開發(fā)者們沒有想到過(guò)此類模塊化方案的可能性,而是他們權(quán)衡利弊,選擇了更適合自身發(fā)展情況的方案。

OpenAI擁有資金和算力上的絕對(duì)優(yōu)勢(shì),優(yōu)先追求“通用智能”,他們花費(fèi)數(shù)十億美元,通過(guò)海量參數(shù)投喂訓(xùn)練模型,希望模型可以達(dá)到全能通才的效果。效仿它的中國(guó)公司們沿用這一思路,可以保證自家大模型沒有明顯的能力短板,快速達(dá)到可商用水平。

DeepSeek選擇從垂直場(chǎng)景切入,從 all in 特定領(lǐng)域開始,追求在部分領(lǐng)域(如數(shù)學(xué)、代碼)的表現(xiàn)更優(yōu),再逐步分階段完善其他領(lǐng)域的能力。

DeepSeek,能顛覆AI競(jìng)賽規(guī)則嗎?

DeepSeek R1 與 OpenAI O1正式版在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)下的測(cè)試成績(jī)相當(dāng)。

這種另辟蹊徑意味著更高難度,更高風(fēng)險(xiǎn)。若路由錯(cuò)誤(例如將詩(shī)歌創(chuàng)作誤判為數(shù)學(xué)題),輸出質(zhì)量將會(huì)暴跌;模塊間的知識(shí)隔離(如用數(shù)學(xué)公式寫情書),可能導(dǎo)致跨領(lǐng)域任務(wù)失敗。如果未能開發(fā)出足夠優(yōu)異的模塊化模型,前期的投入可能浪費(fèi)。大多數(shù)公司受限于路徑依賴或資源約束,難以接受All in這一高風(fēng)險(xiǎn)路線。

這并不容易。早期DeepSeek的MoE模型誤判率普遍在15%以上,團(tuán)隊(duì)通過(guò)引入強(qiáng)化學(xué)習(xí)優(yōu)化路由決策,長(zhǎng)期訓(xùn)練后模型在測(cè)試中將誤判率控制在個(gè)位數(shù)的低位。

多位行業(yè)人士將DeepSeek的脫穎而出理解為“模塊化特種兵”,在與OpenAI等“通用巨獸”的比賽中,在部分領(lǐng)域展現(xiàn)出同等能力甚至略微領(lǐng)先。盡管DeepSeek的整體技術(shù)與OpenAI等美國(guó)企業(yè)存在差距,但其已經(jīng)足以被視為一個(gè)實(shí)力逐漸接近的競(jìng)爭(zhēng)對(duì)手。

更關(guān)鍵的是, DeepSeek 跳過(guò)了美國(guó)開發(fā)者們認(rèn)為必不可少的步驟,這意味著在資金、算力芯片劣勢(shì)的情況下,中國(guó)乃至世界各地的AI創(chuàng)業(yè)公司也有可能彎道超車,不必活在大公司的陰影之下,垂直領(lǐng)域的專注也能幫助他們?cè)谔囟▓?chǎng)景中形成優(yōu)勢(shì),避免與巨頭正面競(jìng)爭(zhēng),找到屬于自己的立足之地。

2、開源模型,DeepSeek的選擇與壁壘

DeepSeek引起轟動(dòng),除了模型本身的優(yōu)異表現(xiàn),還來(lái)自其堅(jiān)持的免費(fèi)開源主張,公開模型的源代碼、權(quán)重和架構(gòu)。這意味著,無(wú)論是個(gè)人還是開發(fā)者,或是企業(yè)用戶都可以免費(fèi)使用其最新模型,并在此基礎(chǔ)上開發(fā)更多應(yīng)用。

這一決策得到了許多行業(yè)專家和投資者的贊許。

英偉達(dá)高級(jí)研究科學(xué)家Jim Fan評(píng)論稱,“我們生活在這樣一個(gè)時(shí)代,一家非美國(guó)公司正在讓OpenAI的初衷得以延續(xù),即做真正開放、為所有人賦能的前沿研究!

硅谷風(fēng)投A16Z創(chuàng)始人Marc Andreessen也發(fā)表評(píng)論稱,DeepSeek-R1 是他見過(guò)的最令人驚嘆且令人印象深刻的一個(gè)突破,作為開源的模型,它的面世給世界帶來(lái)了一份禮物。

OpenAI最初是為了對(duì)抗谷歌在AI領(lǐng)域的壟斷地位,旨在通過(guò)開源的方式促進(jìn)AI技術(shù)的發(fā)展,避免谷歌在AI領(lǐng)域的過(guò)度控制,因此命名為 “OpenAI” 以體現(xiàn)其開源的愿景。但在GPT-3發(fā)布,接受微軟投資后,OpenAI 出于訓(xùn)練成本、收益和維持其競(jìng)爭(zhēng)力的考慮走向閉源。

目前表現(xiàn)強(qiáng)勁的其他大模型,如Meta的Llama號(hào)稱選擇了開源路線,但許可證需要申請(qǐng)?jiān)L問(wèn)權(quán)限,限制部分商業(yè)用途,且只公開了部分架構(gòu)細(xì)節(jié),不公開具體的訓(xùn)練數(shù)據(jù)構(gòu)成,不提供完整的訓(xùn)練腳本。這樣的開源對(duì)于AI產(chǎn)業(yè)的進(jìn)步意義十分有限。

大多數(shù)中國(guó)大公司開發(fā)的大模型,如百度的文心一言、華為的盤古大模型等產(chǎn)品都選擇了閉源路線,它們往往是基于商業(yè)化和競(jìng)爭(zhēng)考量,平臺(tái)型公司有足夠多的資源,掌握了大量的用戶數(shù)據(jù),可以依靠自身的內(nèi)部循環(huán)完成模型的訓(xùn)練和迭代。閉源可以讓他們?cè)谀P蛯iL(zhǎng)的領(lǐng)域保持優(yōu)勢(shì),避免被競(jìng)爭(zhēng)對(duì)手趕超。

DeepSeek選擇開源,既是出于對(duì)傳統(tǒng)大廠的技術(shù)壟斷的挑戰(zhàn),也是基于自身發(fā)展情況的考量。創(chuàng)業(yè)公司可能在資源和算力上處于劣勢(shì),但通過(guò)開源策略,可以快速建立生態(tài),獲得更多的用戶和開發(fā)者支持。

DeepSeek創(chuàng)始人梁文鋒此前談及對(duì)于開源的構(gòu)想是,成為更多公司的模型底座。哪怕一個(gè)小 APP都可以低成本去用上大模型,而不是技術(shù)只掌握在一部分人和公司手中,形成壟斷。

在他看來(lái),DeepSeek未來(lái)可以只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新,其他公司在 DeepSeek的基礎(chǔ)上構(gòu)建To B、To C的業(yè)務(wù)。如果能形成完整的產(chǎn)業(yè)上下游,就沒必要自己做應(yīng)用。

DeepSeek所選擇的模塊化模型設(shè)計(jì),如同精密的鐘表單個(gè)齒輪的工藝或許可復(fù)制,但整體協(xié)同需要長(zhǎng)期試錯(cuò)與生態(tài)積累。競(jìng)爭(zhēng)對(duì)手并不能依靠簡(jiǎn)單照搬就能復(fù)制其原始模型,越多的用戶和開發(fā)者使用,則意味著模型得到更多訓(xùn)練。

當(dāng)下,DeepSeek背靠千億量化基金,在免去資金的后顧之憂后,選擇了一條頗顯理想主義的路徑,即只做模型研究,不考慮商業(yè)變現(xiàn),通過(guò)開源基礎(chǔ)模型吸引開發(fā)者,未來(lái)再逐步通過(guò)企業(yè)版工具鏈(如模塊訓(xùn)練平臺(tái))推進(jìn)商業(yè)化。

今天的AI競(jìng)爭(zhēng)格局之下,對(duì)于一家創(chuàng)業(yè)公司,開源不僅是技術(shù)策略,更是參與制定行業(yè)規(guī)則的關(guān)鍵落子。在模型能力逐漸透明的未來(lái),真正的競(jìng)爭(zhēng)優(yōu)勢(shì)將來(lái)自構(gòu)建數(shù)據(jù)反饋閉環(huán)的能力,以及將技術(shù)影響力轉(zhuǎn)化為商業(yè)生態(tài)的能力。

這本質(zhì)上是一場(chǎng)關(guān)于"標(biāo)準(zhǔn)制定權(quán)"的爭(zhēng)奪誰(shuí)的開源協(xié)議能成為行業(yè)事實(shí)標(biāo)準(zhǔn),誰(shuí)就能在下一代AI基礎(chǔ)設(shè)施中占據(jù)核心位置。中國(guó)科技公司與美國(guó)科技公司之間的差距,不是時(shí)間維度,而是創(chuàng)新和模仿的差別。

這一次,DeepSeek 代表的中國(guó)科技公司給出的方案不再是模仿跟隨,而是創(chuàng)新。

參考資料:

暗涌 Waves:揭秘DeepSeek:一個(gè)更極致的中國(guó)技術(shù)理想主義故事

科技新聞:DeepSeek除夕發(fā)布新模型,多模態(tài)大一統(tǒng)的革命來(lái)了?

雷鋒網(wǎng):MoE 高效訓(xùn)練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」

NYT:How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley Giants

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港