(圖片來(lái)源:Shutterstock US)
正如大家所知,“東方神秘力量”DeepSeek近期在中國(guó)、美國(guó)的科技圈受到廣泛關(guān)注,甚至被認(rèn)為是大模型行業(yè)最大“黑馬”。
近期,中國(guó) AI 大模型創(chuàng)業(yè)公司DeepSeek(深度求索)正式發(fā)布 DeepSeek-R1大模型,稱(chēng)在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAI o1正式版。
這一消息震動(dòng)了全球 AI 圈,也讓美國(guó) AI 公司研究人員感到吃驚于中國(guó)趕超了美國(guó)大模型技術(shù)。
一位Meta的工程師在美國(guó)科技公司員工社區(qū)Blind中這樣寫(xiě)道,“Meta的生成式AI部門(mén)正處于恐慌中。這一切始于DeepSeek,它使得 Llama 4 在基準(zhǔn)測(cè)試中已經(jīng)落后。雪上加霜的是:那個(gè)不知名的中國(guó)公司,僅有550萬(wàn)美元的訓(xùn)練預(yù)算。工程師們正在瘋狂地剖析DeepSeek,并試圖從中復(fù)制一切可能的東西。”
鈦媒體AGI了解到,截至發(fā)稿前,DeepSeek移動(dòng)端在蘋(píng)果 App Store應(yīng)用商店排行第八,超越Google Gemini、Microsoft Copilot等美國(guó)生成式 AI 產(chǎn)品,下載熱度僅次于ChatGPT。
同時(shí),OpenAI、字節(jié)跳動(dòng)、阿里通義以及智譜、Kimi月之暗面等國(guó)內(nèi)外團(tuán)隊(duì)都在積極研究DeepSeek,OpenAI和字節(jié)跳動(dòng)都在考慮與DeepSeek展開(kāi)研究合作。
達(dá)沃斯世界經(jīng)濟(jì)論壇期間,Scale AI創(chuàng)始人亞歷山大王(Alexandr Wang)直言,DeepSeekAI大模型性能大致與美國(guó)最好的模型相當(dāng)。他認(rèn)為,過(guò)去十年來(lái),美國(guó)可能一直在 AI 競(jìng)賽中領(lǐng)先于中國(guó),但DeepSeek的AI大模型發(fā)布可能會(huì)“改變一切”。
值得細(xì)品的是Alexandr Wang說(shuō)的另一段話(huà):“DeepSeek大約有5萬(wàn)張H100計(jì)算卡,他們顯然不能談?wù)撨@件事,因?yàn)檫@違反了美國(guó)實(shí)施的出口管制。我認(rèn)為這是真的,我認(rèn)為他們的籌碼比其他人預(yù)期的要多,但也會(huì)繼續(xù)前進(jìn)。他們將受到芯片控制和出口管制的限制。”
美國(guó)科技企業(yè)高管:中國(guó)發(fā)布的DeepSeek性能與美國(guó)最好的AI模型不相上下
Alexandr Wang暗示DeepSeek將會(huì)受到美國(guó)管制。
DeepSeek創(chuàng)始人、頭部量化私募幻方量化創(chuàng)始人梁文鋒曾表示,DeepSeek面臨的主要制約因素不是資金,而是高端算力的使用權(quán),這些芯片對(duì)于訓(xùn)練先進(jìn)AI模型至關(guān)重要。
隨著AMD證實(shí)DeepSeek正在使用最強(qiáng) AI 芯片之一的MI300X進(jìn)行大模型訓(xùn)練,對(duì)于中國(guó) AI 如何突破圍欄實(shí)施大模型訓(xùn)練,將成為關(guān)鍵話(huà)題。
DeepSeek朝美國(guó)硅谷開(kāi)的“這一槍”用時(shí)4年
如果你在 AI 圈,對(duì)于DeepSeek和梁文鋒已經(jīng)有很多文章進(jìn)行介紹了?偨Y(jié)來(lái)說(shuō)有幾點(diǎn):
1、梁文鋒是典型的“小鎮(zhèn)做題家”:出生于廣東湛江的五(三)線(xiàn)城市、17歲考入浙江大學(xué),2010年碩士畢業(yè)于浙江大學(xué)信息與通信工程專(zhuān)業(yè)。
2、碩士畢業(yè)后,梁文鋒就帶領(lǐng)團(tuán)隊(duì)開(kāi)始使用機(jī)器學(xué)習(xí)等技術(shù)探索全自動(dòng)量化交易。2010年,他和浙江大學(xué)校友創(chuàng)立了雅克比投資。
3、2015年6月,30歲的梁文鋒與“股東出軌女下屬”的徐進(jìn)聯(lián)合創(chuàng)辦杭州幻方科技有限公司(幻方量化、High-Flyer),依靠數(shù)學(xué)與人工智能進(jìn)行量化投資,立志成為世界頂級(jí)的量化對(duì)沖基金。
4、2021年,幻方量化管理規(guī)模已突破了1000億元,同一年,梁文鋒開(kāi)始找尋“副業(yè)”,找供應(yīng)商買(mǎi)了數(shù)千張英偉達(dá)GPU顯卡(當(dāng)時(shí)應(yīng)該買(mǎi)的是RTX4090、A100、L40等),發(fā)力AI技術(shù)。而到2023年,幻方量化管理總規(guī)模已降到400多億元。
5、2023年初,幻方量化曾宣布自身?yè)碛?萬(wàn)張英偉達(dá)A100 GPU卡,后來(lái)我們了解到,當(dāng)時(shí)幻方量化說(shuō)了假話(huà),它當(dāng)時(shí)僅擁有數(shù)千張A100卡而已,剩下則是消費(fèi)卡、老款顯卡,還有用云服務(wù)方式租用A100顯卡。業(yè)內(nèi)人士將其視為,一個(gè)億萬(wàn)富翁尋找新愛(ài)好時(shí)的“古怪行為”。
6、DeepSeek熱潮很大程度上與國(guó)內(nèi)媒體所謂“中國(guó)大模型企業(yè)超越美國(guó)”這類(lèi)東升西降的熱捧是分不開(kāi)。其實(shí),DeepSeek技術(shù)并未稀奇到“驚嘆”程度,DeepSeek V1版本的時(shí)候很粗糙,當(dāng)時(shí)大量使用GPT的開(kāi)源數(shù)據(jù),甚至一度調(diào)用過(guò)GPT-3.5 API接口。如今的“AI界的拼多多”,本身是AI infra技術(shù)和團(tuán)隊(duì) AI 技術(shù)能力強(qiáng)。因此,媒體用DeepSeek單一模型證實(shí)中國(guó) AI 技術(shù)超越美國(guó),是邏輯上的“以偏概全”錯(cuò)誤,DeepSeek是 AI 技術(shù)迭代的受益者,但這并不代表它在技術(shù)上具備了超越OpenAI等領(lǐng)先企業(yè)的實(shí)力。
7、DeepSeek的實(shí)例進(jìn)一步表明,AI技術(shù)并不存在明顯的“護(hù)城河”,模型技術(shù)的超越已成為常態(tài),“六小虎”并不是唯一頭部。然而,AI算力規(guī)模的增長(zhǎng)以及長(zhǎng)期的模型迭代是否能夠真正超越OpenAI,才是決定AI大模型發(fā)展的關(guān)鍵因素。
8、DeepSeek不融資、短期沒(méi)有上市意愿,良好的現(xiàn)金流促使DeepSeek招聘大量 AI 研究人才,形成所謂“研究院”氛圍,只負(fù)責(zé)前沿,不負(fù)責(zé)商業(yè),甚至團(tuán)隊(duì)非常懂基礎(chǔ)設(shè)施和芯片原理。此外,他還從對(duì)沖基金行業(yè)帶走了最好的團(tuán)隊(duì)加入DeepSeek。
正如圖靈獎(jiǎng)得主、Meta AI首席科學(xué)家楊樂(lè)昆(Yann LeCun)所說(shuō),“給那些看到 DeepSeek 的表現(xiàn)后,覺(jué)得‘中國(guó)在 AI 方面正在超越美國(guó)’的人,你們的解讀是錯(cuò)的。正確的解讀應(yīng)該是,‘開(kāi)源模型正在超越專(zhuān)有模型’。”
事實(shí)上,從購(gòu)買(mǎi)千張GPU搭建 AI 算力開(kāi)始,DeepSeek大模型超越OpenAI之路用時(shí)4年。
去年 12 月底,DeepSeek發(fā)布的DeepSeek-V3開(kāi)源基礎(chǔ)模型性能,與GPT-4o和Claude Sonnet 3.5等頂尖模型相近,但訓(xùn)練成本極低。整個(gè)訓(xùn)練在2048塊英偉達(dá)H800 GPU集群上完成,僅花費(fèi)約557.6萬(wàn)美元,不到其他頂尖模型訓(xùn)練成本的十分之一。
GPT-4o等模型的訓(xùn)練成本約為1億美元,至少在萬(wàn)個(gè)GPU量級(jí)的計(jì)算集群上訓(xùn)練,而且使用的是性能更為優(yōu)越的H100 GPU。例如,同為頂尖大模型,去年發(fā)布的Llama 3.1在訓(xùn)練過(guò)程中使用了16,384塊H100 GPU,消耗了DeepSeek-V3 11倍的計(jì)算資源,成本超過(guò)6000萬(wàn)美元。
如今,盡管DeepSeek現(xiàn)在尚未公布訓(xùn)練推理模型R1的完整成本,但它公布了API的定價(jià),每百萬(wàn)輸入 tokens 1 元-4元人民幣,每百萬(wàn)輸出 tokens 16 元。這個(gè)收費(fèi)大約是 OpenAI o1運(yùn)行成本的三十分之一。
成本進(jìn)一步降低的同時(shí),DeepSeek R1的技術(shù)關(guān)鍵點(diǎn)在于其創(chuàng)新的訓(xùn)練方法DeepSeek-R1-Zero路線(xiàn),該路線(xiàn)直接將強(qiáng)化學(xué)習(xí)(RL)應(yīng)用于基礎(chǔ)模型,無(wú)需依賴(lài)監(jiān)督微調(diào)(SFT)和已標(biāo)注數(shù)據(jù)。通過(guò)建立簡(jiǎn)單的準(zhǔn)確性獎(jiǎng)勵(lì)和格式要求規(guī)則,DeepSeek R1在無(wú)監(jiān)督數(shù)據(jù)的情況下實(shí)現(xiàn)自我進(jìn)化,獲得強(qiáng)大的推理能力。在A(yíng)IME 2024基準(zhǔn)測(cè)試中,DeepSeek R1-Zero展現(xiàn)了高達(dá)86.7%的準(zhǔn)確率,證明了直接強(qiáng)化學(xué)習(xí)在訓(xùn)練高級(jí)推理模型中的有效性。
艾倫人工智能研究所科學(xué)家內(nèi)森蘭伯特(Nathan Lambert)表示,R1的論文是推理模型研究不確定性中的一個(gè)重要轉(zhuǎn)折點(diǎn),因?yàn)榈侥壳盀橹,AI 推理模型一直是工業(yè)研究的一個(gè)重要領(lǐng)域,但缺乏一篇具有開(kāi)創(chuàng)性的論文。
據(jù)知識(shí)分子,中山大學(xué)集成電路學(xué)院助理教授王美琪表示,直接強(qiáng)化學(xué)習(xí)方法與 DeepSeek 團(tuán)隊(duì)在多版模型迭代中的一系列工程優(yōu)化技術(shù)(如簡(jiǎn)化獎(jiǎng)懲模型設(shè)計(jì)等)相結(jié)合,有效降低了大模型的訓(xùn)練成本。直接強(qiáng)化學(xué)習(xí)避免了大量人工標(biāo)注數(shù)據(jù)的工作,而獎(jiǎng)懲模型的簡(jiǎn)化設(shè)計(jì)等則減少了對(duì)計(jì)算資源的需求。
“DeepSeek 的運(yùn)行方式就像DeepMind早期一樣,”一位 AI 投資者表示,它純粹專(zhuān)注于研究和工程,而非商業(yè)化。
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan直言,“DeepSeek是本年度開(kāi)源大語(yǔ)言模型領(lǐng)域的最大黑馬!
算力需求仍是大模型資源“困境”,美國(guó)出口管制影響不小
對(duì)于DeepSeek,英國(guó)《自然》雜志認(rèn)為,盡管美國(guó)對(duì)華半導(dǎo)體出口管制進(jìn)行限制,但中國(guó)公司還是成功制造了DeepSeek R1。但西雅圖 AI 研究員 Francois Chollet認(rèn)為,“高效利用資源比單純的計(jì)算規(guī)模更重要!
梁文鋒此前也指出,對(duì)于DeepSeek來(lái)說(shuō),算力更高的先進(jìn) AI 芯片對(duì)于訓(xùn)練先進(jìn)AI模型至關(guān)重要。
如今,Alexander Wang直言不諱地表達(dá)美國(guó)政府需要為了領(lǐng)先優(yōu)勢(shì)對(duì)DeepSeek的 AI 芯片進(jìn)行調(diào)查和管制。
Alexandr Wang出生于1997年,他于19歲那年從美國(guó)麻省理工學(xué)院輟學(xué),創(chuàng)立的AI公司Scale AI估值超百億美元,獲得了包括Y Combinator、英偉達(dá)、AMD風(fēng)投、亞馬遜、Meta等巨頭科技公司投資,該公司為OpenAI、谷歌和 Meta等提供訓(xùn)練數(shù)據(jù)。
此前,Alexandr Wang發(fā)文表達(dá)對(duì)中國(guó) AI 追趕美國(guó)的擔(dān)憂(yōu)。他認(rèn)為,DeepSeek-V3的發(fā)布給外界的教訓(xùn)是,在美國(guó)人休息時(shí),中國(guó)人在工作,并以更便宜、更快、更強(qiáng)的產(chǎn)品迎頭趕上。
OpenAI 首席財(cái)務(wù)官 Sarah Friar也認(rèn)為,中美之間的 AI 競(jìng)爭(zhēng)不是簡(jiǎn)單的口水戰(zhàn),這是一場(chǎng)真實(shí)的競(jìng)爭(zhēng),雙方正在大力投資這一領(lǐng)域!拔覀円呀(jīng)看到特朗普政府愿意積極參與,無(wú)論是從經(jīng)濟(jì)角度,還是從監(jiān)管和商業(yè)競(jìng)爭(zhēng)的角度。我們很期待開(kāi)始實(shí)質(zhì)性的合作。”
當(dāng)前,美國(guó)出口管制成為中國(guó) AI 行業(yè)發(fā)展的關(guān)鍵因素之一。
北京時(shí)間1月15日晚,美國(guó)商務(wù)部工業(yè)和安全局 (BIS) 修訂了《出口管制條例》(EAR),在實(shí)體清單中分兩批,共增加了25個(gè)中國(guó)實(shí)體,包括智譜旗下9個(gè)實(shí)體等。
這是首個(gè)中國(guó)AI大模型公司被美國(guó)列入“實(shí)體清單”。
對(duì)此,智譜發(fā)聲明回應(yīng)稱(chēng),“美國(guó)商務(wù)部工業(yè)和安全局(BIS)擬將智譜及子公司增列至出口管制實(shí)體清單。這一決定缺乏事實(shí)依據(jù),我們對(duì)此表示強(qiáng)烈反對(duì)。鑒于智譜掌握全鏈路大模型核心技術(shù)的事實(shí),被列入實(shí)體清單不會(huì)對(duì)公司業(yè)務(wù)產(chǎn)生實(shí)質(zhì)影響。智譜有能力也將更專(zhuān)注地為我們的用戶(hù)和伙伴提供世界一流的大模型技術(shù)、產(chǎn)品和服務(wù)。同時(shí)公司將繼續(xù)參與全球人工智能競(jìng)爭(zhēng),堅(jiān)持最高安全標(biāo)準(zhǔn)和公平、透明、可持續(xù)原則,推動(dòng)人工智能技術(shù)發(fā)展!
在此之前,曠視、依圖、云從、摩爾線(xiàn)程等大量 AI 公司被列入美國(guó)“實(shí)體清”,對(duì)于一些 AI 軟件公司來(lái)說(shuō)有一定影響無(wú)法再訓(xùn)練出萬(wàn)億規(guī)模大模型。
然而,DeepSeek、字節(jié)跳動(dòng)等中國(guó)企業(yè)的出現(xiàn)和發(fā)力 AI 領(lǐng)域,讓美國(guó)意識(shí)到管制無(wú)法阻止中國(guó)對(duì)標(biāo)OpenAI,持續(xù)推進(jìn) AI 技術(shù)領(lǐng)先。
《福布斯》發(fā)文指出,DeepSeek讓世界認(rèn)識(shí)到,“中國(guó)并未退出這場(chǎng)(人工智能的)競(jìng)賽!
“如果最好的開(kāi)源技術(shù)來(lái)自中國(guó),美國(guó)開(kāi)發(fā)人員將在這些技術(shù)的基礎(chǔ)上構(gòu)建他們的系統(tǒng)。從長(zhǎng)遠(yuǎn)來(lái)看,這可能會(huì)讓中國(guó)成為研發(fā) AI 的中心!薄都~約時(shí)報(bào)》稱(chēng)。
不過(guò),DeepSeek依然面臨競(jìng)爭(zhēng)對(duì)手囤積大量算力挑戰(zhàn)。本周,特朗普宣布,OpenAI與甲骨文、日本軟銀集團(tuán)共同創(chuàng)立一家5000億美金投資新計(jì)劃公司“星際之門(mén)”,立即在美國(guó)至少投資 1000 億美元用于 AI 基礎(chǔ)設(shè)施。同時(shí),馬斯克的 xAI 也正在大規(guī)模擴(kuò)展其超級(jí)計(jì)算機(jī),以容納超過(guò)100萬(wàn)個(gè) GPU,以幫助訓(xùn)練其 Grok AI 模型。
這時(shí)我就想起了百度創(chuàng)始人、CEO李彥宏的話(huà):“開(kāi)源模型會(huì)越來(lái)越落后”。
如今看來(lái),DeepSeek證明開(kāi)源并未落后,甚至給中國(guó) AI 超越美國(guó)的目標(biāo)帶來(lái)更多的希望。但是,DeepSeek能否因此面臨美國(guó)政府的針對(duì)性限制,最終導(dǎo)致模型訓(xùn)練和算力層面面臨制約,依然存在巨大不確定性。
“當(dāng)前,DeepSeek 擁有中國(guó)最大的先進(jìn)計(jì)算集群之一,”梁文鋒的商業(yè)合作伙伴對(duì)外稱(chēng),“他們現(xiàn)在有足夠的資源容量,但不會(huì)太久。”
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤(rùn)峰)