“善攻者,敵不知其所守;善守者,敵不知其所攻。這基本就是美國和中國了!
文 / 巴九靈(微信公眾號:吳曉波頻道)
站在匯金國際大廈,透過巨大的落地窗,京杭大運河一覽無余。樓下的環(huán)城北路,是杭州最繁忙的主干道之一。而在這座被嘈雜聲包圍的冷色調(diào)建筑里,誕生一家被美國硅谷稱為“東方神秘力量”的公司。
如今恐怕都不能用“火熱”“震驚”來形容它了。年末的時候,它迭代推出大語言模型DeepSeek-V3,報道稱“訓(xùn)練消耗的算力僅為最強(qiáng)大的開源模型Llama 3 405B的1/11”,轟動了全球AI圈。
這家“神秘”的公司便是“深度求索”,大模型產(chǎn)品叫DeepSeek,如今更新到第三代,手機(jī)注冊賬號,個人就能免費使用。創(chuàng)始人叫梁文鋒,80后,浙大高才生,也是深度求索母公司私募巨頭幻方量化的創(chuàng)始人。
梁文鋒很低調(diào),平時“看論文,寫代碼,參與小組討論”,甚至連DeepSeek機(jī)器人都反復(fù)糾正自己的老板叫“朱明杰”。他提前囤了一萬枚英偉達(dá)的GPU,在大語言模型大門關(guān)閉前一只腳跨了過去。深度求索成了除大廠外唯一一家能做通用大模型的中國初創(chuàng)公司。
公司成立一年半,很年輕,休息日不加班。保潔阿姨說是一群不起眼的小伙子和小姑娘。而這幫目光澄澈的年輕人中,一個名叫羅福莉的95后脫穎而出,她僅僅參與了上一代大模型的關(guān)鍵研發(fā),就被雷軍用千萬年薪招至麾下,媒體叫她“天才少女”。
用梁文鋒受訪的話講,“看能力,而不是看經(jīng)驗”,核心技術(shù)崗位“基本以應(yīng)屆和畢業(yè)一兩年的人為主”。
過去的一年里,他們一邊搞研究,一邊拿著新鮮熱乎的論文評獎。當(dāng)有了一個不錯的想法,公司會自上而下調(diào)動資源,所以即便一個實習(xí)生,都能在大模型的研發(fā)上貢獻(xiàn)頗多。在硅谷圈,他們被描述為“一批高深莫測的奇才”。
無論是團(tuán)隊特征還是運作結(jié)構(gòu),難免會讓人想起那股曾風(fēng)靡AI界的力量OpenAI。這便是媒體和早期采訪中DeepSeek的樣子。
DeepSeek的規(guī)模不大,算上梁文鋒不到150人,而OpenAI有2000多人;蛟S,從它進(jìn)入公眾視野的那一刻起,就注定會被拿來和OpenAI比較。
相較OpenAI的GPT系列產(chǎn)品,DeepSeek在訓(xùn)練方法和模型架構(gòu)上有多方面的創(chuàng)新。
雖然兩者都是基于Transformer架構(gòu),但它采用了全新的MLA(多頭潛在注意力機(jī)制)架構(gòu),能降低5%13%的推理顯存,而自研的DeepSeekMoE架構(gòu),大幅減少了計算量。
知名科技博主Rick 張打了個比喻:
OpenAI的訓(xùn)練方法是‘大水漫灌式’,拿來的數(shù)據(jù)放到‘黑盒’里訓(xùn)練,一次不行再試一次,直到行為止,因此很燒錢;DeepSeek是先一步利用算法,對數(shù)據(jù)進(jìn)行總結(jié)和分類,然后輸送給大模型,類似把目錄和框架先給到大模型,再將所有內(nèi)容,按照這個分類和知識點,訓(xùn)練大模型理解并掌握。這意味著大模型的訓(xùn)練相比‘黑盒’變得更加規(guī)律和透明化。
通過此法,DeepSeek形成了最大競爭優(yōu)勢便宜,而且便宜到了“不可思議”。
根據(jù)媒體報道,DeepSeek-V3僅用了2048塊GPU,訓(xùn)練了不到2個月,共花費550多萬美元。而GPT-4o模型訓(xùn)練成本約為1億美元,這意味著DeepSeek的成本只有GPT-4o的1/20。
OpenAI創(chuàng)始成員之一
對DeepSeek-V3超低訓(xùn)練成本感到震驚
鮮為人知的是,上半年中國大模型價格戰(zhàn)的“始作俑者”,正是DeepSeek。5月,DeepSeek-V2的推理成本被降到每百萬token僅1塊錢,是GPT-4 Turbo的1/70,智譜AI、豆包、通義千問等大模型先后跟進(jìn)。
DeepSeek也因此解鎖新綽號AI界拼多多。
然而,DeepSeek并非和價格戰(zhàn)中的一些玩家那樣一直“虧錢賺吆喝”。梁文鋒曾說:“我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤!
由于DeepSeek太過驚艷,難免會被懷疑“站在了巨人的肩膀上”。
科技圈知名研究員David 劉(化名),曾體驗過DeepSeek,他發(fā)現(xiàn)了一個早期的漏洞:當(dāng)你問DeepSeek是誰的時候,機(jī)器人會回答“我是ChatGPT”。
圖源:網(wǎng)絡(luò)
“國內(nèi)做大模型有個套路,喜歡拿GPT訓(xùn)練,速度又快又隱蔽!眲⒄f,“相互訓(xùn)練只是全球各大模型訓(xùn)練的常規(guī)操作。當(dāng)你問谷歌大模型產(chǎn)品‘你是誰’時,它同樣會說‘我是文心一言’。”
不過,DeepSeek“站在了巨人的肩膀上”更多是指OpenAI為它提供了創(chuàng)新的“踏腳石”。
一位DeepSeek數(shù)據(jù)科學(xué)家表示,DeepSeek-V3采用的一項關(guān)鍵項目創(chuàng)新建立在FP8上訓(xùn)練模型,而非GPT使用的FP16。
簡而言之,F(xiàn)P8訓(xùn)練精度更低。如果沒有GPT-4等前沿模型“鋪路”,用較低的精準(zhǔn)度訓(xùn)練是不可能的。
打個比方。你想從A地到陌生的B地,你不知道如何到達(dá),甚至懷疑到底能否到達(dá)時,就會變得小心翼翼,步履維艱。但如果A點到B點確定能到,而且只要按照大致方向前進(jìn),你就會放心大膽地向前跑。
清華大學(xué)人工智能學(xué)院教授沈陽認(rèn)為,從深度思考來看,DeepSeek是國內(nèi)大模型第一,也是全球開源大模型第一。
DeepSeek
在不少業(yè)內(nèi)人看來,深度求索即將加入“大模型六小龍”的陣營。
“大模型六小龍”指的是,經(jīng)過一年多來的“百模大戰(zhàn)”,有六家估值超10億美元的獨角獸AI創(chuàng)業(yè)公司站穩(wěn)了腳跟,分別是智譜、MiniMax、月之暗面、百川智能、零一萬物和階躍星辰,它們帶著各自的產(chǎn)品緊跟國外領(lǐng)先大模型。
這六家公司都面臨同樣挑戰(zhàn)。在算力上缺乏高端芯片,只能通過AI人才優(yōu)化算法。商業(yè)化上面臨國內(nèi)大模型巨頭在開發(fā)和流量上的優(yōu)勢,它們積極尋找差異化應(yīng)用方向,以求在殘酷的競爭中活下來。
但深度求索是個例外。
在七家中國大模型明星創(chuàng)業(yè)公司中,它是“至今專注于研究和技術(shù)的公司,也是唯一一家尚未全面考慮商業(yè)化,選擇開源路線甚至都沒融過資的公司”。
或許梁文鋒真的試圖打破“國外從0到1,中國從1到N”的定式思維歐美人搞基礎(chǔ)性研究,中國人負(fù)責(zé)應(yīng)用落地。
而從如今歐美科技圈的各種評論來看,圣誕節(jié)后的“大禮”,除了中國第六代戰(zhàn)機(jī),可能沒有什么比推出一款對標(biāo)GPT、訓(xùn)練成本只要500萬美元且開源的大模型更震撼了。以至于他們反思:難道電動車、無人機(jī)的故事,也會在AI領(lǐng)域重演嗎?
當(dāng)然,關(guān)于DeepSeek是否真的如媒體報道的那樣效率極高、成本極低,還有待驗證。為此,我們請來了一些科技領(lǐng)域的專家,通過親身體驗,來客觀分析和評價一下DeepSeek的技術(shù)和前景,以及對中美AI競爭的影響。
大頭有話說
張孝榮
深度科技研究院院長
關(guān)于DeepSeek的使用體驗,我有四個感受。
◎ 第一,在問題答復(fù)、文字處理方面,跟其他國產(chǎn)大模型相比,相差并不明顯,也時常容易出現(xiàn)AI幻覺。所謂的AI幻覺,指的就是AI工具給到的結(jié)論或資訊,存在一定的虛假成分或誤導(dǎo)性。
◎ 第二,相較于其他大模型,DeepSeek模型優(yōu)點體現(xiàn)在多模態(tài)處理、高分辨率圖片輸入、開源與商用授權(quán)政策上。換言之,能理解多種類型的數(shù)據(jù),從圖片到音視頻等等;可以在大尺寸分辨率圖片中,識別圖中細(xì)小的物體;并提供開源商用授權(quán),為發(fā)者和研究者提供技術(shù)支持。
◎ 第三,不足之處主要體現(xiàn)在處理極端復(fù)雜的情形,或者非常規(guī)的視覺-語言(VLM)場景時,還需要進(jìn)一步優(yōu)化。即讓大模型在同時接收處理一些非常規(guī)的圖像和文字時,表現(xiàn)有待提高。
◎ 第四,由于這個產(chǎn)品剛起步推廣,至今也沒有開發(fā)移動終端,社區(qū)和生態(tài)系統(tǒng)也有待完善。
進(jìn)一步分析訓(xùn)練方法和原理,與包括OpenAI的其他大模型相比,DeepSeek在高效性和成本效益方面具有明顯優(yōu)勢。
DeepSeek采用了混合專家架構(gòu)(MoE)和多頭潛在注意力機(jī)制(MLA),通過顯著壓縮鍵值(kv)緩存為潛在向量,減少了推理過程中對鍵值緩存的需求,提高了推理效率。
而以O(shè)penAI為例,則更注重內(nèi)部思維鏈(internal chain of thought)的構(gòu)建,在回答問題前會主動思考,將復(fù)雜問題拆解為多個子問題。
此外,兩者在訓(xùn)練數(shù)據(jù)的選擇和優(yōu)化上可能也存在差異。
DeepSeek在架構(gòu)設(shè)計和優(yōu)化技術(shù)上進(jìn)行了創(chuàng)新,包括混合專家架構(gòu)、多頭潛在注意力機(jī)制、優(yōu)化預(yù)訓(xùn)練語料庫等。這些技術(shù)使得DeepSeek能夠在保持性能的同時,大幅度降低計算和存儲需求。
通俗一點來說,包括以下做法:
1.數(shù)據(jù)壓縮:通過MLA架構(gòu)和FP8混合精度,減少數(shù)據(jù)量,降低內(nèi)存占用。
2.選擇性處理:優(yōu)先處理重要數(shù)據(jù),簡化次要數(shù)據(jù),提高訓(xùn)練效率。
3.知識蒸餾:利用教師模型生成高質(zhì)量數(shù)據(jù),加速學(xué)生模型訓(xùn)練。
最終結(jié)果就是,DeepSeek-V3作為一款參數(shù)量高達(dá)671B的大型語言模型,在預(yù)訓(xùn)練階段只用了2048塊GPU,這一數(shù)字相比其他大型模型動輒幾萬塊GPU來說僅是個零頭,確實很少。
由于沒有直接驗證,關(guān)于坊間所謂的“DeepSeek以1/11算力訓(xùn)練出超過Llama 3 405B的開源模型”的真實性,我無法給出確切結(jié)論,如果這一說法屬實,那么它確實涉及到底層技術(shù)的革命性變化。
不可否認(rèn)的是,DeepSeek-V3的訓(xùn)練方法確實給大模型訓(xùn)練降低研發(fā)成本提供了新思路。
作為AI領(lǐng)域的一股清流,DeepSeek專注于研究和技術(shù)的態(tài)度值得肯定,它的實踐打破了“算法越強(qiáng)算力需求越大”的認(rèn)識誤區(qū),證明了大模型對先進(jìn)算力的依賴并非如想象中那么強(qiáng)烈,可以有低成本的選擇。同時,DeepSeek的開源策略也為整個AI行業(yè)帶來了積極影響,加速了技術(shù)的普及和應(yīng)用。
何帥
資深科技自媒體人
從體驗來看,DeepSeek有自己的優(yōu)點,比如在解決數(shù)學(xué)運算方面的邏輯性更強(qiáng)一些,但是在更廣泛的知識層面的問答、常識上的問答就和百度等主流模型以及OpenAI的大模型GPT-4尚存差距。
關(guān)于媒體或?qū)<宜f的DeepSeek訓(xùn)練效率更高、成本更低這件事,甚至“用1/11的訓(xùn)練速度超過谷歌的Llama”等,目前還停留在報道層面,只是這些報道,再加上員工曾被小米高薪挖走等熱點的疊加,讓它突然火了起來。據(jù)我所知,它在量化交易上的表現(xiàn)較為優(yōu)異,但其他商業(yè)化方面暫沒有特別突出的表現(xiàn),有待進(jìn)一步觀察。
相對可以肯定的是,DeepSeek是“站在巨人的肩膀上”,當(dāng)前國內(nèi)外的大模型發(fā)展都比較迅速,它作為“新人”自然可以集各家所長,進(jìn)行訓(xùn)練數(shù)據(jù)的選擇、模型架構(gòu)的設(shè)計以及優(yōu)化訓(xùn)練策略,這可能是它表現(xiàn)優(yōu)異的原因之一。
至于拿它在訓(xùn)練效率上的突破,來延伸到對英偉達(dá)沖擊,我覺得可能性不大,至少目前的影響很小。
中美之間,技術(shù)和人才的差距其實并不大,主要我們還是硬件部分受限,技術(shù)研究、軟件生態(tài)方面,基本上和美國不相上下。
張津京
BT財經(jīng)創(chuàng)始人
去年六月,我國大模型和人工智能頂級專家之一、清華大學(xué)的張鈸院士曾經(jīng)排序,指出國內(nèi)要想在大模型領(lǐng)域獲得突破。第一個要注意的是知識,第二個注意的就是算法,第三個是數(shù)據(jù),最后才是算力。
*小巴注:據(jù)業(yè)內(nèi)人士指出,知識可能是knowhow的意思,以供參考。
DeepSeek的做法,實際上就是跑通了張院士的這套邏輯,也直接證明,國內(nèi)人工智能學(xué)界對這件事情的認(rèn)知和判斷是正確的。
與此同時,它有可能會戳破美國制造的“人工智能硬件狂潮泡沫”。
所謂的人工智能硬件狂潮,簡單而言,即算力舉足輕重,由此英偉達(dá)的卡要做得越來越好,賣得越來越貴,買的人卻越來越多。因為算力跟不上,大模型就難以實現(xiàn)。
但現(xiàn)在的情況卻相反:不需要那么多的算力也可以搞出很好用的模型。或許這也解釋了為什么當(dāng)前英偉達(dá)在到處尋找下一個階段人工智能的機(jī)會,比如具身智能和機(jī)器人。
2025年的大模型發(fā)展,大概率會往這樣的方向發(fā)展。
第一,部分大模型不再沉醉于大規(guī)模的訓(xùn)練(OpenAI在GPT-5上的推遲就是一個信號),而是開始像DeepSeek精耕細(xì)作,做好內(nèi)部的訓(xùn)練。
第二,所有大模型都會去爭奪應(yīng)用領(lǐng)域,在細(xì)分場景里各自進(jìn)化就我們團(tuán)隊的使用體驗來說,數(shù)據(jù)分析解讀上,星火和通義千問就很不錯;文章寫作,文心一言效果最好;外文讀寫,智譜AI;豆包,多模態(tài)處理能力;Kimi大模型搜索上表現(xiàn)神奇等等差異化競爭是未來方向。
業(yè)內(nèi)資深人士
從業(yè)內(nèi)視角看,DeepSeek橫空出世,肯定會面臨一些質(zhì)疑。原因在于,這么好的產(chǎn)品做出來了,但團(tuán)隊的成員,在歷史上都尚未發(fā)表過比較有價值的論文,也沒有成名的實戰(zhàn)項目,大家心里自然會犯嘀咕。
但這件事情比較振奮人心的一面在于,它說明,中國在工程能力和工程人才的儲備上,是比較夸張的,也是我們國家的核心優(yōu)勢。
就是我國科學(xué)家在面對這類問題時,一貫的看法是,用系統(tǒng)和工程的視角看問題,絕對可以超越對手。
這是錢學(xué)森先生當(dāng)年提出的理論。
他將極其復(fù)雜的研制對象稱為“系統(tǒng)”,即由相互作用和相互依賴的若干組成部分結(jié)合成的具有特定功能的有機(jī)整體,而且這個“系統(tǒng)”本身又是它所從屬的一個更大系統(tǒng)的組成部分。
例如,研制一種戰(zhàn)略核導(dǎo)彈,就是研制由彈體、彈頭、發(fā)動機(jī)、制導(dǎo)、遙測、外彈道測量和發(fā)射等分系統(tǒng)組成的一個復(fù)雜系統(tǒng);它可能又是由核動力潛艇、戰(zhàn)略轟炸機(jī)、戰(zhàn)略核導(dǎo)彈構(gòu)成的戰(zhàn)略防御武器系統(tǒng)的組成部分。
研制這樣一種復(fù)雜工程系統(tǒng)所面臨的基本問題是:怎樣把比較籠統(tǒng)的初始研制要求逐步地變?yōu)槌汕先f個研制任務(wù)參加者的具體工作,以及怎樣把這些工作最終綜合成一個技術(shù)上合理、經(jīng)濟(jì)上合算、研制周期短、能協(xié)調(diào)運轉(zhuǎn)的實際系統(tǒng),并使這個系統(tǒng)成為它所從屬的更大系統(tǒng)的有效組成部分。
從這個意義上來說,美國更崇尚自由探索,工程師以算法和軟件為主,最大的短板是工程師種類少、數(shù)量少、有吃苦精神的少。而中國恰恰相反,硬件工程師和可以“下工地”的工程師多。
比如,馬斯克是典型的系統(tǒng)論,所以在美國顯得特立獨行,但在中國就有情感共鳴,從造電動汽車、火箭到人工智能,都有很強(qiáng)的系統(tǒng)論思想痕跡。
善攻者,敵不知其所守;善守者,敵不知其所攻。這基本就是美國和中國了。
本篇作者 | 徐濤 | 和風(fēng)月半 | 責(zé)任編輯 | 何夢飛
主編 | 何夢飛 | 圖源 | VCG