文 | 孫永杰
近日,DeepSeek在AI大模型領(lǐng)域引發(fā)熱議,憑借其驚人的性能表現(xiàn)和低成本訓練模式,迅速吸引了全球關(guān)注。雖然市場上幾乎充滿了贊嘆聲,但理性的業(yè)內(nèi)人士已經(jīng)開始提出質(zhì)疑,認為這一現(xiàn)象可能并非一蹴而就,值得等待更多的驗證。
DeepSeek究竟為何引發(fā)如此廣泛的關(guān)注?2024年12月,DeepSeek發(fā)布的V3模型突破了多個開源大模型的性能,超越了阿里自研的Qwen2.5-72B和Meta的Llama 3.1-405B等模型,并與OpenAI的GPT-4o、Anthropic的Claude 3.5-Sonnet等閉源大模型相抗衡。在此基礎(chǔ)上,DeepSeek于2025年1月20日發(fā)布并開源了DeepSeek-R1模型,該模型在數(shù)學、編程和自然語言推理等領(lǐng)域表現(xiàn)出色,甚至與OpenAI的O1模型相匹敵。此舉不僅讓DeepSeek在市場中名聲大噪,還使其在蘋果App Store的美國地區(qū)免費應用程式下載榜單上登頂,超越了ChatGPT等熱門應用。
然而,DeepSeek的成功并非僅僅憑借其卓越的性能,更多的亮點在于其低成本與高效的訓練模式。簡而言之,DeepSeek通過極低的成本,成功實現(xiàn)了接近GPT等先進模型的性能,這一點引起了業(yè)界的廣泛關(guān)注。
無法證真,難以證偽的成本惹爭議
提及成本,DeepSeek發(fā)表的原始報告中有詳細解釋這筆成本的計算:“在預訓練階段,每兆個token上訓練DeepSeek-V3僅需要180K H800 GPU小時,也就是說,在我們擁有2048個H800 GPU的叢集上需要3.7天。因此,我們的預訓練階段在不到兩個月的時間內(nèi)完成,耗費2664K GPU小時。加上上下文長度擴充所需的119K GPU小時和后制訓練所需的5K GPU小時,DeepSeek-V3的完整訓練僅需2.788M GPU小時。假設(shè)H800 GPU的租賃價格為每GPU小時2美元,我們的總訓練成本僅為557.6萬美元。”
與此同時,該論文稱:“上述成本僅包括DeepSeek-V3的正式訓練,并不包括與架構(gòu)、算法或數(shù)據(jù)方面的先前研究和實驗相關(guān)的所有其它成本!
而說到不包括與架構(gòu)、算法或數(shù)據(jù)方面的先前研究和實驗相關(guān)的所有其它成本,據(jù)媒體報道,2019年,推出DeepSeek的幻方量化成立AI公司,其自研的深度學習訓練平臺“螢火一號”總投資近2億元,搭載了1100張GPU;兩年后,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達A100顯卡。
我們不清楚上述這些前期的投資與近日爆火的DeepSeek-V3和R-1(主要是R-1)到底有多少相關(guān)性,但從其搭載的為深度學習訓練平臺看,肯定是有,且相關(guān)性還不一定低。而這也理應分攤到成本之中。
此外,值得注意的是,上述557.6萬美元僅是DeepSeek-V3的訓練成本,雖然R-1模型的訓練時間仍未有詳盡披露,但“DeepSeek用遠低于ChatGPT的成本達到相同效果”的說法已經(jīng)開始廣為流傳。
對此,全球咨詢公司DGA Group的合伙人保羅特里奧洛(Paul Triolo)在Substack上撰文稱:“OpenAI的o1的訓練成本肯定遠超過GPT-4,同樣,(DeepSeek)R1的訓練成本也肯定高于V3。從o3到o4/o5或從R1到R2/R3,訓練計算成本只會增加!
無獨有偶,近日知名的SemiAnalysis公開發(fā)布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報告中稱:DeepSeek論文中提到的600萬美元成本僅指預訓練運行的GPU成本,這只是模型總成本的一小部分,他們在硬件上的花費遠高于5億美元。例如為了開發(fā)新的架構(gòu)創(chuàng)新,在模型開發(fā)過程中,需要投入大量資金來測試新想法、新架構(gòu)思路,并進行消融實驗。開發(fā)和實現(xiàn)這些想法需要整個團隊投入大量人力和GPU計算時間。例如深度求索的關(guān)鍵創(chuàng)新多頭潛在注意力機制(Multi-Head Latent Attention),就耗費了數(shù)月時間。
綜上公開信息和權(quán)威機構(gòu)的公開報告,我們認為,業(yè)內(nèi)流傳的關(guān)于DeepSeek用遠低于ChatGPT的成本達到相同效果的說法因漏讀和誤導而頗為值得商榷。
當然,由于商業(yè)機密等多重因素,業(yè)內(nèi),包括我們,事實上無法通過復現(xiàn)來證實557.6萬美元訓練成本是虛假的,即證偽;而基于同樣的因素,推出DeepSeek-V3和R-1的幻方量化也不可能公開透明的向外界或者通過外界證明557.6萬美元就是真實的訓練成本,即證真。所以業(yè)內(nèi)對于其成本爭議的產(chǎn)生也自在情理之中了。
引微軟和OpenAI知識產(chǎn)權(quán)疑慮,都是“蒸餾”惹得禍
除了前述的DeepSeek成本之謎,最近,OpenAI和微軟均向媒體證實,已掌握疑似DeepSeek通過“蒸餾”(distillation)技術(shù),利用OpenAI專有模型來訓練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務上達到類似的效果。OpenAI雖未進一步提供證據(jù)的細節(jié),但根據(jù)其服務條款,用戶不得“復制”任何OpenAI的服務,或“利用輸出結(jié)果開發(fā)與OpenAI競爭的模型”。
與此同時,微軟和OpenAI也在調(diào)查DeepSeek是否通過未經(jīng)授權(quán)的方式,不當獲取OpenAI技術(shù)輸出的信息。例如,微軟早在2024年秋天就注意到,有人通過OpenAI應用程序接口(API)輸出大量數(shù)據(jù),懷疑這些行為與DeepSeek有關(guān)(注:OpenAI等公司對API調(diào)用和行為模式有嚴格監(jiān)控,任何異常行為都會觸發(fā)防護機制)。
除企業(yè)外,美國總統(tǒng)川普政府的AI專家大衛(wèi)塞克斯(David Sacks)也在福斯新聞訪談中提到“蒸餾”技術(shù),并表示有“大量證據(jù)”顯示DeepSeek依賴OpenAI的模型輸出來協(xié)助開發(fā)其技術(shù),但他并未進一步提供證據(jù)。他還提到,未來幾個月,美國領(lǐng)先的人工智能公司將采取措施,防止“蒸餾”技術(shù)的濫用。
從目前公開的信息來看,OpenAI、微軟和AI專家的核心關(guān)切在于DeepSeek是否采用了“蒸餾”技術(shù),并且是否通過這種方式使用了OpenAI的專有模型。
問題的關(guān)鍵在于,DeepSeek是否使用了“蒸餾”技術(shù)來訓練其模型;如果使用了,是否獲得了OpenAI的授權(quán),或者是否違反了OpenAI的服務條款?
對于上述兩個核心問題,目前業(yè)內(nèi)人士和媒體的說法紛繁復雜。有的觀點認為DeepSeek(主要是R1模型)根本沒有使用“蒸餾”技術(shù);而有的則稱,DeepSeek的技術(shù)文檔表示,R1模型使用了“蒸餾”技術(shù)生成的高質(zhì)量數(shù)據(jù),以提升訓練效率。
在我們看來,由于DeepSeek R-1剛發(fā)布不久,且其突破是在DeepSeek-V3的基礎(chǔ)上進行的,而DeepSeek發(fā)布的原始報告中以V3為例(例如前文提到的成本),這表明R1與V3之間有著較強的關(guān)聯(lián)性。因此,我們不妨從V3的角度出發(fā),考察其是否采用了“蒸餾”技術(shù),從而更客觀地推測R1是否采用了“蒸餾”技術(shù)。
事實上,關(guān)于DeepSeek V3,曾在測試中出現(xiàn)過異常:該模型自稱是OpenAI的ChatGPT,并能提供OpenAI的API使用說明。專家認為,這很可能是由于訓練數(shù)據(jù)中混入了大量由ChatGPT生成的內(nèi)容(即“蒸餾”數(shù)據(jù)),導致模型發(fā)生了“身份混淆”。
這一問題引發(fā)了部分網(wǎng)友的“套殼”質(zhì)疑。不過,也有網(wǎng)友指出,當前數(shù)據(jù)清洗過程中最基本的原則之一,就是去除類似蒸餾GPT4的痕跡,刪去這類數(shù)據(jù)是個非常簡單的操作。那么,為什么DeepSeek沒有采取這一操作呢?
對此,存在兩種可能性:一是DeepSeek根本沒有使用OpenAI的API生成數(shù)據(jù),但網(wǎng)絡(luò)上有不少人貢獻了OpenAI的訪問日志,而DeepSeek可能用了這部分數(shù)據(jù);二是DeepSeek在合成數(shù)據(jù)時選擇了他們認為最有效的方式,并且并不打算掩飾這一過程。
如果這些仍然只是部分網(wǎng)友的爭議觀點,那么,最近由中國科學院深圳先進技術(shù)研究院、北京大學、01.AI、南方科技大學、Leibowitz AI等多個知名機構(gòu)的研究團隊聯(lián)合發(fā)表的《Distillation Quantification for Large Language Models(大語言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過程可能主要來自GPT4o,且蒸餾程度較高。
該論文提出了一個系統(tǒng)化的框架,量化并評估大模型蒸餾的過程及其影響,采用了“響應相似性評估(RSE)”和“身份一致性評估(ICE)”兩個量化指標。RSE實驗結(jié)果顯示,DeepSeek V3的蒸餾程度與GPT4o接近,評分為4.102,遠高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實驗中,DeepSeek V3也顯示出較高的蒸餾程度,屬于可疑響應數(shù)量最多的模型之一。
此外,論文還提出過度蒸餾的問題,過度蒸餾可能導致模型同質(zhì)化,降低獨特性,甚至影響模型的性能。DeepSeek的R1模型也面臨類似問題,可能在蒸餾過程中出現(xiàn)性能下降。
需要補充說明的是,對于DeepSeek爆火之下,馬斯克一直罕見地并未發(fā)表評論,卻在最近點贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術(shù),需要借助ChatGPT-4o和o1才能完成訓練。盡管模型蒸餾是一項常見的技術(shù)手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點并快速理解和應用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。
其實在我們看來,這種“捷徑”方法的影響遠不止技術(shù)層面。
首先,方法缺乏透明度,使研究界難以準確評估并借鑒所謂的進展。許多機構(gòu)可能隱瞞實際方法,卻夸大自身技術(shù)能力,導致對領(lǐng)域進展的認知偏差;其次,這種趨勢導致創(chuàng)新停滯,研究人員越來越依賴對現(xiàn)有強大模型進行蒸餾來訓練自己的AI模型,而非開發(fā)根本性的新技術(shù)和通用大模型(類似于ChatGPT);第三,通過蒸餾提取出來的訓練數(shù)據(jù)訓練出來的AI模型存在固有局限性,即其能力受限于原有模型(O1),形成難以突破的天花板效應,阻礙真正的AI產(chǎn)業(yè)進步。
值得注意的是,近日,根據(jù)新聞可靠性評級服務機構(gòu)NewsGuard的審查,DeepSeek的聊天機器人準確度僅為17%,在測試的11個聊天機器人中排名第10,遠低于OpenAI的ChatGPT-4等。原因何在?是否與上述的過度蒸餾有關(guān)?
即使如此,DeepSeek仍然能夠在成本上顯著壓倒其他大模型,這也是其被廣泛關(guān)注的原因之一。
因此,關(guān)鍵問題是,DeepSeek是否獲得了OpenAI的授權(quán)使用其模型進行蒸餾訓練?如果沒有,是否違反了OpenAI的服務條款?鑒于DeepSeek作為國內(nèi)初創(chuàng)企業(yè),可能并未充分研究OpenAI的服務條款,其可能面臨法律挑戰(zhàn),尤其是在知識產(chǎn)權(quán)方面。
這里,我們可以不妨借用華為創(chuàng)始人任正非的做法,他常將一本名為《美國陷阱》的書放在辦公桌上,并時常閱讀。盡管書中的內(nèi)容和他為何熱衷于閱讀它的原因并不在此展開,但我們可以借此說明,特別是美國科技公司,往往在其產(chǎn)品中埋設(shè)了大量的“地雷”,一不小心便可能誤入雷區(qū)。
具體到DeepSeek,作為一家主要面向國內(nèi)市場的初創(chuàng)AI企業(yè),它是否會事無巨細地研究OpenAI的服務條款,尤其是其中關(guān)于版權(quán)、知識產(chǎn)權(quán)等敏感內(nèi)容,實在令人存疑。此外,OpenAI的GPT作為閉源模型,其中可能包含許多知識產(chǎn)權(quán)、技術(shù)和商業(yè)機密。DeepSeek是否能夠深入了解這些隱藏的內(nèi)容,亦是一個值得考慮的問題。
再者,考慮到歐盟在數(shù)據(jù)隱私(如GDPR)和AI倫理等方面的嚴格監(jiān)管,DeepSeek是否已經(jīng)完全理解這些法律法規(guī)?若蒸餾過程中涉及到未經(jīng)授權(quán)的OpenAI數(shù)據(jù)或受保護的商業(yè)模型,DeepSeek可能面臨極其嚴苛的法律挑戰(zhàn)。
最近,意大利隱私監(jiān)管機構(gòu)Garante向DeepSeek中國公司發(fā)出正式信息請求,要求其說明如何處理意大利用戶的數(shù)據(jù)。Garante對DeepSeek是否對意大利用戶的數(shù)據(jù)隱私構(gòu)成風險表示擔憂,并要求DeepSeek在20天內(nèi)做出答復。同時,DeepSeek的應用在意大利的蘋果和谷歌應用商店被下架。
除此之外,愛爾蘭數(shù)據(jù)保護委員會和德國等歐洲國家也可能對DeepSeek展開調(diào)查。這些行動表明,DeepSeek的合規(guī)性問題在未來可能成為其發(fā)展道路上的重大挑戰(zhàn)。
綜上,盡管OpenAI、微軟和AI專家未能提供直接證據(jù),但一旦進入法律訴訟,DeepSeek的勝算仍然令人堪憂。特別是結(jié)合美國的國家安全法案等因素,DeepSeek面臨的風險不可小覷。
從工程創(chuàng)新到基礎(chǔ)創(chuàng)新:中國AI“軟”實力幾何?
所謂瑕不掩瑜,當我們暫時拋開上述業(yè)內(nèi)(包括廠商、相關(guān)專家等)部分對于DeepSeek成本、知識產(chǎn)權(quán)的質(zhì)疑,僅站在AI(包括AI大模型)技術(shù)和產(chǎn)業(yè)的視角去看DeepSeek,其確實可圈可點。
有關(guān)技術(shù)方面,目前網(wǎng)絡(luò)及專業(yè)媒體報道和分析的很多,我們就不班門弄斧了。只是引用下DeepSeek的說法,其得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構(gòu),實現(xiàn)了高效的推理和經(jīng)濟高效的訓練。又引入了輔助損失自由負載平衡策略和多token預測訓練目標,提升了模型性能。同時,在14.8萬億個高質(zhì)量token上進行預訓練時,通過監(jiān)督微調(diào)和強化學習階段充分挖掘了其潛力。
看來DeepSeek-V3通過數(shù)據(jù)與算法層面的優(yōu)化,大幅提升算力利用效率,實現(xiàn)了協(xié)同效應。簡而言之,DeepSeek更多是贏在了AI“軟”實力和工程創(chuàng)新上。而這也得到國內(nèi)外眾多業(yè)內(nèi)專家、廠商的認可。
不過我們作為非專業(yè)AI媒體,更多還是從技術(shù)發(fā)展邏輯(非技術(shù)本身)、市場事實闡述下我們的看法。
DeepSeek創(chuàng)始人梁文鋒2023年在接受36氪旗下《暗涌》采訪提及中國大模型的差距時曾稱,首先訓練效率存在差距,由于結(jié)構(gòu)和訓練動態(tài)方面的差距,中國最好的模型可能需要兩倍的計算能力才能與全球頂尖模型匹敵;數(shù)據(jù)效率也降低了一半,這意味著我們需要兩倍的數(shù)據(jù)和計算才能獲得相同的結(jié)果。綜合起來,資源是原來的四倍。我們的目標是不斷縮小這些差距。
從2023年至今,一年多的時間,DeepSeek不僅彌補了其所說的我們大模型與國外綜合起來的資源差距,甚至資源的投入僅為國外的不到1/10,且實現(xiàn)了性能比肩,甚至部分的超越,這一技術(shù)進步在短短一年多內(nèi)的發(fā)生,確實讓業(yè)內(nèi)人士感到意外,這也引發(fā)了對其背后技術(shù)路徑和資源配置的更多討論。
接下來我們看看除了對其極致性能的夸贊之外,選取些我們看到的DeepSeek的表現(xiàn)。
廣發(fā)證券發(fā)布的測試結(jié)果顯示,DeepSeek-V3總體能力與豆包、Kimi等其他大模型相當,但在邏輯推理和代碼生成領(lǐng)域具有自身特點。
例如,在密文解碼任務中,DeepSeek-V3是唯一給出正確答案的大模型;而在代碼生成的任務中,DeepSeek-V3給出的代碼注釋、算法原理解釋以及開發(fā)流程的指引是最為全面的。在文本生成和數(shù)學計算能力方面,DeepSeek-V3并未展現(xiàn)出明顯優(yōu)于其他大模型之處。
另據(jù)國內(nèi)大模型測評機構(gòu)SuperCLUE 最新發(fā)布的《中文大模型基準測評2024 年度報告》,總體趨勢上,國內(nèi)外第一梯隊大模型在中文領(lǐng)域的通用能力差距正在擴大。
2023年5月至今,國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過了從GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多個版本的迭代升級。
國內(nèi)模型也經(jīng)歷了波瀾壯闊的1 8個月的迭代周期,從2 0 2 3年5月的30.12%的差距,縮小至2024年8月的1.29%。但隨著o1的發(fā)布,差距再次拉大到15.05%。
看完上述,不知業(yè)內(nèi)作何感想?我們認為無論是DeepSeek自身,還是中國AI大模型的整體,絕非像目前看到某些媒體和業(yè)內(nèi)評價的那么極致和領(lǐng)先。尤其是整體,至少從去年一年的發(fā)展周期看,我們AI大模型與國外的差距反而加大了。
更應讓我們不能盲目樂觀的是,站在整個AI產(chǎn)業(yè)(包括,但不限于AI大模型)的高度,中國在AI領(lǐng)域仍然面臨一些核心技術(shù)上的瓶頸,尤其是在基礎(chǔ)算法和數(shù)學模型的創(chuàng)新方面。盡管開源技術(shù),例如現(xiàn)有的深度學習模型和開源框架(如TensorFlow、PyTorch等)為很多應用提供了便利,但它們主要依賴于已有的模型和算法設(shè)計,若要應對日益復雜的任務,僅僅依賴這些現(xiàn)成的工具將難以滿足要求。更進一步,依賴國外開源代碼的情況下,可能會被技術(shù)壁壘、算法封鎖等所困擾。
基于此,我們AI技術(shù)的進一步前行必須依賴于自己原創(chuàng)算法的突破,而不僅僅是現(xiàn)有技術(shù)的跟隨,尤其是當前深度學習技術(shù)發(fā)展到一定階段,遇到“天花板,需要新的數(shù)學工具和算法架構(gòu)來繼續(xù)推動技術(shù)進步。未來的AI將不僅僅依賴數(shù)據(jù)和算力,還需要融入更多的邏輯推理、知識圖譜等元素,這些都需要新的數(shù)學和算法理論來支撐。
寫在最后:
所謂風物長宜放眼量。不可否認,DeepSeek作為近年來崛起的AI大模型,雖然面臨關(guān)于其低成本訓練的具體細節(jié)和是否存在未經(jīng)授權(quán)使用OpenAI技術(shù)的爭議,但其在工程創(chuàng)新、算力優(yōu)化等方面仍值得我們高度肯定,盡管如此,縱觀整個中國AI產(chǎn)業(yè),我們依然面臨計算資源與算力受限、架構(gòu)與算法過度依賴開源,缺乏核心原創(chuàng)AI算法等挑戰(zhàn)待破局。