国产超薄丝袜脚交视频,99视频频热这里97

導讀：文 | 孫永杰近日，DeepSeek在AI大模型領(lǐng)域引發(fā)熱議，憑借其驚人的性能表現(xiàn)和低成本訓練模式，迅速吸引了全球關(guān)注。雖然市場上幾乎充滿了贊嘆聲，但理性的業(yè)內(nèi)人士已經(jīng)開始提出質(zhì)疑，認為這一現(xiàn)象可能并非一蹴而就，值得等待更多的驗證。DeepSeek究竟為何引發(fā)如此廣泛的關(guān)注？2024年12月，DeepSeek發(fā)布的V3模型突破了多個開源大模型的性能，超越了阿里自研的Qwen2.5-72B和Meta的 ......

文 | 孫永杰

近日，DeepSeek在AI大模型領(lǐng)域引發(fā)熱議，憑借其驚人的性能表現(xiàn)和低成本訓練模式，迅速吸引了全球關(guān)注。雖然市場上幾乎充滿了贊嘆聲，但理性的業(yè)內(nèi)人士已經(jīng)開始提出質(zhì)疑，認為這一現(xiàn)象可能并非一蹴而就，值得等待更多的驗證。

DeepSeek究竟為何引發(fā)如此廣泛的關(guān)注？2024年12月，DeepSeek發(fā)布的V3模型突破了多個開源大模型的性能，超越了阿里自研的Qwen2.5-72B和Meta的Llama 3.1-405B等模型，并與OpenAI的GPT-4o、Anthropic的Claude 3.5-Sonnet等閉源大模型相抗衡。在此基礎(chǔ)上，DeepSeek于2025年1月20日發(fā)布并開源了DeepSeek-R1模型，該模型在數(shù)學、編程和自然語言推理等領(lǐng)域表現(xiàn)出色，甚至與OpenAI的O1模型相匹敵。此舉不僅讓DeepSeek在市場中名聲大噪，還使其在蘋果App Store的美國地區(qū)免費應用程式下載榜單上登頂，超越了ChatGPT等熱門應用。

然而，DeepSeek的成功并非僅僅憑借其卓越的性能，更多的亮點在于其低成本與高效的訓練模式。簡而言之，DeepSeek通過極低的成本，成功實現(xiàn)了接近GPT等先進模型的性能，這一點引起了業(yè)界的廣泛關(guān)注。

無法證真，難以證偽的成本惹爭議

提及成本，DeepSeek發(fā)表的原始報告中有詳細解釋這筆成本的計算：“在預訓練階段，每兆個token上訓練DeepSeek-V3僅需要180K H800 GPU小時，也就是說，在我們擁有2048個H800 GPU的叢集上需要3.7天。因此，我們的預訓練階段在不到兩個月的時間內(nèi)完成，耗費2664K GPU小時。加上上下文長度擴充所需的119K GPU小時和后制訓練所需的5K GPU小時，DeepSeek-V3的完整訓練僅需2.788M GPU小時。假設(shè)H800 GPU的租賃價格為每GPU小時2美元，我們的總訓練成本僅為557.6萬美元。”

與此同時，該論文稱：“上述成本僅包括DeepSeek-V3的正式訓練，并不包括與架構(gòu)、算法或數(shù)據(jù)方面的先前研究和實驗相關(guān)的所有其它成本�！�

而說到不包括與架構(gòu)、算法或數(shù)據(jù)方面的先前研究和實驗相關(guān)的所有其它成本，據(jù)媒體報道，2019年，推出DeepSeek的幻方量化成立AI公司，其自研的深度學習訓練平臺“螢火一號”總投資近2億元，搭載了1100張GPU；兩年后，“螢火二號”的投入增加到10億元，搭載了約1萬張英偉達A100顯卡。

我們不清楚上述這些前期的投資與近日爆火的DeepSeek-V3和R-1（主要是R-1）到底有多少相關(guān)性，但從其搭載的為深度學習訓練平臺看，肯定是有，且相關(guān)性還不一定低。而這也理應分攤到成本之中。

此外，值得注意的是，上述557.6萬美元僅是DeepSeek-V3的訓練成本，雖然R-1模型的訓練時間仍未有詳盡披露，但“DeepSeek用遠低于ChatGPT的成本達到相同效果”的說法已經(jīng)開始廣為流傳。

對此，全球咨詢公司DGA Group的合伙人保羅特里奧洛（Paul Triolo）在Substack上撰文稱：“OpenAI的o1的訓練成本肯定遠超過GPT-4，同樣，（DeepSeek）R1的訓練成本也肯定高于V3。從o3到o4/o5或從R1到R2/R3，訓練計算成本只會增加�！�

無獨有偶，近日知名的SemiAnalysis公開發(fā)布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報告中稱：DeepSeek論文中提到的600萬美元成本僅指預訓練運行的GPU成本，這只是模型總成本的一小部分，他們在硬件上的花費遠高于5億美元。例如為了開發(fā)新的架構(gòu)創(chuàng)新，在模型開發(fā)過程中，需要投入大量資金來測試新想法、新架構(gòu)思路，并進行消融實驗。開發(fā)和實現(xiàn)這些想法需要整個團隊投入大量人力和GPU計算時間。例如深度求索的關(guān)鍵創(chuàng)新多頭潛在注意力機制（Multi-Head Latent Attention），就耗費了數(shù)月時間。

DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局

綜上公開信息和權(quán)威機構(gòu)的公開報告，我們認為，業(yè)內(nèi)流傳的關(guān)于DeepSeek用遠低于ChatGPT的成本達到相同效果的說法因漏讀和誤導而頗為值得商榷。

當然，由于商業(yè)機密等多重因素，業(yè)內(nèi)，包括我們，事實上無法通過復現(xiàn)來證實557.6萬美元訓練成本是虛假的，即證偽；而基于同樣的因素，推出DeepSeek-V3和R-1的幻方量化也不可能公開透明的向外界或者通過外界證明557.6萬美元就是真實的訓練成本，即證真。所以業(yè)內(nèi)對于其成本爭議的產(chǎn)生也自在情理之中了。

引微軟和OpenAI知識產(chǎn)權(quán)疑慮，都是“蒸餾”惹得禍

除了前述的DeepSeek成本之謎，最近，OpenAI和微軟均向媒體證實，已掌握疑似DeepSeek通過“蒸餾”（distillation）技術(shù)，利用OpenAI專有模型來訓練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務上達到類似的效果。OpenAI雖未進一步提供證據(jù)的細節(jié)，但根據(jù)其服務條款，用戶不得“復制”任何OpenAI的服務，或“利用輸出結(jié)果開發(fā)與OpenAI競爭的模型”。

DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局

與此同時，微軟和OpenAI也在調(diào)查DeepSeek是否通過未經(jīng)授權(quán)的方式，不當獲取OpenAI技術(shù)輸出的信息。例如，微軟早在2024年秋天就注意到，有人通過OpenAI應用程序接口（API）輸出大量數(shù)據(jù)，懷疑這些行為與DeepSeek有關(guān)（注：OpenAI等公司對API調(diào)用和行為模式有嚴格監(jiān)控，任何異常行為都會觸發(fā)防護機制）。

除企業(yè)外，美國總統(tǒng)川普政府的AI專家大衛(wèi)塞克斯（David Sacks）也在福斯新聞訪談中提到“蒸餾”技術(shù)，并表示有“大量證據(jù)”顯示DeepSeek依賴OpenAI的模型輸出來協(xié)助開發(fā)其技術(shù)，但他并未進一步提供證據(jù)。他還提到，未來幾個月，美國領(lǐng)先的人工智能公司將采取措施，防止“蒸餾”技術(shù)的濫用。

從目前公開的信息來看，OpenAI、微軟和AI專家的核心關(guān)切在于DeepSeek是否采用了“蒸餾”技術(shù)，并且是否通過這種方式使用了OpenAI的專有模型。

問題的關(guān)鍵在于，DeepSeek是否使用了“蒸餾”技術(shù)來訓練其模型；如果使用了，是否獲得了OpenAI的授權(quán)，或者是否違反了OpenAI的服務條款？

對于上述兩個核心問題，目前業(yè)內(nèi)人士和媒體的說法紛繁復雜。有的觀點認為DeepSeek（主要是R1模型）根本沒有使用“蒸餾”技術(shù)；而有的則稱，DeepSeek的技術(shù)文檔表示，R1模型使用了“蒸餾”技術(shù)生成的高質(zhì)量數(shù)據(jù)，以提升訓練效率。

在我們看來，由于DeepSeek R-1剛發(fā)布不久，且其突破是在DeepSeek-V3的基礎(chǔ)上進行的，而DeepSeek發(fā)布的原始報告中以V3為例（例如前文提到的成本），這表明R1與V3之間有著較強的關(guān)聯(lián)性。因此，我們不妨從V3的角度出發(fā)，考察其是否采用了“蒸餾”技術(shù)，從而更客觀地推測R1是否采用了“蒸餾”技術(shù)。

事實上，關(guān)于DeepSeek V3，曾在測試中出現(xiàn)過異常：該模型自稱是OpenAI的ChatGPT，并能提供OpenAI的API使用說明。專家認為，這很可能是由于訓練數(shù)據(jù)中混入了大量由ChatGPT生成的內(nèi)容（即“蒸餾”數(shù)據(jù)），導致模型發(fā)生了“身份混淆”。

DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局

這一問題引發(fā)了部分網(wǎng)友的“套殼”質(zhì)疑。不過，也有網(wǎng)友指出，當前數(shù)據(jù)清洗過程中最基本的原則之一，就是去除類似蒸餾GPT4的痕跡，刪去這類數(shù)據(jù)是個非常簡單的操作。那么，為什么DeepSeek沒有采取這一操作呢？

對此，存在兩種可能性：一是DeepSeek根本沒有使用OpenAI的API生成數(shù)據(jù)，但網(wǎng)絡(luò)上有不少人貢獻了OpenAI的訪問日志，而DeepSeek可能用了這部分數(shù)據(jù)；二是DeepSeek在合成數(shù)據(jù)時選擇了他們認為最有效的方式，并且并不打算掩飾這一過程。

如果這些仍然只是部分網(wǎng)友的爭議觀點，那么，最近由中國科學院深圳先進技術(shù)研究院、北京大學、01.AI、南方科技大學、Leibowitz AI等多個知名機構(gòu)的研究團隊聯(lián)合發(fā)表的《Distillation Quantification for Large Language Models（大語言模型的蒸餾量化）》論文則顯示DeepSeek V3的蒸餾過程可能主要來自GPT4o，且蒸餾程度較高。

該論文提出了一個系統(tǒng)化的框架，量化并評估大模型蒸餾的過程及其影響，采用了“響應相似性評估（RSE）”和“身份一致性評估（ICE）”兩個量化指標。RSE實驗結(jié)果顯示，DeepSeek V3的蒸餾程度與GPT4o接近，評分為4.102，遠高于其他模型（如Llama 3.1-70B和Doubao-Pro-32k）。在ICE實驗中，DeepSeek V3也顯示出較高的蒸餾程度，屬于可疑響應數(shù)量最多的模型之一。

DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局

此外，論文還提出過度蒸餾的問題，過度蒸餾可能導致模型同質(zhì)化，降低獨特性，甚至影響模型的性能。DeepSeek的R1模型也面臨類似問題，可能在蒸餾過程中出現(xiàn)性能下降。

需要補充說明的是，對于DeepSeek爆火之下，馬斯克一直罕見地并未發(fā)表評論，卻在最近點贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術(shù)，需要借助ChatGPT-4o和o1才能完成訓練。盡管模型蒸餾是一項常見的技術(shù)手段，能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點并快速理解和應用，但這種模式只能讓DeepSeek接近OpenAI，而難以真正超越OpenAI。

其實在我們看來，這種“捷徑”方法的影響遠不止技術(shù)層面。

首先，方法缺乏透明度，使研究界難以準確評估并借鑒所謂的進展。許多機構(gòu)可能隱瞞實際方法，卻夸大自身技術(shù)能力，導致對領(lǐng)域進展的認知偏差；其次，這種趨勢導致創(chuàng)新停滯，研究人員越來越依賴對現(xiàn)有強大模型進行蒸餾來訓練自己的AI模型，而非開發(fā)根本性的新技術(shù)和通用大模型（類似于ChatGPT）；第三，通過蒸餾提取出來的訓練數(shù)據(jù)訓練出來的AI模型存在固有局限性，即其能力受限于原有模型（O1），形成難以突破的天花板效應，阻礙真正的AI產(chǎn)業(yè)進步。

值得注意的是，近日，根據(jù)新聞可靠性評級服務機構(gòu)NewsGuard的審查，DeepSeek的聊天機器人準確度僅為17%，在測試的11個聊天機器人中排名第10，遠低于OpenAI的ChatGPT-4等。原因何在？是否與上述的過度蒸餾有關(guān)？

即使如此，DeepSeek仍然能夠在成本上顯著壓倒其他大模型，這也是其被廣泛關(guān)注的原因之一。

因此，關(guān)鍵問題是，DeepSeek是否獲得了OpenAI的授權(quán)使用其模型進行蒸餾訓練？如果沒有，是否違反了OpenAI的服務條款？鑒于DeepSeek作為國內(nèi)初創(chuàng)企業(yè)，可能并未充分研究OpenAI的服務條款，其可能面臨法律挑戰(zhàn)，尤其是在知識產(chǎn)權(quán)方面。

這里，我們可以不妨借用華為創(chuàng)始人任正非的做法，他常將一本名為《美國陷阱》的書放在辦公桌上，并時常閱讀。盡管書中的內(nèi)容和他為何熱衷于閱讀它的原因并不在此展開，但我們可以借此說明，特別是美國科技公司，往往在其產(chǎn)品中埋設(shè)了大量的“地雷”，一不小心便可能誤入雷區(qū)。

具體到DeepSeek，作為一家主要面向國內(nèi)市場的初創(chuàng)AI企業(yè)，它是否會事無巨細地研究OpenAI的服務條款，尤其是其中關(guān)于版權(quán)、知識產(chǎn)權(quán)等敏感內(nèi)容，實在令人存疑。此外，OpenAI的GPT作為閉源模型，其中可能包含許多知識產(chǎn)權(quán)、技術(shù)和商業(yè)機密。DeepSeek是否能夠深入了解這些隱藏的內(nèi)容，亦是一個值得考慮的問題。

再者，考慮到歐盟在數(shù)據(jù)隱私（如GDPR）和AI倫理等方面的嚴格監(jiān)管，DeepSeek是否已經(jīng)完全理解這些法律法規(guī)？若蒸餾過程中涉及到未經(jīng)授權(quán)的OpenAI數(shù)據(jù)或受保護的商業(yè)模型，DeepSeek可能面臨極其嚴苛的法律挑戰(zhàn)。

最近，意大利隱私監(jiān)管機構(gòu)Garante向DeepSeek中國公司發(fā)出正式信息請求，要求其說明如何處理意大利用戶的數(shù)據(jù)。Garante對DeepSeek是否對意大利用戶的數(shù)據(jù)隱私構(gòu)成風險表示擔憂，并要求DeepSeek在20天內(nèi)做出答復。同時，DeepSeek的應用在意大利的蘋果和谷歌應用商店被下架。

除此之外，愛爾蘭數(shù)據(jù)保護委員會和德國等歐洲國家也可能對DeepSeek展開調(diào)查。這些行動表明，DeepSeek的合規(guī)性問題在未來可能成為其發(fā)展道路上的重大挑戰(zhàn)。

綜上，盡管OpenAI、微軟和AI專家未能提供直接證據(jù)，但一旦進入法律訴訟，DeepSeek的勝算仍然令人堪憂。特別是結(jié)合美國的國家安全法案等因素，DeepSeek面臨的風險不可小覷。

從工程創(chuàng)新到基礎(chǔ)創(chuàng)新：中國AI“軟”實力幾何？

所謂瑕不掩瑜，當我們暫時拋開上述業(yè)內(nèi)（包括廠商、相關(guān)專家等）部分對于DeepSeek成本、知識產(chǎn)權(quán)的質(zhì)疑，僅站在AI（包括AI大模型）技術(shù)和產(chǎn)業(yè)的視角去看DeepSeek，其確實可圈可點。

有關(guān)技術(shù)方面，目前網(wǎng)絡(luò)及專業(yè)媒體報道和分析的很多，我們就不班門弄斧了。只是引用下DeepSeek的說法，其得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構(gòu)，實現(xiàn)了高效的推理和經(jīng)濟高效的訓練。又引入了輔助損失自由負載平衡策略和多token預測訓練目標，提升了模型性能。同時，在14.8萬億個高質(zhì)量token上進行預訓練時，通過監(jiān)督微調(diào)和強化學習階段充分挖掘了其潛力。

看來DeepSeek-V3通過數(shù)據(jù)與算法層面的優(yōu)化，大幅提升算力利用效率，實現(xiàn)了協(xié)同效應。簡而言之，DeepSeek更多是贏在了AI“軟”實力和工程創(chuàng)新上。而這也得到國內(nèi)外眾多業(yè)內(nèi)專家、廠商的認可。

不過我們作為非專業(yè)AI媒體，更多還是從技術(shù)發(fā)展邏輯（非技術(shù)本身）、市場事實闡述下我們的看法。

DeepSeek創(chuàng)始人梁文鋒2023年在接受36氪旗下《暗涌》采訪提及中國大模型的差距時曾稱，首先訓練效率存在差距，由于結(jié)構(gòu)和訓練動態(tài)方面的差距，中國最好的模型可能需要兩倍的計算能力才能與全球頂尖模型匹敵；數(shù)據(jù)效率也降低了一半，這意味著我們需要兩倍的數(shù)據(jù)和計算才能獲得相同的結(jié)果。綜合起來，資源是原來的四倍。我們的目標是不斷縮小這些差距。

從2023年至今，一年多的時間，DeepSeek不僅彌補了其所說的我們大模型與國外綜合起來的資源差距，甚至資源的投入僅為國外的不到1/10，且實現(xiàn)了性能比肩，甚至部分的超越，這一技術(shù)進步在短短一年多內(nèi)的發(fā)生，確實讓業(yè)內(nèi)人士感到意外，這也引發(fā)了對其背后技術(shù)路徑和資源配置的更多討論。

接下來我們看看除了對其極致性能的夸贊之外，選取些我們看到的DeepSeek的表現(xiàn)。

廣發(fā)證券發(fā)布的測試結(jié)果顯示，DeepSeek-V3總體能力與豆包、Kimi等其他大模型相當，但在邏輯推理和代碼生成領(lǐng)域具有自身特點。

例如，在密文解碼任務中，DeepSeek-V3是唯一給出正確答案的大模型；而在代碼生成的任務中，DeepSeek-V3給出的代碼注釋、算法原理解釋以及開發(fā)流程的指引是最為全面的。在文本生成和數(shù)學計算能力方面，DeepSeek-V3并未展現(xiàn)出明顯優(yōu)于其他大模型之處。

DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局

另據(jù)國內(nèi)大模型測評機構(gòu)SuperCLUE 最新發(fā)布的《中文大模型基準測評2024 年度報告》，總體趨勢上，國內(nèi)外第一梯隊大模型在中文領(lǐng)域的通用能力差距正在擴大。

2023年5月至今，國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過了從GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多個版本的迭代升級。

國內(nèi)模型也經(jīng)歷了波瀾壯闊的1 8個月的迭代周期，從2 0 2 3年5月的30.12%的差距，縮小至2024年8月的1.29%。但隨著o1的發(fā)布，差距再次拉大到15.05%。

DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局

看完上述，不知業(yè)內(nèi)作何感想？我們認為無論是DeepSeek自身，還是中國AI大模型的整體，絕非像目前看到某些媒體和業(yè)內(nèi)評價的那么極致和領(lǐng)先。尤其是整體，至少從去年一年的發(fā)展周期看，我們AI大模型與國外的差距反而加大了。

更應讓我們不能盲目樂觀的是，站在整個AI產(chǎn)業(yè)（包括，但不限于AI大模型）的高度，中國在AI領(lǐng)域仍然面臨一些核心技術(shù)上的瓶頸，尤其是在基礎(chǔ)算法和數(shù)學模型的創(chuàng)新方面。盡管開源技術(shù)，例如現(xiàn)有的深度學習模型和開源框架（如TensorFlow、PyTorch等）為很多應用提供了便利，但它們主要依賴于已有的模型和算法設(shè)計，若要應對日益復雜的任務，僅僅依賴這些現(xiàn)成的工具將難以滿足要求。更進一步，依賴國外開源代碼的情況下，可能會被技術(shù)壁壘、算法封鎖等所困擾。

基于此，我們AI技術(shù)的進一步前行必須依賴于自己原創(chuàng)算法的突破，而不僅僅是現(xiàn)有技術(shù)的跟隨，尤其是當前深度學習技術(shù)發(fā)展到一定階段，遇到“天花板，需要新的數(shù)學工具和算法架構(gòu)來繼續(xù)推動技術(shù)進步。未來的AI將不僅僅依賴數(shù)據(jù)和算力，還需要融入更多的邏輯推理、知識圖譜等元素，這些都需要新的數(shù)學和算法理論來支撐。

寫在最后：

所謂風物長宜放眼量。不可否認，DeepSeek作為近年來崛起的AI大模型，雖然面臨關(guān)于其低成本訓練的具體細節(jié)和是否存在未經(jīng)授權(quán)使用OpenAI技術(shù)的爭議，但其在工程創(chuàng)新、算力優(yōu)化等方面仍值得我們高度肯定，盡管如此，縱觀整個中國AI產(chǎn)業(yè)，我們依然面臨計算資源與算力受限、架構(gòu)與算法過度依賴開源，缺乏核心原創(chuàng)AI算法等挑戰(zhàn)待破局。

DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-04 18:08:57 瀏覽：117次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-04 18:08:57 瀏覽：117次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-04 18:08:57 瀏覽：117次