科技圈從來不缺新聞,但 DeepSeek-R1 的出現(xiàn),卻像一顆石子投入平靜的湖面,激起了層層漣漪。這家來自中國的 AI 初創(chuàng)公司,以其開源的推理大模型 R1,正在攪動(dòng)全球 AI 格局。R1 不僅擁有媲美甚至超越 OpenAI o1 的性能,更以其低廉的成本和開放的姿態(tài),贏得了全世界的關(guān)注。DeepSeek-R1 的出現(xiàn),如同 AI 界的“鯰魚”,它的開源策略和高效性能,正在迫使整個(gè)行業(yè)重新思考 AI 的未來。
那么,這條“鯰魚”究竟帶來了哪些改變?中國計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科學(xué)與技術(shù)論壇(CCF YOCSEF)近期組織了一場研討會(huì),邀請了復(fù)旦大學(xué)邱錫鵬教授、清華大學(xué)劉知遠(yuǎn)長聘副教授、清華大學(xué)翟季冬教授以及上海交通大學(xué)戴國浩副教授四位專家,從不同角度深入解析了 DeepSeek-R1 的技術(shù)突破與未來影響,或許能從中找到答案。
R1 的推理模型架構(gòu)突破
要理解 R1 的突破,我們要從 o1 類推理模型開始說起。
邱錫鵬認(rèn)為,當(dāng)前人工智能領(lǐng)域正面臨著一個(gè)重要轉(zhuǎn)折點(diǎn)。此前,Ilya 稱“預(yù)訓(xùn)練時(shí)代可能即將結(jié)束”。這一變化主要源于數(shù)據(jù)增長的停滯。在這樣的背景下,OpenAI 開始轉(zhuǎn)向強(qiáng)化學(xué)習(xí)和推理式計(jì)算的探索,試圖通過增加推理長度來改進(jìn)模型性能。這也為下一代大模型的發(fā)展注入了新的動(dòng)力。
邱錫鵬解釋說:“o1 模型的訓(xùn)練需要在強(qiáng)化學(xué)習(xí)的框架下進(jìn)行,大語言模型充當(dāng)了一個(gè) Agent。每個(gè)動(dòng)作其實(shí)就是生成下一個(gè) token,最終生成整個(gè) step 或者 solution!痹谶@個(gè)框架下,模型需要考慮動(dòng)作的顆粒度定義,以及如何在給定當(dāng)前狀態(tài) (State)的情況下,通過策略 (Policy) 生成下一階段的動(dòng)作(Action)。
(來源:arXiv)
從強(qiáng)化學(xué)習(xí)的視角來看,o1 這類大型推理模型可以分為四個(gè)核心要素。第一是策略初始化。這要求模型具備初始的、類人的推理行為能力,包括問題理解、任務(wù)分解,以及驗(yàn)證和修正錯(cuò)誤的能力。
(來源:arXiv)
第二個(gè)要素是獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。“reward 其實(shí)在傳統(tǒng)方法里主要分成兩大塊,”邱錫鵬解釋道,“一個(gè)是從環(huán)境中直接獲得獎(jiǎng)勵(lì)信號(hào),就像解題時(shí)的判斷對錯(cuò)。另外,如果沒有環(huán)境的回饋信號(hào),我們可以通過專家或者偏好數(shù)據(jù)來訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型!眔1 模型在訓(xùn)練過程中混合了多種獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)方法,并且嘗試從結(jié)果監(jiān)督轉(zhuǎn)向過程監(jiān)督,在中間過程進(jìn)行打分。
第三個(gè)要素是搜索策略。在學(xué)術(shù)界,研究者們投入了大量精力來提高搜索效率。搜索方法主要分為兩類:基于樹的搜索和基于順序修改的搜索。這兩種策略對于復(fù)現(xiàn) o1 模型都具有重要意義。
第四個(gè)要素是學(xué)習(xí)過程。這主要包括使用強(qiáng)化學(xué)習(xí)和其他方法來優(yōu)化模型。具體可以分為兩個(gè)階段:在預(yù)熱(Warmup)階段使用行為克隆方法,然后在第二階段通過強(qiáng)化學(xué)習(xí)來提升模型性能。
在許多 o1 的復(fù)現(xiàn)工作中,業(yè)界有很多復(fù)現(xiàn)是基于 SFT 或者蒸餾 o1 的路線。但實(shí)際上,o1 的核心還是應(yīng)該從強(qiáng)化學(xué)習(xí)框架開始。
R1 發(fā)布了兩個(gè)版本:R1-Zero 和 R1。其中,R1-Zero 完全依靠強(qiáng)化學(xué)習(xí)驅(qū)動(dòng),不經(jīng)過預(yù)熱階段,沒有任何初始的人工調(diào)節(jié)。正如邱錫鵬所說:“R1-Zero 是從基礎(chǔ)模型開始,完全由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng),不經(jīng)過之前提到的 warmup 階段。這個(gè)模型沒有任何初始的人工調(diào)節(jié),完全靠強(qiáng)化學(xué)習(xí)來進(jìn)行優(yōu)化。”
在訓(xùn)練過程中,隨著步驟的增加,模型逐漸展現(xiàn)出長文本推理的能力,尤其是長鏈推理。推理路徑變得越來越長,同時(shí)還表現(xiàn)出了自我修正的能力,能夠發(fā)現(xiàn)并修復(fù)之前的錯(cuò)誤。不過,在實(shí)際訓(xùn)練中也出現(xiàn)了一些問題,比如經(jīng)常出現(xiàn)語言混合的問題。
R1 的訓(xùn)練分為四個(gè)關(guān)鍵階段:冷啟動(dòng)階段、推理導(dǎo)向的強(qiáng)化學(xué)習(xí)階段、拒絕抽樣與監(jiān)督微調(diào)階段,以及全任務(wù)強(qiáng)化學(xué)習(xí)階段。在冷啟動(dòng)階段,通過收集少量合成數(shù)據(jù)進(jìn)行微調(diào),確保訓(xùn)練初期的穩(wěn)定性。第二階段以 DeepSeek-V3 為基礎(chǔ),進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,并引入語言一致性的獎(jiǎng)勵(lì)機(jī)制。第三階段引入其他領(lǐng)域的監(jiān)督微調(diào) (SFT,Supervised Fine-Tun-ing)數(shù)據(jù),增強(qiáng)模型在寫作、角色扮演等任務(wù)上的通用能力。最后階段則通過規(guī)則獎(jiǎng)勵(lì)和偏好獎(jiǎng)勵(lì)進(jìn)行全面優(yōu)化。
值得注意的是,R1 并未采用傳統(tǒng)的過程監(jiān)督或蒙特卡洛樹(MCTS,Monte Carlo Tree Search)搜索等技術(shù)。邱錫鵬指出:“R1 雖然沒有顯式強(qiáng)調(diào) MCTS 搜索,但最終報(bào)告顯示,通過 majority vote,能夠大幅提高推理效果,這也說明搜索在推理過程中依然具有提升模型能力的作用!
尤其令人意外的是,R1 在寫作能力方面表現(xiàn)突出。邱錫鵬表示:“OpenAI o1 相比 4o,寫作提升并不多,但 R1 在寫作任務(wù)上有明顯的提升。這可能意味著,強(qiáng)推理技術(shù)可以幫助模型在創(chuàng)作任務(wù)中發(fā)揮更大的潛力。”
不過,R1 仍然存在一些需要改進(jìn)的地方。在通用任務(wù)上的推理效果還不夠理想,強(qiáng)化學(xué)習(xí)的泛化能力仍需進(jìn)一步研究。此外,測試時(shí)間擴(kuò)展性與訓(xùn)練規(guī)模、數(shù)據(jù)規(guī)模密切相關(guān),需要確保足夠的訓(xùn)練步驟和數(shù)據(jù)來保證模型性能。
但總的來說,R1 的架構(gòu)創(chuàng)新為人工智能領(lǐng)域帶來了新的可能。它是目前唯一具備強(qiáng)推理能力并能與聯(lián)網(wǎng)搜索配合的產(chǎn)品,這也意味著下一步的發(fā)展很可能是進(jìn)一步提升強(qiáng)化學(xué)習(xí)和推理模型的能力。
為什么 R1 能夠引起如此廣泛的關(guān)注?
實(shí)際上,DeepSeek-R1 并非第一個(gè)推理模型,也并不是第一個(gè) OpenAI o1 的復(fù)現(xiàn)模型,為何它卻引起了如此廣泛的關(guān)注?
劉知遠(yuǎn)認(rèn)為,DeepSeek-R1 的重大影響源于其在兩個(gè)方面的突破性貢獻(xiàn)!癉eepSeek 是全球首個(gè)通過純強(qiáng)化學(xué)習(xí)技術(shù),成功復(fù)現(xiàn)了 o1 的能力,并且開源了相關(guān)的技術(shù)細(xì)節(jié),發(fā)布了相對詳細(xì)的技術(shù)報(bào)告。這是它的一個(gè)非常重要的貢獻(xiàn)!
具體來看,R1 的第一個(gè)突破在于其獨(dú)特的技術(shù)路線。它基于 Deep Seek-V3 的基礎(chǔ)模型,通過大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)增強(qiáng)推理能力。這一成就意義重大,因?yàn)樵诖酥埃瑤缀鯖]有任何團(tuán)隊(duì)能夠成功地將強(qiáng)化學(xué)習(xí)應(yīng)用到大規(guī)模語言模型的訓(xùn)練中。更值得注意的是,R1 并未局限于規(guī)則驅(qū)動(dòng)的數(shù)學(xué)模型或算法,而是成功地將強(qiáng)化學(xué)習(xí)帶來的強(qiáng)推理能力泛化到其他領(lǐng)域,使得用戶在實(shí)際使用過程中能夠感受到其在寫作等任務(wù)中的卓越表現(xiàn)。
(來源:劉知遠(yuǎn))
那么它具體是如何做到的呢?實(shí)際上,R1 的訓(xùn)練分為兩個(gè)階段。第一階段仍然基于 V3 的基礎(chǔ)模型,通過增強(qiáng)推理過程的可讀性,生成相應(yīng)的深度推理數(shù)據(jù)。第二階段則結(jié)合傳統(tǒng)的通用 SFT 數(shù)據(jù)對大模型進(jìn)行微調(diào),并進(jìn)一步進(jìn)行強(qiáng)化學(xué)習(xí),最終得到一個(gè)具有強(qiáng)泛化能力的推理模型,也就是 R1。
第二個(gè)重要突破在于其開源策略的選擇。最近,OpenAI CEO Sam Altman 承認(rèn),自己沒有選擇開源站在了“歷史錯(cuò)誤的一邊”。劉知遠(yuǎn)指出,OpenAI 這一系列決策失誤為 DeepSeek 創(chuàng)造了機(jī)會(huì)!癘penAI 的決策失誤起了很大作用。OpenAI 在發(fā)布 O1 后,首先沒有開源;其次,它把 O1 的深度推理過程隱藏起來;最后,其收費(fèi)非常高,導(dǎo)致全球很多人無法真正體驗(yàn)到深度推理帶來的震撼!
相比之下,DeepSeek 選擇了開源的道路,這一決定具有深遠(yuǎn)的戰(zhàn)略意義。就像 2023 年 Meta 發(fā)布 LLaMA 模型時(shí)那樣,開源讓全球的研究者能夠快速建立起相關(guān)能力。劉知遠(yuǎn)將 DeepSeek-R1 的影響力比作 2023 年初 OpenAI 發(fā)布 ChatGPT 時(shí)的震撼。如果說 ChatGPT 讓全球看到了大模型的重要性,那么 DeepSeek 的開源則讓全球研究者有機(jī)會(huì)親身參與到強(qiáng)大推理能力的開發(fā)中。
更重要的是,DeepSeek 的成功展示了“有限算力+算法創(chuàng)新”的發(fā)展模式。在有限的算力資源支持下,通過強(qiáng)大的算法創(chuàng)新突破了算力瓶頸的限制,證明即使在算力受限的情況下,也能做出具有全球影響力的成果。這一點(diǎn)對中國 AI 發(fā)展具有重要啟示。
放眼未來,劉知遠(yuǎn)提出了人工智能發(fā)展的三大方向:探索科學(xué)化的技術(shù)方案,追求更高效的人工智能;實(shí)現(xiàn)計(jì)算系統(tǒng)的智能化,以更低成本推動(dòng)大模型在各領(lǐng)域的應(yīng)用;推動(dòng)人工智能的廣泛應(yīng)用,實(shí)現(xiàn)真正的普惠。他特別指出,從 2023 年以來,大模型的能力密度每 100 天翻一倍,這意味著每過 100 天,只需一半的算力和參數(shù)就能實(shí)現(xiàn)相同的能力。這種密度定律的存在,將是實(shí)現(xiàn)人工智能高質(zhì)量、可持續(xù)發(fā)展的關(guān)鍵。
“DeepSeek 給我們帶來的一個(gè)重要啟示!眲⒅h(yuǎn)總結(jié)道,“就是它能夠讓我們看到用小米加步槍也能取得非常廣闊的勝利。我們即將迎來一個(gè)智能革命的時(shí)代,它的高潮即將到來,這是非常值得期待的。”
DeepSeek 的系統(tǒng)軟件優(yōu)化
除了純強(qiáng)化學(xué)習(xí)等算法層面的創(chuàng)新,DeepSeek 能引起全球?qū)W⒌牧硪粋(gè)重要原因就是其低廉的訓(xùn)練成本。翟季冬就從系統(tǒng)軟件層面深入分析了 DeepSeek 降低訓(xùn)練成本的方法。
根據(jù) DeepSeek 公開的訓(xùn)練成本數(shù)據(jù),如果按照 H800 每卡每小時(shí) 2 美元的租賃成本計(jì)算,整體訓(xùn)練成本約為 550 萬美元(不包括前期的模型架構(gòu)探索和實(shí)驗(yàn)開銷)。這個(gè)遠(yuǎn)低于其他國際大公司的訓(xùn)練成本的數(shù)據(jù)在業(yè)界引發(fā)了廣泛討論。
從訓(xùn)練規(guī)模來看,使用 2048 張 H800 顯卡需要 54 天完成訓(xùn)練,而如果使用 10000 張 H800 顯卡,只需要 11 天。這種高效訓(xùn)練背后是 DeepSeek 在模型架構(gòu)和系統(tǒng)優(yōu)化上的創(chuàng)新。DeepSeek V3 擁有 671B 參數(shù),遠(yuǎn)超 GPT-3 的 175B。它采用了 MoE(mixture of experts)架構(gòu),每個(gè) token 會(huì)激活 37B 參數(shù),約占總參數(shù)量的 5.5%。整個(gè)模型包含 61 層 Transformer,除前三層外都采用了 MoE 架構(gòu),每一層都包含一個(gè)共享專家和 256 個(gè)路由專家,每個(gè)頭可能激活 8 個(gè)路由專家。
(來源:arXiv)
為了高效訓(xùn)練這樣一個(gè)龐大的模型,DeepSeek 開發(fā)了并行訓(xùn)練框架 HAI-LLM。該框架采用了 16 路流水線并行、64 路專家并行 (跨越 8 個(gè)物理節(jié)點(diǎn))、基于 ZeRO-1 的數(shù)據(jù)并行方案?紤]到通信開銷,框架沒有采用張量并行策略。在此基礎(chǔ)上,DeepSeek 針對系統(tǒng)的四個(gè)關(guān)鍵方面進(jìn)行了深度優(yōu)化。
在負(fù)載均衡方面,MoE 架構(gòu)最大的挑戰(zhàn)在于如何保證各個(gè)專家的計(jì)算負(fù)載均衡。DeepSeek 創(chuàng)新性地提出了“auxiliary loss free”負(fù)載均衡策略,通過引入 Expert Bias 動(dòng)態(tài)調(diào)節(jié)負(fù)載分配。當(dāng)發(fā)現(xiàn)某個(gè)專家負(fù)載過重時(shí),系統(tǒng)會(huì)降低其 bias 值;當(dāng)專家負(fù)載不足時(shí),則增加其 bias 值。這種動(dòng)態(tài)調(diào)節(jié)確保了訓(xùn)練過程中的計(jì)算資源能夠得到充分均衡的利用。
在通信優(yōu)化方面,專家并行會(huì)帶來大量的“alltoall”通信開銷。為了解決專家并行帶來的巨大通信開銷,DeepSeek 設(shè)計(jì)了創(chuàng)新的 DualPipe 算法。“通過精細(xì)控制分配給計(jì)算和通信的 GPU SM 數(shù)量,保證計(jì)算和通信能夠完全重疊。”翟季冬解釋說。在跨節(jié)點(diǎn)通信方面,DeepSeek 采用了獨(dú)特的設(shè)計(jì):“跨節(jié)點(diǎn)時(shí),每個(gè) token 最多路由到 4 個(gè)物理節(jié)點(diǎn);節(jié)點(diǎn)內(nèi)時(shí),每個(gè) token 平均選擇 3.2 個(gè)專家。這種設(shè)計(jì)充分考慮了 IP 帶寬與 NVLink 帶寬的比值關(guān)系!
(來源:arXiv)
在內(nèi)存管理上,DeepSeek 采用了一系列創(chuàng)新方法提升 GPU 顯存利用效率。通過對 RMSNorm、MLA up-projection 等操作進(jìn)行重計(jì)算,以及將模型參數(shù)的指數(shù)移動(dòng)平均等數(shù)據(jù)存儲(chǔ)到 CPU 內(nèi)存中,大大降低了 GPU 顯存壓力。此外,DeepSeek 還實(shí)現(xiàn)了主模型和 MTP 模塊的 output head 和 embedding 在相同節(jié)點(diǎn)上的參數(shù)共享。
在計(jì)算優(yōu)化方面,DeepSeek 采用了混合精度訓(xùn)練策略,在核心計(jì)算層使用 FP8 精度格式。為了解決低精度可能帶來的收斂問題,團(tuán)隊(duì)設(shè)計(jì)了細(xì)粒度的量化方案,將 Activation 按 1*128 Tile 分組,Weight 按 128*128 block 分組,并通過提高累積精度來保證訓(xùn)練的穩(wěn)定性。
(來源:arXiv)
翟季冬強(qiáng)調(diào),這些系統(tǒng)級(jí)優(yōu)化的意義不僅在于降低了訓(xùn)練成本,更在于提升了模型的整體性能。特別是在 MoE 架構(gòu)的負(fù)載均衡問題上,DeepSeek 的創(chuàng)新解決方案為整個(gè)行業(yè)提供了重要參考。這些優(yōu)化策略的成功實(shí)施,證明了即使在有限的算力資源條件下,通過軟件層面的創(chuàng)新也能實(shí)現(xiàn)卓越的性能表現(xiàn)。這種系統(tǒng)軟件層面的深度優(yōu)化,既展示了中國 AI 技術(shù)在工程實(shí)現(xiàn)上的創(chuàng)新能力,也為未來大模型的訓(xùn)練提供了一個(gè)高效且可持續(xù)的技術(shù)路徑。
從軟硬件協(xié)同看 DeepSeek 的未來方向
在各路研究者和媒體對 DeepSeek 模型的不斷深挖下,有研究者發(fā)現(xiàn),DeepSeek 在研發(fā)大模型時(shí)或許繞過了 CUDA。
戴國浩從軟硬件協(xié)同的視角對這一點(diǎn)進(jìn)行了分析。他首先說明了現(xiàn)狀:“當(dāng)前我們在開發(fā)人工智能應(yīng)用時(shí),通常會(huì)使用高層編程語言或硬件接口進(jìn)行編程,而不需要關(guān)心底層硬件的具體樣式或操作。”
當(dāng)我們使用 GPU 時(shí),通常會(huì)經(jīng)過多個(gè)層級(jí)才能調(diào)用到底層硬件。從上到下依次是高層編程語言 (如 Python、C++)、硬件接口 (如 CUDA、OpenCL 等)、驅(qū)動(dòng)程序,最后才是底層硬件。在這個(gè)過程中,CUDA 作為一個(gè)相對高層的接口,為用戶提供編程接口,而 PTX 則隱藏在驅(qū)動(dòng)背后。
(來源:Nvdia)
DeepSeek 的突破性創(chuàng)新在于它直接深入到 PTX 層面。正如戴國浩所說:“PTX 與底層硬件直接交互。如果我們能夠編寫和調(diào)用 PTX 代碼,我們就能更精確地控制底層硬件,實(shí)現(xiàn)更高效的計(jì)算!边@一優(yōu)化思路引發(fā)了廣泛關(guān)注,“有些媒體將這項(xiàng)技術(shù)解讀為‘突破性繞過 CUDA 的限制’,而國內(nèi)一些媒體也將其稱為‘繞開 CUDA 的壟斷’!
(來源:DeepSeek)
那么其具體意義究竟如何?“幾乎所有的深度學(xué)習(xí)和大模型的算法工程師并不會(huì)直接接觸底層接口。那么,為什么這一層的優(yōu)化如此重要呢?原因在于 PTX 與底層硬件直接交互。如果我們能夠編寫和調(diào)用 PTX 代碼,就能更精確地控制底層硬件,實(shí)現(xiàn)更高效的計(jì)算。”戴國浩說。
戴教授將 DeepSeek 的優(yōu)化策略分為兩大類。第一類是底層優(yōu)化,即在已知算法模型和底層硬件的情況下,通過軟件優(yōu)化來提升硬件效率,比如通信優(yōu)化或內(nèi)存優(yōu)化。這些優(yōu)化不會(huì)改變程序執(zhí)行的正確性,但能顯著提升性能。第二類是協(xié)同優(yōu)化,包括混合精度、量化和 MLA 等技術(shù),這些優(yōu)化不僅涉及原有算法模型的修改,還可能需要調(diào)整底層硬件,從而擴(kuò)展硬件優(yōu)化的空間。
為了說明底層優(yōu)化的重要性,戴教授用冒泡排序算法作為例子。雖然 Python 實(shí)現(xiàn)起來更簡單,但 C 語言這樣的底層語言往往能實(shí)現(xiàn)更高的硬件利用效率、更低的功耗和更短的計(jì)算時(shí)間。這一點(diǎn)在 FlashTest 的研究中得到了充分驗(yàn)證,通過對不同內(nèi)存層級(jí)的精細(xì)控制,F(xiàn)lashTest 實(shí)現(xiàn)了比傳統(tǒng)方法快一個(gè)數(shù)量級(jí)的性能提升。
在協(xié)同優(yōu)化方面,DeepSeek 展示了從應(yīng)用到基礎(chǔ)設(shè)施的全系統(tǒng)優(yōu)化思路。比如,芯片公司 Groq 通過定制硬件架構(gòu),將傳統(tǒng) GPU 中的 HBM 或 GDR 內(nèi)存替換為級(jí)聯(lián)的 SRAM 內(nèi)存,使得大模型推理速度提升了多個(gè)數(shù)量級(jí)。這種協(xié)同優(yōu)化不僅僅局限于軟件層面,而是打破了單一層級(jí)的限制,實(shí)現(xiàn)了超越 GPU 原始性能的突破。
從更宏觀的角度來看,人工智能的發(fā)展離不開三駕馬車:算力、算法和數(shù)據(jù)。從最初的神經(jīng)元提出,到 80 年代的早期識(shí)別模型,再到當(dāng)前基于 GPU 的大模型訓(xùn)練,每一次突破都依賴于這三者的協(xié)同發(fā)展。戴國浩指出,中國在這一過程中也需要走出自己的閉環(huán)。DeepSeek 的成功已經(jīng)為我們證明,通過系統(tǒng)架構(gòu)的優(yōu)化,結(jié)合國產(chǎn)芯片和硬件,中國的 AI 技術(shù)完全可以逐步超越國際競爭者。
戴國浩最后總結(jié)了三點(diǎn)關(guān)鍵思考:“了解硬件細(xì)節(jié),極致底層優(yōu)化;打通軟件硬件,聯(lián)合協(xié)同優(yōu)化;形成邏輯閉環(huán),助力國產(chǎn)發(fā)展!边@三點(diǎn)思考勾畫出了一個(gè)“模型-系統(tǒng)-芯片”和“軟件-硬件”雙閉環(huán)的發(fā)展路徑,為中國 AI 產(chǎn)業(yè)的未來發(fā)展指明了方向。這種全方位的軟硬件協(xié)同創(chuàng)新策略,不僅能夠提升現(xiàn)有技術(shù)的性能,更為重要的是能夠推動(dòng)形成完整的國產(chǎn) AI 技術(shù)生態(tài)體系。
面向未來:創(chuàng)新、開源與持續(xù)發(fā)展
在研討會(huì)的最后環(huán)節(jié),與會(huì)專家們就觀眾關(guān)心的問題進(jìn)行了深入討論。其中,關(guān)于 MoE 架構(gòu)是否是當(dāng)前最優(yōu)解的問題引發(fā)了熱烈討論。
劉知遠(yuǎn)認(rèn)為:“沒有人永遠(yuǎn)是對的。2023 年初 OpenAI 發(fā)布 ChatGPT 他做對了,發(fā)布 GPT4 他做對了,但發(fā)布 o1 他就做錯(cuò)了選擇了不開源。我也不會(huì)認(rèn)為 DeepSeek 選擇了 MoE 就會(huì)永遠(yuǎn)是正確的,這應(yīng)該是一個(gè)開放性的問題!
翟季冬也表示認(rèn)同:“這一波人工智能對我影響最大的,就是技術(shù)在不停地變化。這是人工智能最有意思的地方,很有可能又有一些新的技術(shù)會(huì)顛覆現(xiàn)有技術(shù)!
戴國浩則從歷史角度進(jìn)行了分析:“神經(jīng)網(wǎng)絡(luò)在上世紀(jì) 80 年代被提出時(shí),到 90 年代很多機(jī)器學(xué)習(xí)會(huì)議已經(jīng)拒絕接受神經(jīng)網(wǎng)絡(luò)的論文,認(rèn)為效果不好、可解釋性差。但技術(shù)的發(fā)展與時(shí)間有關(guān),我們需要保持開放態(tài)度。MoE 在當(dāng)前取得了不錯(cuò)的效果,但這只能說是一個(gè)很好的解,而不是最優(yōu)解。”
對于長思維鏈模型對硬件的特殊需求,戴國浩指出了兩個(gè)關(guān)鍵變化:一是對歷史信息獲取提出了更高要求,二是對整體推理時(shí)間和成本的需求變得更大。這促使業(yè)界思考是否需要改變傳統(tǒng)的計(jì)算和存儲(chǔ)分離模式,探索將計(jì)算和存儲(chǔ)放得更近,甚至放到一起的可能性。
研討會(huì)的討論也觸及了 DeepSeek 給中國大模型發(fā)展帶來的啟示。邱錫鵬強(qiáng)調(diào)了高水平研發(fā)團(tuán)隊(duì)的重要性,特別是年輕研究者敢于創(chuàng)新的精神。劉知遠(yuǎn)則特別贊賞 DeepSeek 團(tuán)隊(duì)的技術(shù)理想主義,以及他們在“有限算力+算法創(chuàng)新”模式下取得的成就。
翟季冬認(rèn)為 DeepSeek 的成功將產(chǎn)生示范效應(yīng):“DeepSeek 團(tuán)隊(duì)這次的成果,一定會(huì)對中國在人工智能領(lǐng)域的工作者產(chǎn)生很大的激勵(lì)作用。這讓大家看到,中國團(tuán)隊(duì)完全有能力做出世界級(jí)的成果。”
從全球視角來看,DeepSeek-R1 的出現(xiàn)確實(shí)標(biāo)志著 AI 領(lǐng)域格局的重要轉(zhuǎn)變。一方面,在這場 AI 競賽中,雖然美國目前仍占據(jù)領(lǐng)先地位,但形勢正在發(fā)生微妙變化。如前谷歌 CEO Eric Schmidt 在近期采訪中談到的“即使美國贏得了這場競賽的第一階段,中國最終也很可能會(huì)在這場競賽中勝出,因?yàn)樗麄兡軌蚋斓貙⑦@類技術(shù)大規(guī)模應(yīng)用到實(shí)際產(chǎn)品中!
另一方面,這更預(yù)示著 AI 技術(shù)正在走向更高效、更開放的發(fā)展模式。相比傳統(tǒng)的“規(guī)模至上”路線,DeepSeek 展現(xiàn)的高效創(chuàng)新路徑或?qū)⒅匦露x AI 發(fā)展的范式。
參考資料:
1.https://arxiv.org/html/2412.14135v1
2.https://arxiv.org/pdf/2408.15664
3.DeepSeek-V3/DeepSeek_V3.pdf at main deepseek-ai/DeepSeek-V3 GitHub
4.https://developer.download.nvidia.cn/compute/cuda/docs/CUDA_Architecture_Overview.pdf
排版:劉雅坤