展會(huì)信息港展會(huì)大全

DeepSeek掀翻“AI牌桌”,三大拐點(diǎn)決定大模型未來(lái)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-08 08:09:08   瀏覽:164次  

導(dǎo)讀:文 | 極智GeeTech2025年伊始,大模型已經(jīng)站在新周期的起點(diǎn)上;梅搅炕煜翧I初創(chuàng)公司DeepSeek成功“破圈”,憑借基于深度學(xué)習(xí)的量化交易模型“掀翻”了全球人工智能市場(chǎng)的牌桌。這也成為美國(guó)、日本進(jìn)一步加緊對(duì)中國(guó)半導(dǎo)體產(chǎn)業(yè)實(shí)施出口管制的誘因之一。如果以O(shè)penAI為代表的大語(yǔ)言模型進(jìn)一步催化了具身智能的發(fā)展,那么DeepSeek的出現(xiàn),證明了在“大力出奇跡”的規(guī)模定律(Scal ......

文 | 極智GeeTech

2025年伊始,大模型已經(jīng)站在新周期的起點(diǎn)上。

幻方量化旗下AI初創(chuàng)公司DeepSeek成功“破圈”,憑借基于深度學(xué)習(xí)的量化交易模型“掀翻”了全球人工智能市場(chǎng)的牌桌。這也成為美國(guó)、日本進(jìn)一步加緊對(duì)中國(guó)半導(dǎo)體產(chǎn)業(yè)實(shí)施出口管制的誘因之一。

如果以O(shè)penAI為代表的大語(yǔ)言模型進(jìn)一步催化了具身智能的發(fā)展,那么DeepSeek的出現(xiàn),證明了在“大力出奇跡”的規(guī)模定律(Scaling Law)之外,AI大模型還有另一條制勝之道:調(diào)整大模型的基礎(chǔ)結(jié)構(gòu)+有效利用有限資源。

我們清晰地看到,以往靠堆算力和一味追求擴(kuò)大模型尺寸的迭代路徑已經(jīng)被打破。大模型正在從“唯規(guī)模論”轉(zhuǎn)向“性?xún)r(jià)比”,用更低的能耗和資源實(shí)現(xiàn)更高的效能;從海量數(shù)據(jù)轉(zhuǎn)向高質(zhì)量數(shù)據(jù),提高大模型解決垂直行業(yè)問(wèn)題的能力。

過(guò)去一年,AI智能體、AIGC、多模態(tài)塑造了大模型的應(yīng)用場(chǎng)景;新一年,由DeepSeek 引發(fā)的技術(shù)拐點(diǎn)將變得更加明顯,全球大模型市場(chǎng)競(jìng)爭(zhēng)格局有望被改寫(xiě)。

站在AI門(mén)口的“圈外人”

作為一家成立不到兩年的大模型公司,無(wú)論在融資、技術(shù)進(jìn)展還是輿論層面,DeepSeek一向都名不見(jiàn)經(jīng)傳。而它背后的母公司幻方量化,在此之前也僅在私募圈出名。

出人意料的是,一家私募和一家大模型初創(chuàng)公司,這樣少見(jiàn)的組合演繹了“DeepSeek神話(huà)”,原本用于量化投資的大模型,沒(méi)想到卻震動(dòng)了全球科技行業(yè)。

對(duì)于身處人工智能行業(yè)的公司而言,“圈外人”DeepSeek的破門(mén)而入,真應(yīng)了那句話(huà):“即將消滅你的那個(gè)人,迄今還沒(méi)有出現(xiàn)在你的敵人名單上。”

2023年,梁文鋒宣布正式進(jìn)軍通用人工智能(AGI)領(lǐng)域,創(chuàng)辦深度求索(DeepSeek),僅有139名工程師和研究人員。相比之下,OpenAI有1200名研究人員,開(kāi)發(fā)Claude模型的Anthropic則有500多名研究人員。

DeepSeek掀翻“AI牌桌”,三大拐點(diǎn)決定大模型未來(lái)

雖然團(tuán)隊(duì)規(guī)模不大,DeepSeek在此后一年多里取得了令人矚目的成果。2024年5月,DeepSeek發(fā)布DeepSeek-V2模型,采用了注意力機(jī)制方面的MLA(多頭潛在注意力)、前饋網(wǎng)絡(luò)方面的DeepSeekMoE等創(chuàng)新的架構(gòu),以實(shí)現(xiàn)具有更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。API定價(jià)為每百萬(wàn)tokens輸入1元、輸出2元,價(jià)格僅為美國(guó)OpenAI GPT-4 Turbo的百分之一。

去年12月,DeepSeek-V3模型發(fā)布。官網(wǎng)信息顯示,DeepSeek-V3多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開(kāi)源模型,甚至可以與GPT-4o、Claude 3.5-Sonnet等頂級(jí)閉源模型一較高下。

值得關(guān)注的是,DeepSeek-V3依舊走了一條極高性?xún)r(jià)比的路徑,其僅使用2048顆算力稍弱的英偉達(dá)H800 GPU,成本約為557.6萬(wàn)美元。相比之下,OpenAI的GPT-4o訓(xùn)練成本高達(dá)7800萬(wàn)美元。這意味著,DeepSeek-V3以十分之一的成本實(shí)現(xiàn)了足以與GPT-4o較量的水平。

今年1月20日,DeepSeek進(jìn)一步取得突破,正式發(fā)布DeepSeek-R1模型。該模型在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAI o1正式版。該模型在后訓(xùn)練階段大規(guī)模使用強(qiáng)化學(xué)習(xí)(RL)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。

對(duì)此,美國(guó)OpenAI創(chuàng)始成員之一的安德烈卡帕西(Andrej Karpathy)表示:“DeepSeek在有限資源下展現(xiàn)了驚人的工程能力,它可能重新定義大模型研發(fā)的規(guī)則!敝顿Y公司A16z創(chuàng)始人馬克安德森(Marc Andreessen)稱(chēng)贊這是“最令人驚嘆的突破之一,給世界的一份意義深遠(yuǎn)的禮物”。

在DeepSeek爆火背后,“通專(zhuān)融合、邏輯推理、輕量化”三大技術(shù)拐點(diǎn)打亂了全球既有的AI市場(chǎng)牌局,動(dòng)搖了英偉達(dá)的“算力信仰”,就像突然殺進(jìn)牌局的一張王炸,讓人不得不重新審視整個(gè)AI市場(chǎng)的游戲規(guī)則。

通用與專(zhuān)家的融合

過(guò)去兩年,以ChatGPT為代表的大模型引領(lǐng)了通用人工智能的高速發(fā)展。一方面,大模型的確在智能涌現(xiàn)能力上不斷提升,并從語(yǔ)言快速向多模態(tài)、具身智能發(fā)展;另一方面,大模型帶來(lái)了算力、數(shù)據(jù)、能耗的挑戰(zhàn),在應(yīng)用上泛化能力、幻覺(jué)問(wèn)題仍然是很大的兩個(gè)瓶頸。

在2017年Transformer提出以后,大模型在泛化能力上“狂飆”,但此前擅長(zhǎng)的專(zhuān)業(yè)能力進(jìn)步緩慢。

OpenAI首席執(zhí)行官Sam Altman曾坦言,GPT-4的專(zhuān)業(yè)能力大概相當(dāng)于10%-15%的專(zhuān)業(yè)人士,即使迭代到GPT-5,其專(zhuān)業(yè)能力預(yù)計(jì)也只會(huì)提高4-5個(gè)百分點(diǎn)。這意味著,OpenAI將用指數(shù)級(jí)的能源消耗增長(zhǎng)換來(lái)緩慢的專(zhuān)業(yè)能力提升。

如果一直順著通用大模型這條路線往前走,基本上是沿著包括Meta、谷歌等企業(yè)的既有路徑,朝著幾十萬(wàn)卡的規(guī)模去購(gòu)買(mǎi)顯卡,那意味著中國(guó)企業(yè)要與這些企業(yè)進(jìn)行資源競(jìng)爭(zhēng),這不見(jiàn)得是一條最合適的路。

至今,大模型本身存在的專(zhuān)業(yè)性、泛化性和經(jīng)濟(jì)性“不可能三角”問(wèn)題依然未被有效解決,導(dǎo)致目前行業(yè)實(shí)際落地應(yīng)用進(jìn)程并不快。

“通專(zhuān)融合”是通往AGI的戰(zhàn)略路徑,也被業(yè)界視為更適合未來(lái)大模型的發(fā)展之路,即構(gòu)建一個(gè)既具有泛化性又具備專(zhuān)業(yè)能力的人工智能系統(tǒng)。與目前的大模型相比,這種系統(tǒng)可以更高效、更好地適應(yīng)并解決現(xiàn)實(shí)世界中的復(fù)雜問(wèn)題。

DeepSeek掀翻“AI牌桌”,三大拐點(diǎn)決定大模型未來(lái)

DeepSeek-V3以6710億的總參數(shù)規(guī)模成為目前最大的開(kāi)源模型,但其真正的創(chuàng)新之處在于,每個(gè)token僅激活370億參數(shù),這種靈活的資源管理顯著降低了計(jì)算成本,提升了資源的利用效率。

這種設(shè)計(jì)恰如其分地展示了深度學(xué)習(xí)領(lǐng)域的一種新趨勢(shì)資源優(yōu)化與算法創(chuàng)新的完美結(jié)合。如何有效管理和調(diào)度計(jì)算資源,已經(jīng)成為提升AI模型性能的關(guān)鍵所在,而DeepSeek-V3的混合專(zhuān)家架構(gòu)(Mixture of Experts,MoE)則為此提供了一個(gè)極具參考價(jià)值的范例。

MoE架構(gòu)將復(fù)雜問(wèn)題分解為多個(gè)子任務(wù),由不同的“專(zhuān)家”網(wǎng)絡(luò)處理。這些專(zhuān)家是針對(duì)特定領(lǐng)域或任務(wù)訓(xùn)練的小型神經(jīng)網(wǎng)絡(luò),例如語(yǔ)法、事實(shí)知識(shí)或創(chuàng)造性文本生成。

DeepSeek掀翻“AI牌桌”,三大拐點(diǎn)決定大模型未來(lái)

與傳統(tǒng)模型對(duì)每個(gè)輸入激活所有參數(shù)不同,MoE僅激活與當(dāng)前任務(wù)相關(guān)的專(zhuān)家。這種選擇性激活顯著降低了計(jì)算資源的需求,同時(shí)保持了高性能。通過(guò)“專(zhuān)家選擇”路由算法,DeepSeek-V3任務(wù)在各個(gè)專(zhuān)家間的負(fù)載均衡,避免某些專(zhuān)家過(guò)載或閑置。

這使得DeepSeek-V3的適用性大幅提升,不僅適合高性能計(jì)算環(huán)境,也能在資源有限的條件下實(shí)現(xiàn)出色的表現(xiàn)。

“通專(zhuān)融合”必須實(shí)現(xiàn)“通用泛化性”“高度專(zhuān)業(yè)性”“任務(wù)可持續(xù)性”三者兼得。

關(guān)于通專(zhuān)融合的目標(biāo),一方面,隨著合成數(shù)據(jù)飛輪效應(yīng)的加速,過(guò)去一年基礎(chǔ)模型獲取通用能力的難度顯著降低;另一方面,在世界知識(shí)的壓縮能力上,開(kāi)源模型的性能已無(wú)限逼近閉源模型。

然而,不管是開(kāi)源還是閉源模型,在專(zhuān)業(yè)化能力方面仍存在顯著瓶頸。例如,在實(shí)際的軟件工程環(huán)境中,GPT-4僅能解決GitHub中1.74%的人類(lèi)提出的問(wèn)題。即便通過(guò)引入大量工具、結(jié)合基礎(chǔ)模型與工具型Agent的方式,這一比例也僅提升至13.85%。

可以看到,目前對(duì)于世界知識(shí)進(jìn)行壓縮的發(fā)展路徑正在自然演進(jìn),但這之上的專(zhuān)業(yè)能力,才是現(xiàn)階段AGI皇冠上的明珠。因此,“通專(zhuān)融合”將是一條必然的路徑。

從“快思考”到“慢思考”

在卡尼曼的《思考,快與慢》一書(shū)中,他對(duì)人類(lèi)的兩種思維方式進(jìn)行了精妙的剖析:快速直觀的感性思考與深入細(xì)致的理性思考。

快思考如同靈光一閃,迅如閃電,主導(dǎo)著我們的日常判斷與決策,猶如舞臺(tái)上的主角,使生活這部大戲得以流暢進(jìn)行。然而,這種快速反應(yīng)有時(shí)卻像被霧氣籠罩的鏡子,容易受到情感和刻板印象的影響,導(dǎo)致決策失誤。

相比之下,慢思考則如同精雕細(xì)琢的匠人,需要我們投入更多的認(rèn)知資源和努力。它如同沉穩(wěn)的智者,通過(guò)深入的、有意識(shí)的思考,能夠避免快思考中的偏見(jiàn)和誤判,使我們更有可能做出理性、周全的決策。

如今,大模型的發(fā)展也走到了思考“快”與“慢”的十字路口。當(dāng)靠推數(shù)據(jù)、堆算力形成的快思考正在出現(xiàn)邊際遞減效應(yīng),依靠邏輯能力沉淀而成的慢思考能力將成為大模型的“第二增長(zhǎng)曲線”。

2024年最重要的模型更新莫過(guò)于OpenAI的o1,以前稱(chēng)為Q*,也稱(chēng)為Strawberry。這是第一個(gè)具備真正通用推理能力的大模型,而實(shí)現(xiàn)這一點(diǎn)靠的是推理時(shí)間計(jì)算(推理時(shí)間計(jì)算是指在人工智能和機(jī)器學(xué)習(xí)中,通過(guò)增加額外的計(jì)算時(shí)間來(lái)優(yōu)化模型在解決特定問(wèn)題時(shí)的表現(xiàn))。

以前,預(yù)訓(xùn)練模型是通過(guò)對(duì)大量數(shù)據(jù)的學(xué)習(xí),進(jìn)而實(shí)現(xiàn)后續(xù)內(nèi)容的預(yù)測(cè)。這背后依賴(lài)于大量的模型訓(xùn)練時(shí)間,但這種推理能力很有限。

現(xiàn)在,通過(guò)推理時(shí)間計(jì)算,模型會(huì)在給你答復(fù)之前停下來(lái)思考,這需要在推理時(shí)進(jìn)行更多的計(jì)算!巴O聛(lái)思考”的部分就是推理。

這意味著,人工智能的發(fā)展方向發(fā)生了重大變化,即從預(yù)訓(xùn)練所帶來(lái)的“快速思考”,向基于強(qiáng)化學(xué)習(xí)的“慢速思考”發(fā)展,這一演變將解鎖更多新的AI代理應(yīng)用。對(duì)此有人預(yù)言,大模型的預(yù)訓(xùn)練時(shí)代即將終結(jié)。

當(dāng)前,大模型的發(fā)展路徑遵循一個(gè)易于理解的擴(kuò)展定律:在預(yù)訓(xùn)練模型上花費(fèi)的計(jì)算和數(shù)據(jù)越多,模型性能就越好。o1則為擴(kuò)展計(jì)算帶來(lái)了另一種可能:即給模型推理時(shí)間的越長(zhǎng),其推理效果就越好。

OpenAI的最新o1模型標(biāo)志著使用諸如思維鏈和強(qiáng)化學(xué)習(xí)等技術(shù)向推理時(shí)間的邏輯推演轉(zhuǎn)變。o1模型通過(guò)試錯(cuò)學(xué)習(xí)最優(yōu)路徑,就像人類(lèi)解決問(wèn)題時(shí)涉及大量的自我反思和錯(cuò)誤糾正。這使得模型在復(fù)雜的推理任務(wù)中表現(xiàn)出色,例如數(shù)學(xué)、編程和科學(xué)查詢(xún)。

然而,這種能力是有代價(jià)的,o1的每token價(jià)格比GPT-4o高3-4倍。另一個(gè)類(lèi)似的模型是DeepSeek的R1-lite-preview。與o1的簡(jiǎn)明摘要不同,R1-Lite-Preview會(huì)實(shí)時(shí)向用戶(hù)展示其完整的鏈?zhǔn)剿季S過(guò)程。這種對(duì)推理時(shí)邏輯推演的日益重視可能會(huì)增加對(duì)低延遲計(jì)算的需求。

在提升模型推理能力方面,目前主要的難點(diǎn)是高密度監(jiān)督數(shù)據(jù),例如高難度的問(wèn)題和更詳細(xì)的思維鏈,這些數(shù)據(jù)在自然文本中占比很小,需要研究有效的構(gòu)造方法。

此外,推理能力目前的提升路徑依賴(lài)有效的強(qiáng)化學(xué)習(xí),在強(qiáng)化學(xué)習(xí)中如何提升模型的搜索效率,如何訓(xùn)練泛化且可靠的獎(jiǎng)勵(lì)模型以便于獲取反饋也是難點(diǎn)。

傳統(tǒng)上,監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)作為大模型訓(xùn)練的核心環(huán)節(jié),需要先通過(guò)人工標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,再結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化,這一范式曾被認(rèn)為是ChatGPT成功的關(guān)鍵技術(shù)路徑。

但是,DeepSeek-R1-Zero是首個(gè)完全摒棄了監(jiān)督微調(diào)環(huán)節(jié)、而完全依賴(lài)強(qiáng)化學(xué)習(xí)訓(xùn)練的大語(yǔ)言模型,證明了無(wú)監(jiān)督或弱監(jiān)督學(xué)習(xí)方法在提升模型推理能力方面的巨大潛力。

DeepSeek掀翻“AI牌桌”,三大拐點(diǎn)決定大模型未來(lái)

DeepSeek極低的訓(xùn)練成本預(yù)示著AI大模型的算力需求會(huì)加速?gòu)念A(yù)訓(xùn)練向推理側(cè)傾斜,推理有望接力訓(xùn)練,成為下一階段算力需求的主要驅(qū)動(dòng)力。

作為一種新的人工智能發(fā)展范式,“快慢結(jié)合”的背后是模擬人腦的系統(tǒng)1與系統(tǒng)2系統(tǒng)1是人腦的快速?zèng)Q策,反映的是長(zhǎng)期訓(xùn)練下的專(zhuān)業(yè)能力;系統(tǒng)2是慢系統(tǒng),體現(xiàn)的是深度思考下的泛化能力。

從“快思考”到“慢思考”,為大模型Scaling Law帶來(lái)了新的范式轉(zhuǎn)換。過(guò)去大模型的路徑是Next Token Prediction(這是一種自監(jiān)督學(xué)習(xí)技術(shù),模型被給予一系列token,并預(yù)測(cè)下一個(gè)。這種方法通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí)語(yǔ)言中的統(tǒng)計(jì)規(guī)律,從而生成或理解自然語(yǔ)言文本),但預(yù)測(cè)下一個(gè)詞有局限性,是一個(gè)靜態(tài)的數(shù)據(jù)集,沒(méi)辦法探索更難的任務(wù),接下來(lái)大模型的目標(biāo)是通過(guò)強(qiáng)化學(xué)習(xí)讓人工智能具備更強(qiáng)的思考能力。

大模型“瘦身”進(jìn)行時(shí)

OpenAI的火爆來(lái)自“大力出奇跡”路線,以規(guī)模作為大模型的制勝法寶可謂屢試不爽。但這也讓AI大模型的發(fā)展陷入了一個(gè)怪圈:為追求更高的性能,模型體積不斷膨脹,參數(shù)規(guī)模呈現(xiàn)指數(shù)級(jí)增長(zhǎng),算力和成本消耗驚人。

受大模型訓(xùn)練的高昂成本拖累,OpenAI在2024年的虧損額可能達(dá)到50億美元,業(yè)內(nèi)專(zhuān)家預(yù)計(jì)到2026年其虧損將進(jìn)一步攀升至140億美元。

而中國(guó)人工智能公司運(yùn)用剪枝、量化、知識(shí)蒸餾等一系列創(chuàng)新技術(shù),降低大模型的實(shí)際運(yùn)算負(fù)擔(dān),開(kāi)啟了大模型“瘦身”之路。

然而,這樣的策略也帶來(lái)了一個(gè)悖論:若大幅度削減大模型的參數(shù)量以適應(yīng)有限的計(jì)算資源,那么其原有的規(guī)模優(yōu)勢(shì)和豐富的表達(dá)能力將會(huì)削弱,從嚴(yán)格定義上可能就不再符合大模型的標(biāo)準(zhǔn)。

因此,如何在保持大模型強(qiáng)大功能的同時(shí),有效平衡算力需求與效率之間的關(guān)系,成為了該領(lǐng)域未來(lái)發(fā)展的重要課題。

以DeepSeek為例,R1在多個(gè)基準(zhǔn)測(cè)試中與美國(guó)OpenAI公司的o1持平,但成本僅為o1的三十分之一。模型性能的追趕速度也很快,OpenAI推出正式版o1模型是在2024年12月,僅僅1個(gè)多月后,DeepSeek就發(fā)布了性能相當(dāng)?shù)腞1模型。

DeepSeek掀翻“AI牌桌”,三大拐點(diǎn)決定大模型未來(lái)

在訓(xùn)練過(guò)程中,DeepSeek采用了推理數(shù)據(jù)集,進(jìn)一步篩選和提升了數(shù)據(jù)質(zhì)量,為模型提供了可靠的推理基礎(chǔ)。訓(xùn)練后期,通過(guò)蒸餾技術(shù)對(duì)模型進(jìn)行輕量化處理,使得模型更適合在消費(fèi)級(jí)顯卡上進(jìn)行本地部署,降低了對(duì)高端算力的需求,同時(shí)保留了較強(qiáng)的推理能力。

DeepSeek的成功證明,大模型創(chuàng)新不一定要依賴(lài)最先進(jìn)的硬件,而是可以通過(guò)聰明的工程設(shè)計(jì)和高效的訓(xùn)練方法實(shí)現(xiàn)。

與傳統(tǒng)的預(yù)訓(xùn)練不同,“知識(shí)蒸餾技術(shù)”是使用一個(gè)大型的“教師模型”來(lái)指導(dǎo)一個(gè)小型的“學(xué)生模型”的訓(xùn)練。用“蒸餾”方式訓(xùn)練小模型,不再直接從訓(xùn)練大模型時(shí)會(huì)用到的那些巨量數(shù)據(jù)中學(xué)習(xí)。

通俗來(lái)講,就像上課的時(shí)候老師講了一道爆難的題目,全班除了學(xué)霸以外,其他人因?yàn)槟X子的軟硬件配置不足,都沒(méi)搞懂。之后學(xué)霸在老師思路的基礎(chǔ)上,簡(jiǎn)化了若干個(gè)參數(shù)和步驟,使其對(duì)大腦軟硬件配置的要求下降,成功教會(huì)了全班大部分人。學(xué)霸做的這件事,就叫做蒸餾。

DeepSeek掀翻“AI牌桌”,三大拐點(diǎn)決定大模型未來(lái)

不過(guò),蒸餾技術(shù)存在一個(gè)巨大缺陷,就是被訓(xùn)練的“學(xué)生模型”沒(méi)法真正超越“教師模型”。因?yàn)楹?jiǎn)化會(huì)損失部分信息,如果損失的是關(guān)鍵信息那整個(gè)系統(tǒng)就崩塌了。實(shí)際上,全球幾乎所有大模型都試圖在做蒸餾,但效果都不太好,而DeepSeek可能是第一個(gè)效果良好接近原版的。

從信息技術(shù)發(fā)展歷史看,“輕量化”進(jìn)程也是大勢(shì)所趨。計(jì)算機(jī)曾是占據(jù)整個(gè)房間的大型機(jī),后來(lái)發(fā)展成可作為桌面設(shè)備的電腦,又進(jìn)化為便攜式筆記本。手機(jī)從早期的磚頭式“大哥大”,改進(jìn)為小巧的功能機(jī),又進(jìn)化至如今的智能終端。

大模型正在經(jīng)歷類(lèi)似的進(jìn)化過(guò)程。事實(shí)上,模型并非越大越好,而是越精越妙,把一些劣質(zhì)的數(shù)據(jù)從數(shù)據(jù)集中拿掉,模型性能可能會(huì)表現(xiàn)更好。

為了在減少參數(shù)的同時(shí)保持甚至提升模型性能,研究人員不得不深入挖掘模型架構(gòu)的優(yōu)化空間,探索更高效的算法和訓(xùn)練方法。這一過(guò)程推動(dòng)了人工智能基礎(chǔ)理論的發(fā)展,也為相關(guān)技術(shù)的跨領(lǐng)域應(yīng)用開(kāi)創(chuàng)了新局面。

如今,大模型的架構(gòu)正從大型單體系統(tǒng)演變?yōu)檩p量化、專(zhuān)業(yè)化的模型組成的分布式網(wǎng)絡(luò),這涉及到一個(gè)主模型協(xié)調(diào)這些專(zhuān)用模型之間的任務(wù)。而更好的壓縮技術(shù)和高質(zhì)量合成數(shù)據(jù)的使用,將有助于未來(lái)模型的輕量化和AI的普惠化。

Meta最近的研究表也表明,平行使用多個(gè)較小的模型可以持續(xù)超越單一的大型模型。這種方法類(lèi)似于人腦,人腦不是一個(gè)單一的均勻結(jié)構(gòu),而是由海馬體(記憶)、額葉(邏輯)和枕葉(視覺(jué))等專(zhuān)業(yè)化區(qū)域組成。

DeepSeek事件標(biāo)志著中美科技戰(zhàn)進(jìn)入“深水區(qū)”,這場(chǎng)博弈的終局或?qū)Q定未來(lái)數(shù)十年全球科技權(quán)力的格局。

在這樣的現(xiàn)象級(jí)產(chǎn)品出現(xiàn)之前,過(guò)去兩年多時(shí)間,由于AI業(yè)界對(duì)高性能顯卡的追逐,英偉達(dá)被一路推上王座。無(wú)論在資本市場(chǎng)還是產(chǎn)業(yè)鏈,這個(gè)邏輯似乎已經(jīng)確立,沒(méi)人料到DeepSeek橫空出世,硬生生攪了局。

這場(chǎng)沖擊波能持續(xù)多久,還是個(gè)未知數(shù)。DeepSeek的勢(shì)頭固然很猛,但能否彌合國(guó)產(chǎn)大模型與國(guó)際先進(jìn)水平之間的技術(shù)代差,仍然值得商榷。另外,DeepSeek通過(guò)算法優(yōu)化提升效率,是否就意味著對(duì)算力需求的明顯減弱,下結(jié)論也還太早。

不過(guò),DeepSeek的抗?fàn)帲瑹o(wú)疑是一個(gè)打破技術(shù)壟斷、重建數(shù)字秩序、重塑科技自信的重要機(jī)會(huì)窗口。我們既要肯定其取得的成就,但也要在狂熱中保持一份清醒。

誠(chéng)如DeepSeek創(chuàng)始人梁文鋒所言,中美真實(shí)的差距是“原創(chuàng)”和“模仿”之差。如果這個(gè)不改變,中國(guó)永遠(yuǎn)只能是追隨者,有些必要的探索和創(chuàng)新的成本是逃不掉的。英偉達(dá)的領(lǐng)先,不只是一個(gè)公司的努力,而是整個(gè)西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果。

在任何一個(gè)領(lǐng)域里,但凡有所成就者,都是長(zhǎng)期主義者,因?yàn)樗麄兏疫M(jìn)窄門(mén),愿走遠(yuǎn)路。只有突破“拿來(lái)主義”的慣性束縛、摒棄“先模仿再創(chuàng)新”的抄近路心態(tài),不再沉醉于短期泡沫帶來(lái)的快感,將技術(shù)原創(chuàng)奉為圭臬,才是中國(guó)人工智能企業(yè)需要走好的“華山一條路”。

更多精彩內(nèi)容,關(guān)注鈦媒體微信號(hào)(ID:taimeiti),或者下載鈦媒體App

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港