前幾天中國六代戰(zhàn)機(jī)曝光,外網(wǎng)鬧翻天了。這還不夠,這兩天中國大模型又出了新版本,致使海外 AI 社區(qū)刷屏。國內(nèi) AI 創(chuàng)業(yè)公司 DeepSeek發(fā)布了新的開源大模型,其參數(shù)量為6000多億,性能趕上了 GPT - 4o和Facebook的羊駝,但訓(xùn)練成本比它們降低了10倍,價格僅為它們的10%。該模型推出后,明顯能感覺到海外 AI 技術(shù)人才對中國 AI 技術(shù)的進(jìn)步,處于半震驚半懵狀態(tài)。網(wǎng)友評論整齊劃一,都在問中國人是如何做到的?Meta 的一位科學(xué)家驚嘆,DeepSeek 的訓(xùn)練像是黑科技。OpenAI 的一位創(chuàng)始團(tuán)隊成員稱,以前達(dá)到 DeepSeek 這種級別能力通常需16000個 GPU,而現(xiàn)在 DeepSeek 只用2000個 GPU,計算量減少了11倍,這證明 AI 算法還有很大優(yōu)化空間。
大家可能不太了解 DeepSeek 這家公司,雖然我們有合作,但我對其了解不深,于是用納米 AI 搜索查詢了一下。DeepSeek 中文名為深度求索,如名字所示,該公司一直低調(diào)行事,卻早有名氣。在硅谷,DeepSeek 被稱為來自東方的神秘力量。其背后是量化私募的巨頭幻方公司,2021 年為做量化交易囤了一萬張英偉達(dá) A100,當(dāng)時 ChatGPT 尚未出現(xiàn),大模型也未發(fā)布,如同 Meta 為搞元宇宙囤卡一樣,都機(jī)緣巧合趕上了 AI 浪潮,所以在其他巨頭鬧卡荒時,DeepSeek 手中有卡心中不慌。這家公司首次被人記住是因其發(fā)布 2.0 開源模型時提供了史無前例的性價比,模型推理成本降至每百萬個 token 約一元,約為 LLaMA的1/7、GPT 的1/70,故而 DeepSeek 被稱為 AI 界的拼多多,掀起國產(chǎn)大模型價格戰(zhàn),字節(jié)跳動、騰訊、百度、阿里紛紛降價。如今開發(fā)者能享大模型福利,DeepSeek 功不可沒。
為何今日要提及此事?過去我常說中美 AI 核心差距不大,約半年左右,主要差距在算力。因核心算法公開,多為工程化方法,模型也是開源的,差距實則不大,可很多人不信,一些專家還帶節(jié)奏,稱論 AI 實力美國領(lǐng)先,中國最多第二梯隊,美國遙遙領(lǐng)先,我對此不敢茍同。有人妄自菲薄還讓眾人灰心,長他人的志氣滅自己的威風(fēng),對中國 AI 產(chǎn)業(yè)發(fā)展無益。如今 DeepSeek 發(fā)布的模型有力回?fù)袅诉@些言論。微軟、臉書、谷歌都在朝著10萬卡集群做大模型訓(xùn)練時,DeepSeek 僅用2000個 GPU,花費不到600萬美金和兩個月時間,就做出一個與全球頂尖大模型能力對齊的開源大模型。有人質(zhì)疑說,新推的大模型是用國外模型知識蒸餾而來,但知識蒸餾方法人人可用,為何他人未做到?此次效率大幅提升,肯定是在底層架構(gòu)上有不同于其他巨頭的創(chuàng)新,DeepSeek 定有不為人知的訓(xùn)練方法和工程實踐方法。過去只有美國 AI 公司具備這種獨有能力,如今中國公司也逐漸掌握了。有人會說 DeepSeek 只是個例,缺乏說服力,能否說出更多先進(jìn)國產(chǎn)大模型?當(dāng)然可以。比如阿里的通義千問,其推出的千問2.5系列大模型,其中的700億參數(shù)版本,在視覺推理、數(shù)學(xué)和科學(xué)問題表現(xiàn)上與國外大模型相比毫不遜色,慢思考能力也逐漸提升。此外,王小川的百川智能近期推出的金融大模型在專業(yè)能力上超過了 GPT - 4o,這也證實了我之前對專業(yè)大模型的判斷,即在通用大模型基礎(chǔ)上結(jié)合專業(yè)領(lǐng)域知識訓(xùn)練,專業(yè)大模型能力可超越通用大模型,我們稱之為領(lǐng)域增強。360 在o1出現(xiàn)前就實現(xiàn)了慢思考能力,只是實現(xiàn)方法略有不同,360 打造的安全行業(yè)大模型能力也遙遙領(lǐng)先于 GPT - 4o?傊,希望觀看這篇文章的各位相信中國 AI 發(fā)展并不弱,不要被某些專家言論誤導(dǎo)。過去我們是模仿者和追隨者,他人擅長從零到一,我們擅長從一到 n,如今情況正轉(zhuǎn)變,中國科技領(lǐng)域原發(fā)性創(chuàng)新已讓全世界看到,過去是 “Copy to China”,以后可能是 “Copy from China”。
DeepSeek 公司表現(xiàn)出色,開了個好頭,今后我國 AI 創(chuàng)新定會更加活躍。借 DeepSeek 這個版本,我談幾點大模型發(fā)展的看法。第一,無需再爭論開源與閉源好壞,DeepSeek 是開源的,開源模型正趕超閉源模型。在人類技術(shù)發(fā)展趨勢中,開源可使大模型技術(shù)不被少數(shù)巨頭壟斷,唯有開源才能讓大模型真正走入各行各業(yè),讓各級政府和企業(yè)低成本在開源基座模型上打造行業(yè)應(yīng)用,推動生產(chǎn)力飛躍。所以 DeepSeek 的進(jìn)步對推動中國 AI 產(chǎn)業(yè)發(fā)展是極大利好。更令人振奮的是,中國正引領(lǐng)全球大模型開源浪潮,開源是互聯(lián)網(wǎng)精神的直接體現(xiàn),也是美國科技發(fā)展的源泉與機(jī)制。然而,現(xiàn)在中國最強的兩個模型通義千問和 DeepSeek 是開源的,美國最強的兩個模型Claude和GPT 卻是閉源的.可見美國走向閉源,中國走向開源,這預(yù)示著科技發(fā)展天平向中國傾斜,一旦中國開源生態(tài)建立,這種創(chuàng)新機(jī)制將助力中國加速 AI 科技發(fā)展,掌握先機(jī),實現(xiàn)從追趕者到引領(lǐng)者的華麗轉(zhuǎn)身。第二,DeepSeek 3.0版本用2000塊卡做到了萬卡集群才能做到的事,這表明我們在一定程度上打破了西方對我們的算力封鎖,堪稱奇跡。當(dāng)前美國想盡辦法對我們進(jìn)行小院高墻式的封鎖,遏制中國 AI 產(chǎn)業(yè)發(fā)展,禁止高端算力芯片流入中國。只有強大對手才能逼出最強的自己,若針對中國 AI 芯片的禁令,最終使中國大模型在算力受限情況下找到更高效解決方案,那這種適得其反的結(jié)果影響將更廣泛。此外,用這種極致訓(xùn)練方法訓(xùn)練專業(yè)大模型,算力成本會進(jìn)一步降低,促使中國 AI 在專業(yè)、垂直、場景、行業(yè)大模型上更快普及。第三,有人會問,如此一來我們是否還有必要建萬卡集群?不要誤解,我并非說中國 AI 發(fā)展不需要高端算力芯片,巨頭們囤顯卡建算力集群依舊必要,因為目前預(yù)訓(xùn)練算力需求或許沒那么大,但像慢思考這類復(fù)雜推理模型對推理算力需求大,文生圖、文生視頻的應(yīng)用也需消耗大量算力資源,巨頭們提供 AI 云服務(wù),構(gòu)建龐大算力基礎(chǔ)必不可少,這與 DeepSeek 降低訓(xùn)練算力需求是兩回事,兩者并不矛盾。建萬卡集群實際是個工程問題,做過一次便一通百通,所以馬斯克從 OpenAI 挖人建十萬卡集群,小米挖 DeepSeek 的天才少女,都是為獲取工程化的萬卡集群訓(xùn)練訣竅。作為科技行業(yè)的從業(yè)者,看到 DeepSeek 推出如此厲害的模型,中國 AI 公司憑借原發(fā)性技術(shù)創(chuàng)新震驚世界,讓曾經(jīng)輕視我們的外國開發(fā)者同行驚愕,各位是否感到暢快、自豪與感動?這絕對是中國 AI 產(chǎn)業(yè)發(fā)展的里程碑事件,我相信以后中國 AI 發(fā)展此類新聞會越來越多。大家應(yīng)對中國 AI 產(chǎn)業(yè)發(fā)展充滿信心。