展會信息港展會大全

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-06 10:48:50   瀏覽:159次  

導(dǎo)讀:AI如果想要真正賦能全人類,讓每個人都能夠用得上、用得起大模型和通用人工智能,那么高效性顯然是一個非常重要的命題。我們認(rèn)為智能革命顯然也要走過一條類似于信息革命的階段,不斷去提高能力密度,降低計(jì)算成本,讓大模型得以更加普惠!癉eepSeek R1的開源,讓全球的人能夠意識到深度思考的能力。這相當(dāng)于讓整個人工智能領(lǐng)域再次迎來了類似于2023年初ChatGPT的時刻,讓每個 ......

AI如果想要真正賦能全人類,讓每個人都能夠用得上、用得起大模型和通用人工智能,那么高效性顯然是一個非常重要的命題。

我們認(rèn)為智能革命顯然也要走過一條類似于信息革命的階段,不斷去提高能力密度,降低計(jì)算成本,讓大模型得以更加普惠。

“DeepSeek R1的開源,讓全球的人能夠意識到深度思考的能力。這相當(dāng)于讓整個人工智能領(lǐng)域再次迎來了類似于2023年初ChatGPT的時刻,讓每個人感受到大模型的能力又往前邁進(jìn)了一大步。但同時,我們也需要合理地評估DeepSeek本身的重要意義!鼻迦A大學(xué)長聘副教授劉知遠(yuǎn)日前在參與由中國計(jì)算機(jī)學(xué)會青年計(jì)算機(jī)科技論壇(CCF Young Computer Scientists & Engineers Forum,YOCSEF)策劃的直播活動中表示,這場直播的主題為“夜話DeepSeek:技術(shù)原理與未來方向”,共同參與話題討論的還有復(fù)旦大學(xué)教授邱錫鵬、清華大學(xué)教授翟季冬等。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

直播截圖

在這場直播中,劉知遠(yuǎn)分析了DeepSeek成功出圈帶來的啟示,并分析了大模型技術(shù)未來發(fā)展的趨勢。劉知遠(yuǎn)認(rèn)為,DeepSeek V3展示了如何用十分之一甚至更少的成本完成達(dá)到GPT-4和GPT-4o水平的能力,此外DeepSeek R1的出圈也證明了OpenAI犯了“傲慢之罪”它不開源,不公開技術(shù)細(xì)節(jié),且定價過高。

以下為劉知遠(yuǎn)在直播中的觀點(diǎn)實(shí)錄,經(jīng)本人同意發(fā)表:

今天我將從宏觀角度為大家介紹DeepSeek R1所代表的大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù),及其基本原理。同時,我們也會探討為什么DeepSeek R1能夠引起如此多的關(guān)注。

首先,我們來看DeepSeek最近發(fā)布的R1模型,它具有非常重要的價值。這種價值主要體現(xiàn)在DeepSeek R1能夠完美復(fù)現(xiàn)OpenAI o1的深度推理能力。

因?yàn)镺penAI o1本身并沒有提供關(guān)于其實(shí)現(xiàn)細(xì)節(jié)的任何信息,OpenAI o1相當(dāng)于引爆了一個原子彈,但沒有告訴大家秘方。而我們需要從頭開始,自己去尋找如何復(fù)現(xiàn)這種能力的方法。DeepSeek可能是全球首個能夠通過純粹的強(qiáng)化學(xué)習(xí)技術(shù)復(fù)現(xiàn)OpenAI o1能力的團(tuán)隊(duì),并且他們通過開源并發(fā)布相對詳細(xì)的介紹,為行業(yè)做出了重要貢獻(xiàn)。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

我們可以大致總結(jié)了DeepSeek R1的整個訓(xùn)練流程,它有兩個非常重要的亮點(diǎn)或價值。首先,DeepSeek R1創(chuàng)造性地基于DeepSeek V3基座模型,通過大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù),得到了一個純粹通過強(qiáng)化學(xué)習(xí)增強(qiáng)的強(qiáng)推理模型,即DeepSeek-R1-Zero。這具有非常重要的價值,因?yàn)樵跉v史上幾乎沒有團(tuán)隊(duì)能夠成功地將強(qiáng)化學(xué)習(xí)技術(shù)很好地應(yīng)用于大規(guī)模模型上,并實(shí)現(xiàn)大規(guī)模訓(xùn)練。DeepSeek能夠?qū)崿F(xiàn)大規(guī)模強(qiáng)化學(xué)習(xí)的一個重要技術(shù)特點(diǎn)是其采用了基于規(guī)則(rule-based)的方法,確保強(qiáng)化學(xué)習(xí)可以規(guī)模化,并實(shí)現(xiàn)面向強(qiáng)化學(xué)習(xí)的擴(kuò)展(Scaling),這是它的第一個貢獻(xiàn)。

DeepSeek R1的第二個重要貢獻(xiàn)在于其強(qiáng)化學(xué)習(xí)技術(shù)不僅局限于數(shù)學(xué)、算法代碼等容易提供獎勵信號的領(lǐng)域,還能創(chuàng)造性地將強(qiáng)化學(xué)習(xí)帶來的強(qiáng)推理能力泛化到其他領(lǐng)域。這也是用戶在實(shí)際使用DeepSeek R1進(jìn)行寫作等任務(wù)時,能夠感受到其強(qiáng)大的深度思考能力的原因。

這種泛化能力的實(shí)現(xiàn)分為兩個階段。首先,基于DeepSeek V3基座模型,通過增強(qiáng)推理過程的可讀性,生成了帶有深度推理能力的SFT(Supervised Fine-Tuning,監(jiān)督微調(diào))數(shù)據(jù)。這種數(shù)據(jù)結(jié)合了深度推理能力和傳統(tǒng)通用SFT數(shù)據(jù),用于微調(diào)大模型。隨后,進(jìn)一步通過強(qiáng)化學(xué)習(xí)訓(xùn)練,得到了具有強(qiáng)大泛化能力的強(qiáng)推理模型,即DeepSeek R1。

因此,DeepSeek R1的重要貢獻(xiàn)體現(xiàn)在兩個方面:一是通過規(guī)則驅(qū)動的方法實(shí)現(xiàn)了大規(guī)模強(qiáng)化學(xué)習(xí);二是通過深度推理 SFT數(shù)據(jù)與通用SFT數(shù)據(jù)的混合微調(diào),實(shí)現(xiàn)了推理能力的跨任務(wù)泛化。這使得DeepSeek R1能夠成功復(fù)現(xiàn)OpenAI o1的推理水平。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

所以,我們其實(shí)應(yīng)該非常重視DeepSeek R1。它由于開源,讓全球的人能夠意識到深度思考的能力,這相當(dāng)于讓整個人工智能領(lǐng)域再次迎來了類似于2023年初ChatGPT的時刻,讓每個人感受到大模型的能力又往前邁進(jìn)了一大步。但同時,我們也需要合理地評估DeepSeek本身的重要意義。

如果說2023年初OpenAI發(fā)布的ChatGPT讓全球看到了大模型非常重要的價值,那么這一次的強(qiáng)推理能力其實(shí)也是OpenAI在2024年9月發(fā)布的o1率先實(shí)現(xiàn)的。而DeepSeek R1,我們認(rèn)為它在歷史上更像是2023年Meta的LLaMA。它能夠通過開源復(fù)現(xiàn),并且把這些事情全部公開給全球,讓大家能夠快速地建立起相關(guān)能力,這是我們對DeepSeek R1及其重要意義的一個準(zhǔn)確認(rèn)識。

當(dāng)然,為什么說DeepSeek R1能夠取得如此全球性的成功呢?我們認(rèn)為這與OpenAI采用的一些策略有非常大的關(guān)系。OpenAI 在發(fā)布o(jì)1之后,首先選擇不開源,其次將o1深度思考的過程隱藏起來,第三是o1本身采用了非常高的收費(fèi)。這使得o1無法在全球范圍內(nèi)讓盡可能多的人普惠地感受到深度思考所帶來的震撼。

而DeepSeek R1則像2023年初OpenAI的ChatGPT一樣,讓所有人真正感受到了這種震撼,這是DeepSeek R1出圈的非常重要的原因。如果我們進(jìn)一步將DeepSeek發(fā)布的R1和之前的V3結(jié)合起來考慮,那么它的意義在于:在非常有限的算力資源支持下,通過強(qiáng)大的算法創(chuàng)新,突破了算力瓶頸,讓我們看到即使在有限的算力下,也能做出具有全球意義的領(lǐng)先成果。

這件事對中國AI的發(fā)展具有非常重要的意義。當(dāng)然,我們也應(yīng)該看到,AI如果想要真正賦能全人類,讓每個人都能夠用得上、用得起大模型和通用人工智能,那么高效性顯然是一個非常重要的命題。

而在這個方面,我們其實(shí)有非常多的話題可以去討論。除了剛才我和邱錫鵬老師提到的強(qiáng)化學(xué)習(xí)本身需要在未來探索更加高效的方案之外,我們還需要研究出更加高效的模型架構(gòu)。例如,V3所采用的MoE架構(gòu),未來應(yīng)該也會有許多其他相關(guān)的高效架構(gòu)方案。進(jìn)一步地,國浩和翟季冬老師稍后也會介紹高效的算力應(yīng)用等話題。

這其實(shí)也是DeepSeek V3和R1帶給我們的另一個非常重要的啟示。我們也會認(rèn)為,整個人工智能的發(fā)展在未來追求高效性是我們內(nèi)在的一個使命和需求。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

從這個方面,我想適當(dāng)展開一點(diǎn)來介紹。我們會看到上一次所謂的科技革命,也就是信息革命,其非常重要的內(nèi)核實(shí)際上是計(jì)算芯片的發(fā)展。在過去80年時間里,計(jì)算機(jī)從最初需要一個屋子才能裝得下的規(guī)模,發(fā)展到如今每個人手邊都有的手機(jī)、PC,以及各種各樣的計(jì)算設(shè)備,都可以在非常小的設(shè)備上完成非常強(qiáng)大的計(jì)算能力。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

所有這一切,其實(shí)都源于芯片行業(yè)在摩爾定律的指引下,不斷推進(jìn)芯片制程,提升芯片電路密度,從而實(shí)現(xiàn)計(jì)算設(shè)備的小型化和普惠化,推動算力的普及。這顯然是我們未來追求高效性的一個非常重要的內(nèi)在需求。

這也是為什么我們在去年特別強(qiáng)調(diào)要發(fā)展大模型的能力密度。實(shí)際上,過去幾年我們也能看到類似摩爾定律的現(xiàn)象:大模型的能力密度正以時間的指數(shù)級增強(qiáng)。從2023年以來,大模型的能力密度大約每100天翻一倍,也就是說,每過100天,我們只需要一半的算力和一半的參數(shù)就能實(shí)現(xiàn)相同的能力。

因此,我們相信,面向未來,我們應(yīng)該不斷追求更高的能力密度,努力以更低的成本包括訓(xùn)練成本和計(jì)算成本來實(shí)現(xiàn)大模型的高效發(fā)展。 從這一點(diǎn)來看,我們顯然可以看到,如果按照能力密度的發(fā)展趨勢,我們完全可以實(shí)現(xiàn)每100天用一半的算力和一半的參數(shù),達(dá)到相同的模型能力。而推動這件事情,應(yīng)當(dāng)是我們未來發(fā)展的使命。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

所以,如果我們對標(biāo)上一個科技革命也就是信息革命,顯然對我們即將到來的智能革命有著非常重要的啟示。實(shí)際上,在信息革命剛剛開始的時候,IBM的創(chuàng)始人沃森曾認(rèn)為,世界上不需要超過五臺主機(jī)就可以滿足全世界的計(jì)算需求。但到了今天,我們可以看到全球有數(shù)十億、上百億的計(jì)算設(shè)備在服務(wù)于全人類的社會。

因此,我們認(rèn)為智能革命顯然也要走過一條類似于信息革命的階段,不斷去提高能力密度,降低計(jì)算成本,讓大模型得以更加普惠。所以,我們會認(rèn)為AI時代的這些核心引擎,包括電力、算力以及大模型所代表的智力,這種密度定律應(yīng)該是普遍存在的。我們需要不斷地通過高質(zhì)量、可持續(xù)的方式去實(shí)現(xiàn)大模型的普惠,這應(yīng)該是我們未來的發(fā)展方向。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

面向未來,我們認(rèn)為人工智能有三大主戰(zhàn)場,它們的目標(biāo)都是讓通用人工智能達(dá)到頂尖水平。首先,我們要探索人工智能的科學(xué)化技術(shù)方案,實(shí)現(xiàn)更科學(xué)、更高效的人工智能實(shí)現(xiàn)方式。其次,我們要實(shí)現(xiàn)計(jì)算系統(tǒng)的智能化,能夠在計(jì)算層面以更低的成本、更通用地將大模型應(yīng)用于各個領(lǐng)域。最后,我們也要在各個領(lǐng)域探索人工智能的廣譜化應(yīng)用。

以下是觀眾提問環(huán)節(jié):

OpenAI犯了“傲慢之罪”

Q: DeepSeek的成功因素里,最有亮點(diǎn)的一個技術(shù)是什么?

劉知遠(yuǎn):我覺得主要有兩條啟示:DeepSeek V3給我們的重要啟示在于,它展示了如何用1/10甚至更少的成本完成達(dá)到GPT-4和GPT-4o水平的能力。DeepSeek V3在底層算力加速方面做了大量工作。但更重要的是,翟老師特別強(qiáng)調(diào)了DeepSeek V3實(shí)現(xiàn)了算法和底層軟硬件的協(xié)同優(yōu)化。這種一體化優(yōu)化機(jī)制讓大家看到,即使成本已經(jīng)很低,但仍然可以通過優(yōu)化進(jìn)一步降低成本。雖然V3的成本仍然是幾百萬美元甚至幾千萬美元,但相比國際上公認(rèn)的水平,已經(jīng)低得多。這也是英偉達(dá)股價下降的一個重要原因。

DeepSeek R1的啟示在于,OpenAI犯了“傲慢之罪”它不開源,不公開技術(shù)細(xì)節(jié),且定價過高。而DeepSeek的R1則開源且免費(fèi),讓全球用戶都能使用,并且公開了所有技術(shù)細(xì)節(jié)。這使得DeepSeek在歷史上占據(jù)了原本應(yīng)該屬于OpenAI的位置,就像當(dāng)年的ChatGPT一樣。DeepSeek通過極致優(yōu)化有限資源,成功追趕上了國際最先進(jìn)的模型,我覺得干的非常漂亮,并且通過開源讓全球都認(rèn)識到中國團(tuán)隊(duì)的創(chuàng)新能力。

Q:為什么DeepSeek的 R1模型在這個時間點(diǎn)出現(xiàn)?之前有沒有基于基礎(chǔ)模型直接做強(qiáng)化學(xué)習(xí)的嘗試?之前也有模型在思維鏈上做過類似工作,為什么DeepSeek的R1模型會如此出圈?

劉知遠(yuǎn):我覺得這件事情還是具有一定的必然性。大概在2024年的時候,很多投資人,甚至一些不從事人工智能領(lǐng)域的人,會來問我:中國的AI和美國的AI相比,到底是差距變大了還是變小了?我當(dāng)時明確表示,我們認(rèn)為中國正在非?焖俚刈汾s,與美國最先進(jìn)的技術(shù)之間的差距正在逐漸縮小。盡管我們面臨一些限制,但這種追趕是顯而易見的。

一個重要的現(xiàn)象可以驗(yàn)證這一點(diǎn):2023年初ChatGPT和后面GPT-4發(fā)布后,國內(nèi)團(tuán)隊(duì)復(fù)現(xiàn)這兩個版本的模型大概都花了一年時間。2023年底,國內(nèi)團(tuán)隊(duì)復(fù)現(xiàn)了ChatGPT水平的模型能力;2024年四五月份,一線團(tuán)隊(duì)復(fù)現(xiàn)了GPT-4水平的能力。但隨后你會發(fā)現(xiàn),像Sora、GPT-4o這樣的模型,基本上都是國內(nèi)團(tuán)隊(duì)在大約半年內(nèi)完成復(fù)現(xiàn)的。這意味著,像o1這樣的模型能力,國內(nèi)團(tuán)隊(duì)在半年左右復(fù)現(xiàn)是可預(yù)期的。

DeepSeek本身非常出色,其價值不僅在于能夠復(fù)現(xiàn),還在于它以極低的成本做到了這一點(diǎn)。這是它的獨(dú)到之處,也是它脫穎而出的原因。但無論如何,國內(nèi)一線團(tuán)隊(duì)能夠在半年左右復(fù)現(xiàn)o1水平的模型能力,我認(rèn)為這是可以預(yù)期的。DeepSeek能夠更快、更低成本、更高效地完成這項(xiàng)工作,這是它的巨大貢獻(xiàn)。從這個角度看,我認(rèn)為有一定的必然性。

當(dāng)然,DeepSeek能夠達(dá)到這樣的出圈效果,也離不開它自身團(tuán)隊(duì)的長期積累,這正如剛才邱錫鵬老師提到的那樣。

Q:(評論區(qū)問題)剛剛知遠(yuǎn)老師 PPT 里提到的能力密度是如何定義的?它的內(nèi)在原因是什么?

劉知遠(yuǎn):這個“能力密度”的概念是我們最近半年提出的。關(guān)于如何有效地、準(zhǔn)確地衡量能力密度,大家可以參考我們發(fā)表在arxiv 上的論文,論文題目是《Densing law of LLMs》。

所謂的能力密度,可以理解為模型在各種評測集上展現(xiàn)出來的能力,除以其參數(shù)規(guī)模,或者說是激活的參數(shù)規(guī)模。我們觀察過去一年半發(fā)布的代表性模型,發(fā)現(xiàn)其能力密度大約每100天增加一倍。這意味著每過100天,我們可以用一半的參數(shù)實(shí)現(xiàn)相同的能力。這一現(xiàn)象背后有多個因素影響:

1數(shù)據(jù)質(zhì)量:更高的數(shù)據(jù)質(zhì)量取決于數(shù)據(jù)治理。高質(zhì)量的數(shù)據(jù)能夠提升模型的訓(xùn)練效果。

2模型架構(gòu):采用更稀疏激活的模型架構(gòu),可以用更少的激活參數(shù)承載更多的能力。

3學(xué)習(xí)方法:包括OpenAI在內(nèi)的所有一線團(tuán)隊(duì)都在開展所謂的“scaling prediction”。在真正訓(xùn)練模型之前,我們會進(jìn)行大量的風(fēng)洞實(shí)驗(yàn),積累各種預(yù)測數(shù)據(jù),以確定模型需要什么樣的數(shù)據(jù)配比和超參配置,從而達(dá)到最佳效果。

綜合這些因素,模型可以用更少的參數(shù)承載更多的能力。我們將這一現(xiàn)象類比為芯片行業(yè)的摩爾定律。摩爾定律告訴我們,每18個月,芯片上的電路密度會增加一倍。這一過程是通過不斷的技術(shù)發(fā)展實(shí)現(xiàn)的。

進(jìn)一步結(jié)合剛才翟老師和國浩老師提到的底層算力優(yōu)化,我們可以將這種優(yōu)化映射到模型訓(xùn)練階段,從而極大地降低成本。當(dāng)然,我們并不是說DeepSeek的算力可以用1/10的成本實(shí)現(xiàn)與國外模型相同的能力,但這與Densing law(能力密度定律)有一定的重疊。

Densing Law更多地強(qiáng)調(diào)模型密度的不斷提高,這不僅體現(xiàn)在訓(xùn)練階段成本的降低,也體現(xiàn)在推理階段。模型可以用更低的推理成本和更快的推理速度完成相同的能力。我們認(rèn)為,未來AI的發(fā)展一定會沿著這條路線前進(jìn)。過去幾年的發(fā)展也在不斷驗(yàn)證這一點(diǎn)。一個直觀的體驗(yàn)是,像OpenAI這樣的公司,其API模型的價格(例如 ChatGPT 水平的模型和GPT-4水平的模型)在過去幾年中快速下降。這不僅僅是因?yàn)閮r格戰(zhàn),而是因?yàn)樗鼈兛梢杂酶俚馁Y源實(shí)現(xiàn)相同的能力,從而以更低的成本提供服務(wù)。

我們認(rèn)為,高效性是未來AI發(fā)展的一個重要方向,也是我們迎來智能革命的一個重要前提。

Q: MoE架構(gòu)會是通向AGI道路上的最優(yōu)解嗎?

劉知遠(yuǎn):我的個人感覺是,其實(shí)沒有人永遠(yuǎn)是對的。

在2023年初,OpenAI發(fā)布ChatGPT時,它做對了;它發(fā)布GPT-4時,也做對了。但當(dāng)它發(fā)布o(jì)1時,它做錯了它沒有開源,定價策略也出現(xiàn)了失誤。這反而成就了DeepSeek。我也不認(rèn)為DeepSeek選擇了MoE架構(gòu),MoE就永遠(yuǎn)是正確的。沒有任何證據(jù)證明MoE是最優(yōu)的模型架構(gòu)。

從學(xué)術(shù)角度和AI未來發(fā)展的角度來看,我認(rèn)為這是一個開放性的問題。未來如何實(shí)現(xiàn)高效性?我認(rèn)為一定是模塊化和稀疏激活的,但具體如何稀疏激活、如何模塊化?我覺得這件事情本身應(yīng)該是百花齊放的。我們應(yīng)該保持開放性,鼓勵學(xué)生和從業(yè)者像DeepSeek一樣努力去探索創(chuàng)新。

所以,我本身不太認(rèn)為MoE有任何絕對的壁壘,或者它一定是最優(yōu)的方法。

DeepSeek所做的工作可能也是“摸著OpenAI過河”

Q:DeepSeek技術(shù)的爆發(fā),對于中國大模型未來發(fā)展道路有哪些啟示?

劉知遠(yuǎn):首先,我覺得特別值得敬佩的是DeepSeek團(tuán)隊(duì)的技術(shù)理想主義。因?yàn)闊o論是看他們的訪談還是其他資料,你會發(fā)現(xiàn),那些訪談其實(shí)是在DeepSeek大火之前很久接受的,內(nèi)容非常真實(shí),能夠反映他們內(nèi)在的底層邏輯。從這一點(diǎn)上,我們可以感受到DeepSeek是一個非常具有技術(shù)理想主義的團(tuán)隊(duì),以實(shí)現(xiàn) AGI 作為夢想來組建這個團(tuán)隊(duì)。我覺得這一點(diǎn)是非常值得敬佩的。

我覺得同時也會看到,DeepSeek的梁文峰之前做量化投資,本身投入自己的資金來開展項(xiàng)目,沒有資金上的困擾。那么相對應(yīng)地,我覺得中國應(yīng)該為這樣的技術(shù)理想主義團(tuán)隊(duì)提供支持,哪怕他們沒有足夠的資金,也能讓他們沒有后顧之憂地去進(jìn)行探索。我覺得中國已經(jīng)到了這樣的階段,需要有更多像DeepSeek這樣的團(tuán)隊(duì),但又不像DeepSeek這樣有資金。能否讓他們踏踏實(shí)實(shí)地去做一些原始創(chuàng)新,做一些出色的工作,這是我覺得非常值得我們思考的第一點(diǎn)。

第二點(diǎn),我覺得是他們的執(zhí)行力。DeepSeek今年這兩個月一炮而紅,大家會覺得很厲害,但實(shí)際上,這是經(jīng)過了多年持續(xù)積累的結(jié)果。我們看到的是他們不斷積累的進(jìn)步,量變最終產(chǎn)生了質(zhì)變。我可以告訴大家,幾年前,幻方就拿著免費(fèi)算力去吸引我們的學(xué)生,與他們建立聯(lián)系。當(dāng)然,也有學(xué)生畢業(yè)后加入了DeepSeek。所以,這是他們多年努力的結(jié)果。我認(rèn)為這也是技術(shù)理想主義推動下的長期主義成果。我覺得國內(nèi)應(yīng)該有更多的團(tuán)隊(duì),能夠坐得住冷板凳,更加聚焦,在一些重要問題上持續(xù)發(fā)力,做出有意義的工作。

DeepSeek發(fā)展到今天,我認(rèn)為他們所做的工作可能也是在“摸著OpenAI過河”,以O(shè)penAI為榜樣,去探索AGI的實(shí)現(xiàn)路徑,并努力去做他們認(rèn)為正確的事情。這個過程非常困難,尤其是隨著OpenAI變得越來越封閉,o1復(fù)現(xiàn)的難度比當(dāng)年的ChatGPT更大。但我們會看到,只要有理想和執(zhí)行力,他們就能做到。所以在我看來,國內(nèi)應(yīng)該有更多的團(tuán)隊(duì)去學(xué)習(xí)。具體的技術(shù)當(dāng)然是我們應(yīng)該學(xué)習(xí)的一部分,但我覺得應(yīng)該避免認(rèn)為因?yàn)镈eepSeek成功了,所以他們所做的一切都是對的。我覺得不一定他們所用的所有技術(shù)都是最先進(jìn)的。我覺得沒有必要因?yàn)镈eepSeek這次成功用了這樣那樣的技術(shù),就認(rèn)為它們?nèi)际菍Φ摹N矣X得這反而會限制我們的創(chuàng)新。我覺得我們應(yīng)該學(xué)習(xí)的是他們的理想,學(xué)習(xí)的是他們的堅(jiān)持,學(xué)習(xí)的是他們的方法論。這是我想分享的第二點(diǎn)。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港