展會信息港展會大全

對著3個中國AI大模型,兩個美國科技界大佬深聊了半小時
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-04 11:17:39   瀏覽:0次  

導讀:智東西(公眾號:zhidxcom)作者 | 徐豫編輯 | 云鵬智東西12月3日消息,當前AI行業(yè)快速發(fā)展,競爭也越來越激烈,特別是各種高級推理模型之間的競爭。過去一段時間,中國科技公司陸續(xù)發(fā)布了3款自研的AI模型,分別是DeepSeek(深度求索)的Deepseek R1、阿里巴巴的Marco-1以及香港中文大學與商湯科技的聯(lián)合實驗室MMLab的OpenMMLab混合模型。這些新AI模型在性能和可訪問性上媲美Op ......

智東西(公眾號:zhidxcom)

作者 | 徐豫

編輯 | 云鵬

智東西12月3日消息,當前AI行業(yè)快速發(fā)展,競爭也越來越激烈,特別是各種高級推理模型之間的競爭。

過去一段時間,中國科技公司陸續(xù)發(fā)布了3款自研的AI模型,分別是DeepSeek(深度求索)的Deepseek R1、阿里巴巴的Marco-1以及香港中文大學與商湯科技的聯(lián)合實驗室MMLab的OpenMMLab混合模型。這些新AI模型在性能和可訪問性上媲美OpenAI的預覽版推理模型o1-preview,同時也反映了OpenAI等AI大模型巨頭比預期更早受到開源創(chuàng)新的沖擊。

今年9月中旬,OpenAI發(fā)布o1-preview的同時,還為AI模型執(zhí)行復雜推理任務設(shè)立了新的基準。該公司預計最快于下周發(fā)布其o1系列模型的滿血版,但現(xiàn)在看來,OpenAI自證o1系列模型仍遙遙領(lǐng)先的壓力越來越大。目前,該公司的估值已高達1570億美元,并放言要實現(xiàn)AGI(通用人工智能),這些都給其領(lǐng)導層帶來了不小的壓力。

AI模型性能乃至整個AI行業(yè)都處于高速創(chuàng)新的快車道上。去年,OpenAI GPT-4的首發(fā)比Anthropic Claude 2足足早了5個月。然而,今年o1-preview只比同行早發(fā)了兩個半月,時間優(yōu)勢大幅收縮。

這一開源舉措也印證了該領(lǐng)域的其他玩家,諸如開源實驗室AI2的OLMo 2模型和開源模型服務公司Nous Research的Nous Forge模型,也能通過與OpenAI閉源不同的道路,來擴大先進AI技術(shù)的可訪問性。

11月28日,圍繞上述3款中國自研AI模型的開源水平、AI2的OLMo 2模型的特點和OpenAI未來幾周內(nèi)可能會采取的應對措施,美國知名科技媒體VentureBeat創(chuàng)始人兼CEO馬特馬歇爾(Matt Marshall)對話谷歌機器學習開發(fā)專家薩姆維特維奇(Sam Witteveen),倆人共同分享了他們的分析和判斷。

以下是此次訪談部分內(nèi)容的編譯(為提高可讀性,智東西在不違背原意的前提下進行了一定的增刪修改):

一、快速發(fā)展的中國開源模型,對o1-preview構(gòu)成挑戰(zhàn)

Matt Marshall:中國開源模型的興起正在挑戰(zhàn)OpenAI o1-preview的地位,你怎么看?

Sam Witteveen:中國的DeepSeek(深度求索)公司基本上放棄了他們名為R1的AI模型。這是該公司嘗試推出的一款AI推理模型。我試用過這款模型,給我留下了深刻的印象,它接近于OpenAI已經(jīng)上線的o1-preview和o1-mini。o1的完整版模型還未發(fā)布。

從那時起,我們看到中國其他的AI模型開發(fā)商陸續(xù)推出了類似的模型。因此,我認為真正重要的不僅僅是這些模型本身,這些模型非常好,而真正有意思的一點是DeepSeek稱他們會開源模型權(quán)重,或者公開發(fā)布模型權(quán)重。希望在接下來的一周到兩周內(nèi),我們能夠看到該模型權(quán)重,并開始上手使用它。

同時,我認為這其中還有另一個有意思的現(xiàn)象,那就是開源模型是如何追趕專有技術(shù)模型的。在我看來,這也是OpenAI在今年9月發(fā)布o1-preview的原因。目前只有o1-mini和o1-preview,我們都在等待o1模型的完整版。有消息說今年的感恩節(jié)(11月28號)后,OpenAI將發(fā)布滿血版的o1模型。

那么,o1滿血版是否會大幅推動OpenAI的發(fā)展,還是說現(xiàn)階段部分中國科技公司已經(jīng)復刻了這些專有技術(shù)公司實際使用的模型?我認為這是AI領(lǐng)域非常重要的一次進展,讓我們拭目以待。

Matt Marshall:DeepSeek是一家來自中國的量化對沖基金公司,已經(jīng)成立了有一段時間了,但由于該公司具有AI方面的專業(yè)知識,因此我認為DeepSeek是幾家有1萬個GPU并且能夠完成這部分工作的公司之一。

不過,OpenAI一直在說他們已經(jīng)領(lǐng)先了,其CEO薩姆阿爾特曼(SamAltman)11月27日才在播客中說將會在2025年實現(xiàn)AGI。他們用這種說辭吸引了不少人,

但在我看來,這種說法已經(jīng)開始變得有點過時了。OpenAI過去曾擁有強大的領(lǐng)導力,但現(xiàn)在其領(lǐng)先優(yōu)勢已經(jīng)不復存在了。換句話說,如果他們?nèi)匀幻黠@領(lǐng)先,應該能夠再次證明這一點。

二、基于思維鏈,推理模型能自查并糾正“strawberry”

Matt Marshall:涉及到開發(fā)方面,你認為這些模型方面的變化對開發(fā)應用程序來說意味著什么?

我們討論過AI模型已有太多的榮耀,上周還討論過Agentic AI的發(fā)展透露出AI模型的價值越來越小。對于你那邊的開發(fā)人員來說這又意味著什么?為什么你仍然對這些大模型感到興奮?

Sam Witteveen:我覺得你說的完全正確。隨著AI模型整體都越來越強大,你所需要一個AI模型去完成的事項或技能,現(xiàn)在幾乎所有市面上的AI模型都可以做得到。

本周AI2推出的OLMo 2也是很有趣的一款AI模型,它實際上是一個完全開源的AI模型。那么,這其中有什么區(qū)別呢?一個完全開源的版本意味著他們不僅提供了模型權(quán)重,還同時提供了訓練代碼、數(shù)據(jù)集和所有他們采用的設(shè)置,有了這些,你就可以復制這一個AI模型。

你可以想象到很多組織會喜歡這種形式,因為他們可以查看數(shù)據(jù)集的內(nèi)容,從而發(fā)現(xiàn)是否有任何受版權(quán)保護的材料,或者是否與他們公司的立場相沖突。

對著3個中國AI大模型,兩個美國科技界大佬深聊了半小時

這款名為OLMo 2的AI模型采用了一種更恰到好處的開源方式。我們過往談論的大部分開源的AI模型版本都屬于開放模型權(quán)重的類型,就是雖然我們拿到了該AI模型,但并沒有獲得其訓練數(shù)據(jù)、訓練腳本等資料。

但是,這些來自中國的開源AI模型,大部分都獲得了許可證。就像DeepSeek R1發(fā)布后,我們可以看到它的許可證是怎么樣的,公司是否能夠直接使用它,使用后是否能獲得良好的結(jié)果,以及是否能夠針對特定用例微調(diào)該模型?我們暫且還不清楚他們具體是如何訓練的,如何進行所謂的測試時間計算。

這些模型與你之前談到的GPT-4、GPT-3模型之間的區(qū)別在于,前者在實際進行推理時會花費更多的計算量,這是由于該模型一直在推理。過往的那些模型只有在訓練時才會花費較多的計算量,一旦訓練完成,他們將使用更少、更一致的計算量。

不同的是,這些推理模型會消耗更多的計算量,并且它們可以自我迭代。這也是人們將它們稱之為推理模型的原因。它們會思考用戶的需求,然后緊接著會不斷回過頭來重新思考并自行完善它們給出的答案,從而改善輸出結(jié)果。從中可以看出,這些推理模型有很長的思考鏈路,我們現(xiàn)在把這個過程叫作“思維鏈”。

Matt Marshall:我看到了有部分開發(fā)人員測試了DeepSeek R1的“思維鏈”能力。例如,讓它計算草莓(strawberry)英文單詞中R字母的數(shù)量,你可以看到它的推理過程。一般來說,當你要計算該單詞中R字母的數(shù)量時,它可能會轉(zhuǎn)變兩三中答法,隱蔽性比較強。而DeepSeek的R1能做到,OpenAI的o1卻做不到。

OpenAI說他們不想公布所有的思維鏈,這可能是出于競爭原因,但同時我認為他們不想透露有偏差的情況。如果將推理過程展示出來,你就可以看到模型具體哪個地方出錯了,那么你也可以重新輸入提示。而且開發(fā)人員和用戶,也可以弄清楚問題并改進這一點。因此事實上,在集群規(guī)模較小的前提下,中國這方面確實做得更好。

不過,有一些人說你可以使用許多技巧,例如你所使用的tokens數(shù)量、計算量,會對推理效率產(chǎn)生較大影響。我之前和Cap Gemini的生成式AI執(zhí)行副總裁史蒂夫瓊斯(Steve Jones)討論過這件事情。他們與許多企業(yè)合作使用生成式AI。

瓊斯說,他基本上都在使用ETIC框架,該框架將正確的Lang圖與一些計劃和執(zhí)行框架混合在一起。根據(jù)他的經(jīng)驗,這樣做將輕松擊敗o1-preview,以及上述任何一種模型。

Sam Witteveen:確實,當o1問世時,我做過一個“窮人版”o1測試。我自己創(chuàng)建了一些模型,其中包括一個Agentic版本和一個小模型版本。我訓練或者微調(diào)它們,以便與o1對齊。我發(fā)現(xiàn),Agentic版本更安全,這是由于你可以在里面設(shè)置檢查、驗證、制衡等環(huán)節(jié)。外加一個類似于R1這種模型,你就擁有了兩全其美的方法。

在草莓英文單詞R字母的計數(shù)實驗中,我拋給R1的第一個測試是當我拼錯了四個字母R時,R1怎么回答“數(shù)一數(shù)你知道的草莓英文單詞中的R字母的數(shù)量(How many r’s in ‘strawberry)”。當然,結(jié)果是它仍能夠正確識別并回答出有4個R字母。

三、整合多家模型能力,用一個系統(tǒng)定制專業(yè)領(lǐng)域模型

Matt Marshall:總部位于美國舊金山的Fireworks AI于11月18日發(fā)布了一個專門從事復雜推理的復合AI模型,雖然它沒有針對o1-preview進行基準測試,但它對標GPT-4o。另外,中國的阿里巴巴和

OpenMMLab同樣發(fā)布了對標o1-preview的模型版本。這其中你認為有哪些值得關(guān)注的事情呢?

Sam Witteveen:還有一家位于美國舊金山的創(chuàng)企也在微調(diào)大模型等方面做了許多事情,并建立了良好的口碑。這家名為Nous Research的開源模型服務公司推出了一款模型Nous Forge。據(jù)我了解,他們的方法更適合做代理這種事情,例如你可以更換任何模型,這意味著他們的系統(tǒng)不一定是圍繞某個單一的模型建立的,而是可以整合當時你需要的或者你發(fā)現(xiàn)的一個新模型。

在我看來,所有這些AI模型未來都將朝著類似的方向發(fā)展,即使我們還沒有看到完整版的o1。如果o1最終呈現(xiàn)的效果比這些模型都要好,那將十分有趣。但與此同時,其可能需要花費更多時間來推理。因此,我認為他們不會局限于開發(fā)商用的標準模型,而是會面向科學發(fā)現(xiàn)、癌癥治療等領(lǐng)域開發(fā)更多的模型。

人們正在研究如何從OpenAI中至少實現(xiàn)其中一些想法。現(xiàn)在,也許我們還沒有像OpenAI那樣完整的秘密來源,也許他們還有更有趣的東西要來。你可以設(shè)想一下,未來我們不介意等待模型“思考”一周的時間,看看它是否會生成某種更加深入或創(chuàng)新的結(jié)果,F(xiàn)在關(guān)鍵在于o1到底能達到哪種程度。

來源:VentureBeat

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港