展會(huì)信息港展會(huì)大全

訓(xùn)練成本不到50美元,研究人員打造出媲美 OpenAI o1 的推理模型
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-06 10:50:21   瀏覽:243次  

導(dǎo)讀:IT之家 2 月 6 日消息,一份上周五發(fā)布的研究報(bào)告顯示,斯坦福大學(xué)和華盛頓大學(xué)的人工智能研究人員僅花費(fèi)不到 50 美元(IT之家備注:當(dāng)前約 364 元人民幣)的云計(jì)算費(fèi)用,就成功訓(xùn)練出一個(gè)具備“推理”能力的人工智能模型。該模型名為 s1,在數(shù)學(xué)和編程能力測(cè)試中表現(xiàn)出與 OpenAI 的 o1 和 DeepSeek 的 r1 等頂尖推理模型相似的水平。目前,s1 模型及其訓(xùn)練所用的數(shù)據(jù)和代碼已 ......

IT之家 2 月 6 日消息,一份上周五發(fā)布的研究報(bào)告顯示,斯坦福大學(xué)和華盛頓大學(xué)的人工智能研究人員僅花費(fèi)不到 50 美元(IT之家備注:當(dāng)前約 364 元人民幣)的云計(jì)算費(fèi)用,就成功訓(xùn)練出一個(gè)具備“推理”能力的人工智能模型。

該模型名為 s1,在數(shù)學(xué)和編程能力測(cè)試中表現(xiàn)出與 OpenAI 的 o1 和 DeepSeek 的 r1 等頂尖推理模型相似的水平。目前,s1 模型及其訓(xùn)練所用的數(shù)據(jù)和代碼已在 GitHub 上開(kāi)源。

訓(xùn)練成本不到50美元,研究人員打造出媲美 OpenAI o1 的推理模型

s1 團(tuán)隊(duì)表示,他們通過(guò)“蒸餾”技術(shù)創(chuàng)建了該人工智能模型,該技術(shù)旨在通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí)另一個(gè)人工智能模型的答案,從而提取其“推理”能力。研究人員透露,s1 是從谷歌的推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸餾出來(lái)的。上個(gè)月,加州大學(xué)伯克利分校的研究人員也使用了相同的蒸餾方法,以約 450 美元的成本創(chuàng)建了一個(gè)人工智能推理模型。

類似 s1 模型的出現(xiàn)也引發(fā)了關(guān)于人工智能模型商品化的問(wèn)題  如果有人可以用相對(duì)較低的成本就能復(fù)制一個(gè)價(jià)值數(shù)百萬(wàn)美元的模型,那么大型科技公司的“護(hù)城河”在哪里呢?

不出所料,大型人工智能實(shí)驗(yàn)室對(duì)此并不滿意,例如 OpenAI 此前就指責(zé) DeepSeek 不當(dāng)獲取其 API 數(shù)據(jù)用于模型蒸餾。

s1 的研究人員希望找到實(shí)現(xiàn)強(qiáng)大推理性能和“測(cè)試時(shí)擴(kuò)展”(即允許人工智能模型在回答問(wèn)題之前進(jìn)行更多思考)的最簡(jiǎn)單方法,這些是 OpenAI 的 o1 中的一些突破。

s1 的論文表明,可以使用一種稱為監(jiān)督微調(diào)(SFT)的方法,可以使用相對(duì)較小的數(shù)據(jù)集來(lái)蒸餾推理模型。在 SFT 中,人工智能模型會(huì)被明確指示在數(shù)據(jù)集中模仿某些行為。SFT 比 DeepSeek 用于訓(xùn)練其 R1 模型的大規(guī)模強(qiáng)化學(xué)習(xí)方法更具成本效益。

谷歌通過(guò)其 Google AI Studio 平臺(tái)免費(fèi)提供 Gemini 2.0 Flash Thinking Experimental 模型的訪問(wèn)權(quán)限,但每天有使用限制。然而,其條款禁止對(duì)模型進(jìn)行逆向工程,以開(kāi)發(fā)與谷歌自身人工智能產(chǎn)品競(jìng)爭(zhēng)的服務(wù)。

S1 基于阿里巴巴旗下中國(guó)人工智能實(shí)驗(yàn)室 Qwen 提供的一款小型、現(xiàn)成的免費(fèi)人工智能模型。為了訓(xùn)練 s1,研究人員創(chuàng)建了一個(gè)僅包含 1000 個(gè)精心策劃的問(wèn)題的數(shù)據(jù)集,以及這些問(wèn)題的答案,以及谷歌 Gemini 2.0 Flash Thinking Experimental 給出的每個(gè)答案背后的“思考”過(guò)程。

研究人員表示,在訓(xùn)練 s1 后(使用 16 個(gè) Nvidia H100 GPU,耗時(shí)不到 30 分鐘),s1 在某些人工智能基準(zhǔn)測(cè)試中取得了良好的表現(xiàn)。參與該項(xiàng)目的斯坦福大學(xué)研究員 Niklas Muennighoff 告訴 TechCrunch,目前租用這些計(jì)算資源的成本約為 20 美元。

研究人員使用了一個(gè)巧妙的技巧來(lái)讓 s1 檢查其工作并延長(zhǎng)其“思考”時(shí)間:他們讓它“等待”。論文顯示,在 s1 的推理過(guò)程中添加“等待”一詞,有助于模型獲得稍微更準(zhǔn)確的答案。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港