我和闺蜜两口子玩互换,欧美精品v在线视频17kan,亚洲精品理论国产电影

訓(xùn)練成本不到50美元，研究人員打造出媲美 OpenAI o1 的推理模型

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-06 10:50:21 瀏覽：243次

導(dǎo)讀：IT之家 2 月 6 日消息，一份上周五發(fā)布的研究報(bào)告顯示，斯坦福大學(xué)和華盛頓大學(xué)的人工智能研究人員僅花費(fèi)不到 50 美元（IT之家備注：當(dāng)前約 364 元人民幣）的云計(jì)算費(fèi)用，就成功訓(xùn)練出一個(gè)具備“推理”能力的人工智能模型。該模型名為 s1，在數(shù)學(xué)和編程能力測(cè)試中表現(xiàn)出與 OpenAI 的 o1 和 DeepSeek 的 r1 等頂尖推理模型相似的水平。目前，s1 模型及其訓(xùn)練所用的數(shù)據(jù)和代碼已 ......

IT之家 2 月 6 日消息，一份上周五發(fā)布的研究報(bào)告顯示，斯坦福大學(xué)和華盛頓大學(xué)的人工智能研究人員僅花費(fèi)不到 50 美元（IT之家備注：當(dāng)前約 364 元人民幣）的云計(jì)算費(fèi)用，就成功訓(xùn)練出一個(gè)具備“推理”能力的人工智能模型。

該模型名為 s1，在數(shù)學(xué)和編程能力測(cè)試中表現(xiàn)出與 OpenAI 的 o1 和 DeepSeek 的 r1 等頂尖推理模型相似的水平。目前，s1 模型及其訓(xùn)練所用的數(shù)據(jù)和代碼已在 GitHub 上開(kāi)源。

訓(xùn)練成本不到50美元，研究人員打造出媲美 OpenAI o1 的推理模型

s1 團(tuán)隊(duì)表示，他們通過(guò)“蒸餾”技術(shù)創(chuàng)建了該人工智能模型，該技術(shù)旨在通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí)另一個(gè)人工智能模型的答案，從而提取其“推理”能力。研究人員透露，s1 是從谷歌的推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸餾出來(lái)的。上個(gè)月，加州大學(xué)伯克利分校的研究人員也使用了相同的蒸餾方法，以約 450 美元的成本創(chuàng)建了一個(gè)人工智能推理模型。

類似 s1 模型的出現(xiàn)也引發(fā)了關(guān)于人工智能模型商品化的問(wèn)題如果有人可以用相對(duì)較低的成本就能復(fù)制一個(gè)價(jià)值數(shù)百萬(wàn)美元的模型，那么大型科技公司的“護(hù)城河”在哪里呢？

不出所料，大型人工智能實(shí)驗(yàn)室對(duì)此并不滿意，例如 OpenAI 此前就指責(zé) DeepSeek 不當(dāng)獲取其 API 數(shù)據(jù)用于模型蒸餾。

s1 的研究人員希望找到實(shí)現(xiàn)強(qiáng)大推理性能和“測(cè)試時(shí)擴(kuò)展”（即允許人工智能模型在回答問(wèn)題之前進(jìn)行更多思考）的最簡(jiǎn)單方法，這些是 OpenAI 的 o1 中的一些突破。

s1 的論文表明，可以使用一種稱為監(jiān)督微調(diào)（SFT）的方法，可以使用相對(duì)較小的數(shù)據(jù)集來(lái)蒸餾推理模型。在 SFT 中，人工智能模型會(huì)被明確指示在數(shù)據(jù)集中模仿某些行為。SFT 比 DeepSeek 用于訓(xùn)練其 R1 模型的大規(guī)模強(qiáng)化學(xué)習(xí)方法更具成本效益。

谷歌通過(guò)其 Google AI Studio 平臺(tái)免費(fèi)提供 Gemini 2.0 Flash Thinking Experimental 模型的訪問(wèn)權(quán)限，但每天有使用限制。然而，其條款禁止對(duì)模型進(jìn)行逆向工程，以開(kāi)發(fā)與谷歌自身人工智能產(chǎn)品競(jìng)爭(zhēng)的服務(wù)。

S1 基于阿里巴巴旗下中國(guó)人工智能實(shí)驗(yàn)室 Qwen 提供的一款小型、現(xiàn)成的免費(fèi)人工智能模型。為了訓(xùn)練 s1，研究人員創(chuàng)建了一個(gè)僅包含 1000 個(gè)精心策劃的問(wèn)題的數(shù)據(jù)集，以及這些問(wèn)題的答案，以及谷歌 Gemini 2.0 Flash Thinking Experimental 給出的每個(gè)答案背后的“思考”過(guò)程。

研究人員表示，在訓(xùn)練 s1 后（使用 16 個(gè) Nvidia H100 GPU，耗時(shí)不到 30 分鐘），s1 在某些人工智能基準(zhǔn)測(cè)試中取得了良好的表現(xiàn)。參與該項(xiàng)目的斯坦福大學(xué)研究員 Niklas Muennighoff 告訴 TechCrunch，目前租用這些計(jì)算資源的成本約為 20 美元。

研究人員使用了一個(gè)巧妙的技巧來(lái)讓 s1 檢查其工作并延長(zhǎng)其“思考”時(shí)間：他們讓它“等待”。論文顯示，在 s1 的推理過(guò)程中添加“等待”一詞，有助于模型獲得稍微更準(zhǔn)確的答案。

訓(xùn)練成本不到50美元，研究人員打造出媲美 OpenAI o1 的推理模型
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-06 10:50:21 瀏覽：243次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

訓(xùn)練成本不到50美元，研究人員打造出媲美 OpenAI o1 的推理模型 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-06 10:50:21 瀏覽：243次