我的漂亮女房东完整版电影,久久国产精品亚洲av四虎,久操伊人

OpenAI 最新研究：當前 AI 模型仍無法媲美人類程序員

來源：互聯(lián)網發(fā)布日期：2025-02-24 10:00:21 瀏覽：200次

導讀：IT之家 2 月 24 日消息，盡管 OpenAI 首席執(zhí)行官薩姆·奧爾特曼（Sam Altman）堅稱，到今年年底，人工智能模型將能夠超越“低級別”軟件工程師，但該公司研究人員的最新研究卻表明，即使是目前最先進的 AI 模型，仍無法與人類程序員相媲美。研究人員在一篇新論文中指出，即使是前沿模型即那些最具創(chuàng)新性和突破性的 AI 系統(tǒng) “仍然無法解決大多數(shù)”編程任務。為此，研究 ......

IT之家 2 月 24 日消息，盡管 OpenAI 首席執(zhí)行官薩姆·奧爾特曼（Sam Altman）堅稱，到今年年底，人工智能模型將能夠超越“低級別”軟件工程師，但該公司研究人員的最新研究卻表明，即使是目前最先進的 AI 模型，仍無法與人類程序員相媲美。

OpenAI 最新研究：當前 AI 模型仍無法媲美人類程序員

研究人員在一篇新論文中指出，即使是前沿模型即那些最具創(chuàng)新性和突破性的 AI 系統(tǒng) “仍然無法解決大多數(shù)”編程任務。為此，研究人員開發(fā)了一個名為 SWE-Lancer 的新基準測試工具，該工具基于自由職業(yè)者網站 Upwork 上的 1400 多個軟件工程任務。通過這一基準測試，OpenAI 對三款大型語言模型（LLMs）進行了測試，分別是其自身的 o1 推理模型、旗艦產品 GPT-4o，以及 Anthropic 公司的 Claude 3.5 Sonnet。

OpenAI 最新研究：當前 AI 模型仍無法媲美人類程序員

具體而言，這一新基準測試評估了這些 LLMs 在處理 Upwork 上的兩類任務時的表現(xiàn)：一類是個體任務，涉及修復漏洞并實施修復措施；另一類是管理任務，要求模型從更宏觀的角度做出更高層次的決策。值得注意的是，在測試過程中，這些模型被禁止訪問互聯(lián)網，因此它們無法直接抄襲網上已有的類似答案。

這些模型所承擔的任務在 Upwork 上的價值累計可達數(shù)十萬美元，但它們僅能解決一些表面的軟件問題，卻無法在大型項目中真正找到漏洞及其根源。這種“半成品”的解決方案，對于與 AI 有過合作經驗的人來說并不陌生 AI 擅長輸出聽起來自信滿滿的信息，但在仔細審查時往往漏洞百出。

盡管論文指出，這三款 LLMs 通常能夠“遠快于人類”地完成任務，但它們卻無法理解漏洞的廣泛性及其背景，從而導致解決方案“錯誤或不夠全面”。

研究人員解釋稱，Claude 3.5 Sonnet 的表現(xiàn)優(yōu)于另外兩款 OpenAI 模型，并且在測試中“賺取”的金額也超過了 o1 和 GPT-4o。然而，其大多數(shù)答案仍然是錯誤的。研究人員指出，任何模型若想被真正用于實際編程任務，都需要具備“更高的可靠性”。

簡而言之，該論文似乎表明，盡管這些前沿模型能夠快速地處理一些細節(jié)任務，但它們在處理這些任務時的技能水平，仍遠遠不及人類工程師。

盡管近年來這些大型語言模型取得了快速的發(fā)展，并且未來還會繼續(xù)進步，但它們目前在軟件工程領域的技能水平仍不足以取代人類。然而IT之家注意到，這似乎并未阻止一些首席執(zhí)行官解雇人類程序員，轉而使用這些尚未成熟的 AI 模型。

相關熱詞： openai ai模型語言模型軟件工程程序員

OpenAI 最新研究：當前 AI 模型仍無法媲美人類程序員
來源：互聯(lián)網發(fā)布日期：2025-02-24 10:00:21 瀏覽：200次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

OpenAI 最新研究：當前 AI 模型仍無法媲美人類程序員 來源：互聯(lián)網 發(fā)布日期：2025-02-24 10:00:21 瀏覽：200次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

OpenAI 最新研究：當前 AI 模型仍無法媲美人類程序員
來源：互聯(lián)網發(fā)布日期：2025-02-24 10:00:21 瀏覽：200次