劃重點(diǎn)
01OpenAI推出SimpleQA,一個(gè)專門檢測(cè)大模型回答事實(shí)性問題的準(zhǔn)確性的事實(shí)性基準(zhǔn)測(cè)試,已正式開源。
02SimpleQA包含4000道由人類編寫、清晰無歧義的事實(shí)性問題,挑戰(zhàn)性大,連o1-preview和Claude Sonnet 3.5的準(zhǔn)確率都不到50%。
03所有問題都經(jīng)過精心設(shè)計(jì),參考答案經(jīng)過兩位獨(dú)立標(biāo)注員的驗(yàn)證,確保準(zhǔn)確可靠,且具有時(shí)效性。
04除此之外,SimpleQA還可以測(cè)量大模型的“校準(zhǔn)”程度,即模型“知之為知之,不知為不知”的能力。
05SimpleQA的主要局限性在于其范圍,只能在具有單一可驗(yàn)證答案的簡(jiǎn)短事實(shí)查詢環(huán)境下測(cè)量事實(shí)性。
以上內(nèi)容由大模型生成,僅供參考
AI 大模型經(jīng)!耙槐菊(jīng)地胡說八道”,這個(gè)問題 OpenAI 也頭疼!現(xiàn)在,他們祭出了新武器 SimpleQA,并已正式開源,這是一個(gè)全新的事實(shí)性基準(zhǔn)測(cè)試,專門用來檢測(cè)大模型回答事實(shí)性問題的準(zhǔn)確性!OpenAI 的研究科學(xué)家 Jason Wei 表示,由于此前一直缺乏一個(gè)好的事實(shí)性基準(zhǔn)測(cè)試,所以他們團(tuán)隊(duì)決定自己動(dòng)手,創(chuàng)建一個(gè)簡(jiǎn)單、可靠、易用的評(píng)估工具,供所有 AI 研究人員使用
SimpleQA 究竟有何過人之處?總結(jié)起來有三大特點(diǎn):設(shè)置簡(jiǎn)單到爆:包含 4000 道由人類編寫、清晰無歧義的事實(shí)性問題,每個(gè)問題都只有一個(gè)無可爭(zhēng)議的正確答案。模型的回答會(huì)被自動(dòng)評(píng)分器評(píng)為“正確”、“錯(cuò)誤”或“未嘗試”
挑戰(zhàn)性大,前沿模型也跪了:SimpleQA 對(duì)目前最先進(jìn)的大模型也構(gòu)成了巨大挑戰(zhàn)!連 o1-preview 和 Claude Sonnet 3.5 的準(zhǔn)確率都不到 50%!
參考答案準(zhǔn)確度高,經(jīng)得起時(shí)間考驗(yàn):所有問題都經(jīng)過精心設(shè)計(jì),參考答案經(jīng)過兩位獨(dú)立標(biāo)注員的驗(yàn)證,確保準(zhǔn)確可靠。而且,這些問題的設(shè)計(jì)也考慮到了時(shí)效性,即使 5 年或 10 年后,SimpleQA 仍然是一個(gè)有用的基準(zhǔn)測(cè)試,相當(dāng)耐用!
SimpleQA是如何構(gòu)建的?OpenAI雇傭了AI訓(xùn)練師從網(wǎng)上收集問題和答案,并制定了嚴(yán)格的標(biāo)準(zhǔn):答案必須唯一、準(zhǔn)確、不會(huì)隨時(shí)間變化,而且大多數(shù)問題必須能誘導(dǎo)GPT-4o或GPT-3.5產(chǎn)生“幻覺”。為了保證質(zhì)量,還有第二位AI訓(xùn)練師獨(dú)立回答每個(gè)問題,只有兩位訓(xùn)練師答案一致的問題才會(huì)被收錄。最后,還有第三位訓(xùn)練師對(duì)1000個(gè)隨機(jī)問題進(jìn)行驗(yàn)證,最終估算出數(shù)據(jù)集的固有錯(cuò)誤率約為3%
如何用SimpleQA比較大模型?用一個(gè)經(jīng)過prompt的ChatGPT分類器對(duì)模型的答案進(jìn)行評(píng)分,分為“正確”、“錯(cuò)誤”和“未嘗試”三種。目標(biāo)是盡可能多地正確回答問題,同時(shí)最小化錯(cuò)誤答案的數(shù)量。測(cè)試結(jié)果顯示,o1-preview效果最佳。小模型的正確率不如大模型,這可能是因?yàn)樾∧P偷闹R(shí)儲(chǔ)備較少。o1-preview和o1-mini更傾向于選擇“未嘗試”,這可能是因?yàn)樗鼈兡軌蚶猛评砟芰ψR(shí)別自己不知道答案的情況,而不是胡編亂造
SimpleQA還能干啥?除了評(píng)估事實(shí)性,SimpleQA還可以用來測(cè)量大模型的“校準(zhǔn)”程度,也就是模型“知之為知之,不知為不知”的能力。
置信度與準(zhǔn)確率:通過讓模型給出答案的同時(shí)給出置信度,然后比較置信度和實(shí)際準(zhǔn)確率間的關(guān)系,就能看出模型的校準(zhǔn)程度。結(jié)果表明,模型普遍高估了自己的置信度,還有很大的改進(jìn)空間。o1-preview比o1-mini校準(zhǔn)程度更好,GPT-4比GPT-4-mini校準(zhǔn)程度更好,這與之前的研究結(jié)果一致,即更大的模型校準(zhǔn)程度更好
答案頻率與準(zhǔn)確率:另一種測(cè)量校準(zhǔn)的方法是將同一個(gè)問題問模型100次。由于語言模型在重復(fù)嘗試時(shí)可能會(huì)產(chǎn)生不同的答案,因此可以評(píng)估特定答案的出現(xiàn)頻率與其正確性是否相符。更高的頻率通常表明模型對(duì)答案更有信心。o1-preview 在這方面表現(xiàn)最好,其答案的頻率與準(zhǔn)確率基本一致。與通過置信度判斷的校準(zhǔn)結(jié)果類似,o1-preview 比 o1-mini 的校準(zhǔn)程度更好,GPT-4 比 GPT-4-mini 的校準(zhǔn)程度更好
限制SimpleQA 是評(píng)估前沿模型事實(shí)性的一個(gè)簡(jiǎn)單但具有挑戰(zhàn)性的基準(zhǔn)。SimpleQA 的主要局限性在于其范圍--雖然 SimpleQA 非常準(zhǔn)確,但它只能在具有單一可驗(yàn)證答案的簡(jiǎn)短事實(shí)查詢這一受限環(huán)境下測(cè)量事實(shí)性。提供符合事實(shí)的簡(jiǎn)短回答的能力是否與撰寫包含大量事實(shí)的冗長回答的能力相關(guān),這仍然是一個(gè)有待研究的問題
開源地址:
https://github.com/openai/simple-evals/
參考:
https://openai.com/index/introducing-simpleqa
SimpleQA Paper:
https://cdn.openai.com/papers/simpleqa.pdf
星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過
用你的贊和在看告訴我~