亚拍精品一区二区三区探花,亚洲欧美小说

專家：人類智商測(cè)試并不適用于 AI

來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-06 10:49:16 瀏覽：241次

導(dǎo)讀：IT之家 2 月 6 日消息，在最近的一次公開活動(dòng)中，人工智能公司 OpenAI 的首席執(zhí)行官薩姆·阿爾特曼（Sam Altman）表示，他觀察到人工智能的“智商”在過去幾年中迅速提升。阿爾特曼稱：“大致而言，我的感覺是這不是科學(xué)準(zhǔn)確的表述，只是一種直覺或精神層面的回答每年我們似乎在智商上前進(jìn)了一個(gè)標(biāo)準(zhǔn)差。”IT之家注意到，阿爾特曼并非第一個(gè)用智商來衡量人工智能 ......

IT之家 2 月 6 日消息，在最近的一次公開活動(dòng)中，人工智能公司 OpenAI 的首席執(zhí)行官薩姆·阿爾特曼（Sam Altman）表示，他觀察到人工智能的“智商”在過去幾年中迅速提升。阿爾特曼稱：“大致而言，我的感覺是這不是科學(xué)準(zhǔn)確的表述，只是一種直覺或精神層面的回答每年我們似乎在智商上前進(jìn)了一個(gè)標(biāo)準(zhǔn)差�！�

專家：人類智商測(cè)試并不適用于 AI

IT之家注意到，阿爾特曼并非第一個(gè)用智商來衡量人工智能進(jìn)步的人。在社交媒體上，一些人工智能領(lǐng)域的意見領(lǐng)袖已經(jīng)讓各種模型接受智商測(cè)試，并對(duì)結(jié)果進(jìn)行排名。但許多專家認(rèn)為，智商并不是衡量模型能力的合適指標(biāo)，甚至具有誤導(dǎo)性。

牛津大學(xué)研究技術(shù)與監(jiān)管的研究員桑德拉·瓦赫特（Sandra Wachter）在接受 TechCrunch 采訪時(shí)表示：“用人類的衡量標(biāo)準(zhǔn)來描述人工智能的能力或進(jìn)步是非常誘人的，但這就好比是在比較蘋果和橘子�！�智商測(cè)試是一種相對(duì)而非客觀的智力測(cè)量方式，它在邏輯和抽象推理方面被認(rèn)為是一個(gè)合理的測(cè)試指標(biāo)，但它無法衡量實(shí)際智力即知道如何讓事物運(yùn)作的能力。

瓦赫特指出：“智商是一種衡量人類能力的工具盡管它本身存在爭議是基于科學(xué)家對(duì)人類智力的看法而設(shè)計(jì)的，但你不能用同樣的標(biāo)準(zhǔn)來衡量人工智能的能力。汽車比人類跑得快，潛水艇比人類潛得深，但這并不意味著汽車或潛水艇超越了人類的智力。不能簡單地將某一方面的性能等同于人類智力，人類智力是非常復(fù)雜的�！�

智商測(cè)試的起源可以追溯到優(yōu)生學(xué)，優(yōu)生學(xué)是一種被廣泛駁斥的科學(xué)理論，認(rèn)為可以通過選擇性繁殖來改善人類。參加智商測(cè)試的人需要具備強(qiáng)大的工作記憶能力，并且熟悉西方文化規(guī)范，這自然為偏見留下了空間。一位心理學(xué)家甚至稱智商測(cè)試為“意識(shí)形態(tài)上可被操縱的機(jī)械智力模型”。

華盛頓大學(xué)研究倫理人工智能的博士候選人奧斯·凱斯（Os Keyes）表示，模型在智商測(cè)試中表現(xiàn)良好，更多地反映了測(cè)試本身的缺陷，而不是模型的性能�！叭绻麚碛袔缀鯚o限的內(nèi)存和耐心，這些測(cè)試其實(shí)很容易被‘玩弄’。智商測(cè)試是一種非常有限的衡量認(rèn)知、意識(shí)和智力的方式，這一點(diǎn)在數(shù)字計(jì)算機(jī)發(fā)明之前我們就已經(jīng)知道了�！�

人工智能在智商測(cè)試中可能具有不公平的優(yōu)勢(shì)，因?yàn)槟Ｐ蛽碛泻Ａ康膬?nèi)存和內(nèi)化的知識(shí)。通常，模型是基于公共網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練的，而網(wǎng)絡(luò)上有大量從智商測(cè)試中提取的例題。倫敦國王學(xué)院的研究員邁克·庫克（Mike Cook）表示：“測(cè)試往往重復(fù)非常相似的模式 提高智商的一個(gè)相當(dāng)可靠的方法就是練習(xí)智商測(cè)試，而這本質(zhì)上就是每個(gè)模型都在做的事情。當(dāng)我學(xué)習(xí)某樣?xùn)|西時(shí)，我不會(huì)像 AI 那樣以完美的清晰度將其清晰地輸入我的大腦 100 萬次，我也無法像人工智能那樣毫無噪聲或信號(hào)損失地處理它�！�

庫克補(bǔ)充道，智商測(cè)試盡管存在偏見是為人類設(shè)計(jì)的，旨在評(píng)估一般性的問題解決能力，并不適合用于評(píng)估一種以與人類截然不同的方式解決問題的技術(shù)�！盀貘f可能會(huì)使用工具從盒子里取出食物，但這并不意味著它可以進(jìn)入哈佛大學(xué)。當(dāng)我解決一個(gè)數(shù)學(xué)問題時(shí)，我的大腦不僅要正確閱讀頁面上的文字，還要避免去想回家路上需要購買的東西，或者房間是否太冷。換句話說，人類大腦在解決問題時(shí) 無論是智商測(cè)試還是其他任何問題都要應(yīng)對(duì)更多的事情，而且它們?cè)诮鉀Q問題時(shí)得到的幫助也比人工智能少得多�！�

AI Now 研究所的首席人工智能科學(xué)家海迪·赫拉夫（Heidy Khlaaf）在接受 TechCrunch 采訪時(shí)表示，所有這些都表明我們需要更好的人工智能測(cè)試方法。赫拉夫說：“在計(jì)算歷史中，我們從未將計(jì)算能力與人類能力進(jìn)行精確比較，因?yàn)橛?jì)算的本質(zhì)意味著系統(tǒng)一直能夠完成超出人類能力范圍的任務(wù)。這種直接將系統(tǒng)性能與人類能力進(jìn)行比較的想法是一個(gè)相對(duì)較新的現(xiàn)象，且極具爭議性，圍繞著不斷擴(kuò)展和變化的用于評(píng)估人工智能系統(tǒng)的基準(zhǔn)的爭議也越來越多�！�

相關(guān)熱詞： 智商測(cè)試智商阿爾特曼 openai 智力 sam

專家：人類智商測(cè)試并不適用于 AI
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-06 10:49:16 瀏覽：241次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明