展會(huì)信息港展會(huì)大全

專家:人類智商測(cè)試并不適用于 AI
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-06 10:49:16   瀏覽:241次  

導(dǎo)讀:IT之家 2 月 6 日消息,在最近的一次公開活動(dòng)中,人工智能公司 OpenAI 的首席執(zhí)行官薩姆·阿爾特曼(Sam Altman)表示,他觀察到人工智能的“智商”在過去幾年中迅速提升。阿爾特曼稱:“大致而言,我的感覺是  這不是科學(xué)準(zhǔn)確的表述,只是一種直覺或精神層面的回答  每年我們似乎在智商上前進(jìn)了一個(gè)標(biāo)準(zhǔn)差。”IT之家注意到,阿爾特曼并非第一個(gè)用智商來衡量人工智能 ......

IT之家 2 月 6 日消息,在最近的一次公開活動(dòng)中,人工智能公司 OpenAI 的首席執(zhí)行官薩姆·阿爾特曼(Sam Altman)表示,他觀察到人工智能的“智商”在過去幾年中迅速提升。阿爾特曼稱:“大致而言,我的感覺是  這不是科學(xué)準(zhǔn)確的表述,只是一種直覺或精神層面的回答  每年我們似乎在智商上前進(jìn)了一個(gè)標(biāo)準(zhǔn)差!

專家:人類智商測(cè)試并不適用于 AI

IT之家注意到,阿爾特曼并非第一個(gè)用智商來衡量人工智能進(jìn)步的人。在社交媒體上,一些人工智能領(lǐng)域的意見領(lǐng)袖已經(jīng)讓各種模型接受智商測(cè)試,并對(duì)結(jié)果進(jìn)行排名。但許多專家認(rèn)為,智商并不是衡量模型能力的合適指標(biāo),甚至具有誤導(dǎo)性。

牛津大學(xué)研究技術(shù)與監(jiān)管的研究員桑德拉·瓦赫特(Sandra Wachter)在接受 TechCrunch 采訪時(shí)表示:“用人類的衡量標(biāo)準(zhǔn)來描述人工智能的能力或進(jìn)步是非常誘人的,但這就好比是在比較蘋果和橘子!智商測(cè)試是一種相對(duì)而非客觀的智力測(cè)量方式,它在邏輯和抽象推理方面被認(rèn)為是一個(gè)合理的測(cè)試指標(biāo),但它無法衡量實(shí)際智力  即知道如何讓事物運(yùn)作的能力。

瓦赫特指出:“智商是一種衡量人類能力的工具  盡管它本身存在爭議  是基于科學(xué)家對(duì)人類智力的看法而設(shè)計(jì)的,但你不能用同樣的標(biāo)準(zhǔn)來衡量人工智能的能力。汽車比人類跑得快,潛水艇比人類潛得深,但這并不意味著汽車或潛水艇超越了人類的智力。不能簡單地將某一方面的性能等同于人類智力,人類智力是非常復(fù)雜的!

智商測(cè)試的起源可以追溯到優(yōu)生學(xué),優(yōu)生學(xué)是一種被廣泛駁斥的科學(xué)理論,認(rèn)為可以通過選擇性繁殖來改善人類。參加智商測(cè)試的人需要具備強(qiáng)大的工作記憶能力,并且熟悉西方文化規(guī)范,這自然為偏見留下了空間。一位心理學(xué)家甚至稱智商測(cè)試為“意識(shí)形態(tài)上可被操縱的機(jī)械智力模型”。

華盛頓大學(xué)研究倫理人工智能的博士候選人奧斯·凱斯(Os Keyes)表示,模型在智商測(cè)試中表現(xiàn)良好,更多地反映了測(cè)試本身的缺陷,而不是模型的性能!叭绻麚碛袔缀鯚o限的內(nèi)存和耐心,這些測(cè)試其實(shí)很容易被‘玩弄’。智商測(cè)試是一種非常有限的衡量認(rèn)知、意識(shí)和智力的方式,這一點(diǎn)在數(shù)字計(jì)算機(jī)發(fā)明之前我們就已經(jīng)知道了!

人工智能在智商測(cè)試中可能具有不公平的優(yōu)勢(shì),因?yàn)槟P蛽碛泻A康膬?nèi)存和內(nèi)化的知識(shí)。通常,模型是基于公共網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練的,而網(wǎng)絡(luò)上有大量從智商測(cè)試中提取的例題。倫敦國王學(xué)院的研究員邁克·庫克(Mike Cook)表示:“測(cè)試往往重復(fù)非常相似的模式  提高智商的一個(gè)相當(dāng)可靠的方法就是練習(xí)智商測(cè)試,而這本質(zhì)上就是每個(gè)模型都在做的事情。當(dāng)我學(xué)習(xí)某樣?xùn)|西時(shí),我不會(huì)像 AI 那樣以完美的清晰度將其清晰地輸入我的大腦 100 萬次,我也無法像人工智能那樣毫無噪聲或信號(hào)損失地處理它!

庫克補(bǔ)充道,智商測(cè)試  盡管存在偏見  是為人類設(shè)計(jì)的,旨在評(píng)估一般性的問題解決能力,并不適合用于評(píng)估一種以與人類截然不同的方式解決問題的技術(shù)!盀貘f可能會(huì)使用工具從盒子里取出食物,但這并不意味著它可以進(jìn)入哈佛大學(xué)。當(dāng)我解決一個(gè)數(shù)學(xué)問題時(shí),我的大腦不僅要正確閱讀頁面上的文字,還要避免去想回家路上需要購買的東西,或者房間是否太冷。換句話說,人類大腦在解決問題時(shí)  無論是智商測(cè)試還是其他任何問題  都要應(yīng)對(duì)更多的事情,而且它們?cè)诮鉀Q問題時(shí)得到的幫助也比人工智能少得多!

AI Now 研究所的首席人工智能科學(xué)家海迪·赫拉夫(Heidy Khlaaf)在接受 TechCrunch 采訪時(shí)表示,所有這些都表明我們需要更好的人工智能測(cè)試方法。赫拉夫說:“在計(jì)算歷史中,我們從未將計(jì)算能力與人類能力進(jìn)行精確比較,因?yàn)橛?jì)算的本質(zhì)意味著系統(tǒng)一直能夠完成超出人類能力范圍的任務(wù)。這種直接將系統(tǒng)性能與人類能力進(jìn)行比較的想法是一個(gè)相對(duì)較新的現(xiàn)象,且極具爭議性,圍繞著不斷擴(kuò)展和變化的用于評(píng)估人工智能系統(tǒng)的基準(zhǔn)的爭議也越來越多!

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港