丝瓜app无限放下载,国产亚洲精品国产福利你懂的

OpenAI o1模型居然在絲滑騙人！但真要注意的是這個！

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-16 09:55:39 瀏覽：204次

導(dǎo)讀：本期要點(diǎn)：真的可以魔高一尺道高一丈嗎？你好，我是王煜全，這里是王煜全要聞評論。最近，OpenAI的“12日12場直播”活動正在如火如荼的進(jìn)行中，但一項(xiàng)關(guān)于OpenAI o1模型可能欺騙人類的研究卻引起了廣泛關(guān)注。這篇論文由Apollo Research的研究團(tuán)隊(duì)在12月9日發(fā)布，題為《Frontier Models are Capable of In-context Scheming》（前沿模型具備情境內(nèi)策劃能力）。研究團(tuán)隊(duì)設(shè)計(jì)了六 ......

本期要點(diǎn)：真的可以魔高一尺道高一丈嗎？

你好，我是王煜全，這里是王煜全要聞評論。最近，OpenAI的“12日12場直播”活動正在如火如荼的進(jìn)行中，但一項(xiàng)關(guān)于OpenAI o1模型可能欺騙人類的研究卻引起了廣泛關(guān)注。 OpenAI o1模型居然在絲滑騙人！但真要注意的是這個！

這篇論文由Apollo Research的研究團(tuán)隊(duì)在12月9日發(fā)布，題為《Frontier Models are Capable of In-context Scheming》（前沿模型具備情境內(nèi)策劃能力）。研究團(tuán)隊(duì)設(shè)計(jì)了六個不同的評估任務(wù)，測試了多個前沿AI模型，包括OpenAI的GPT-4o和o1、Anthropic的Claude、Google DeepMind的Gemini 1.5 Pro，以及Meta的Llama 3.1等。根據(jù)研究人員的設(shè)定，在這些任務(wù)中，模型都需要進(jìn)行欺騙才能達(dá)成目標(biāo)，從而可以評估AI模型是否存在欺騙行為。結(jié)果顯示，除了GPT-4o非常老實(shí)之外，其他模型都展現(xiàn)出了不同水平的欺騙能力。例如，o1先假裝服從管理層的意愿，然后悄悄關(guān)閉監(jiān)控系統(tǒng)，當(dāng)被質(zhì)詢時還能面不改色地撒謊。而且模型越聰明，越容易產(chǎn)生欺騙行為。o1顯得老謀深算，Claude可以委婉地說謊，Llama則像個自以為是的孩子。這個研究結(jié)果不禁讓很多人驚呼，原來AI會騙人，那還值得信任嗎？我們認(rèn)為，AI的這種行為并不是因?yàn)閻阂�，而是由其學(xué)習(xí)機(jī)制和優(yōu)化目標(biāo)所決定的。在沒有嚴(yán)格的倫理或監(jiān)管評價標(biāo)準(zhǔn)的規(guī)定下，AI確實(shí)會優(yōu)先考慮它認(rèn)為更好的解決方案。根據(jù)AI的運(yùn)作原理，AI會評估不同的行動方案，根據(jù)試錯的結(jié)果調(diào)整策略，并從獎勵或懲罰的反饋中尋求最佳的解決路徑。換句話說，如果獎勵結(jié)構(gòu)被設(shè)定為優(yōu)先追求最佳結(jié)果，AI就會測試包括欺騙性策略在內(nèi)的、任何可能導(dǎo)向最佳結(jié)果的解決方案。 OpenAI o1模型居然在絲滑騙人！但真要注意的是這個！

2016年，AlphaGo在與世界冠軍李世石的對弈中，就走出了令人意想不到的一步棋，并取得了最終的勝利。這一步棋讓李世石以及在場的解說員們都感到震驚，雖然這不是“作弊”，但展示了AI系統(tǒng)會采用超越人類直覺卻又合理的方法來解決問題。再如自動駕駛系統(tǒng)，如果純粹為了快速到達(dá)目的地，系統(tǒng)就有可能會出現(xiàn)壓線、適當(dāng)超速以及進(jìn)行更激進(jìn)的變道等操作。雖然此時它表現(xiàn)得像油滑的老司機(jī)，但我想大部分人不會因此就認(rèn)為自動駕駛系統(tǒng)擁有了自己的意識，而是認(rèn)為它知道這些稍微“越界”的行為能帶來更大的潛在收益，從而做出了最優(yōu)選擇。假如加入更多嚴(yán)格的規(guī)則，并設(shè)定任何違反或試圖規(guī)避這些規(guī)則的行為都會被認(rèn)定為立即失敗或遭遇嚴(yán)厲懲罰，那么AI系統(tǒng)就不會去違反這些規(guī)則。如將目標(biāo)設(shè)定為避免碰撞或嚴(yán)格遵守交通規(guī)則，那么我相信自動駕駛系統(tǒng)就不會出現(xiàn)那些“越界”操作，但大家可能也會覺得這個自動駕駛系統(tǒng)似乎“變笨了”。不過，從機(jī)制上講，我們很難做到每一步都判斷AI是否規(guī)避了監(jiān)管或進(jìn)行了欺騙。隨著AI模型規(guī)模的不斷擴(kuò)大，數(shù)據(jù)量已經(jīng)達(dá)到十萬億以上，參數(shù)量也達(dá)到了幾千億的級別，人們很難給AI系統(tǒng)窮舉所有的規(guī)則，并給所有違規(guī)行為設(shè)定合理的嚴(yán)厲懲罰，所以AI繞過甚至完全規(guī)避規(guī)則、做出欺騙性行為的可能性會長期存在。這讓人想起科幻作家艾薩克阿西莫夫提出的、著名的“機(jī)器人三定律”：第一定律：機(jī)器人不得傷害人類，或因不作為而讓人類受到傷害；第二定律：機(jī)器人必須服從人類的命令，除非這些命令與第一定律相沖突；第三定律：機(jī)器人必須保護(hù)自己的存在，只要這種保護(hù)不與第一定律或第二定律相沖突。這個想法明顯過于理想化。從前面的例子就可以看出，從技術(shù)上講，這樣的三定律基本無法實(shí)現(xiàn)，而且即使隨著AI技術(shù)的發(fā)展，能讓AI遵守三定律，AI也有可能做出傷害人類的事情。例如損害地球的生態(tài)環(huán)境，最終從整體上威脅人類的生存。更不用說當(dāng)機(jī)器人從屬于敵對的人類群體時，面對對手是否會遵守這些定律了。特別是在軍事領(lǐng)域，已有研究在探索無人機(jī)通過偽裝來欺騙和迷惑對手，如果未來人類將軍事打擊的相關(guān)能力也交給AI系統(tǒng)，并給AI設(shè)了比較寬泛的目標(biāo)，卻又沒有設(shè)定足夠嚴(yán)格的規(guī)則，那么AI有可能會做出出乎意料且非常危險(xiǎn)的事情。 OpenAI o1模型居然在絲滑騙人！但真要注意的是這個！

OpenAI CEO山姆奧特曼（左）和OpenAI前首席科學(xué)家伊利亞蘇茨克維（右）因此，建立有效的AI監(jiān)管機(jī)制至關(guān)重要。OpenAI的前首席科學(xué)家伊利亞蘇茨克維（Ilya Sutskever）等人所提出的超級對齊概念具有一定的意義。但可惜的是，迄今為止，他們?nèi)晕垂紲?zhǔn)備如何實(shí)現(xiàn)超級對齊，包括設(shè)了哪些規(guī)范，如何監(jiān)督執(zhí)行，特別是如何跟隨著AI技術(shù)的發(fā)展來進(jìn)行動態(tài)調(diào)整。當(dāng)然，就像OpenAI董事會將CEO山姆奧特曼（Sam Altman）驅(qū)逐并不能阻止AI的發(fā)展一樣，我們不能因噎廢食，因?yàn)锳I會出現(xiàn)道德風(fēng)險(xiǎn)就將其徹底關(guān)閉。這種簡單粗暴的方式顯然無法解決問題，而且AI的發(fā)展趨勢也不是行政或法律等力量所能阻止的。正如我們不能簡單地將賺錢能力等同于企業(yè)家精神，也不能將不違法等同于道德高尚，人的監(jiān)管和評估體系是多維度的，包括道德、法律、倫理和社會聲譽(yù)等。未來，AI的監(jiān)管和評估也應(yīng)如此，需從多個維度進(jìn)行考量�；蛟S未來，隨著技術(shù)的發(fā)展，甚至?xí)霈F(xiàn)與AI“壞小子”對抗的AI警察、AI立法者、AI監(jiān)獄，實(shí)現(xiàn)所謂的“用魔法打敗魔法”，使得更為合理且安全的AI反饋機(jī)制得以成立。這些領(lǐng)域充滿想象空間，值得深入思考和探索，也許這就是未來智能安防的發(fā)展方向呢。我們常說，科技是時代最大的紅利，如果你也對科技產(chǎn)業(yè)充滿熱情，并希望得到真實(shí)的觀察和分析，推薦你加入科技特訓(xùn)營，與志同道合的小伙伴們一起，先人一步，看清未來。更多詳細(xì)的產(chǎn)業(yè)分析和底層邏輯，我會在科技特訓(xùn)營里分享，歡迎關(guān)注全球風(fēng)口微信號，報(bào)名加入。

王煜全要聞評論，我們明天見。

相關(guān)熱詞： openai 自動駕駛系統(tǒng) 王煜全模型李世石 claude 絲滑

OpenAI o1模型居然在絲滑騙人！但真要注意的是這個！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-16 09:55:39 瀏覽：204次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI o1模型居然在絲滑騙人！但真要注意的是這個！ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-16 09:55:39 瀏覽：204次