展會(huì)信息港展會(huì)大全

跑分超 o1,還會(huì)看圖思考,數(shù)理化正在被 AI「完爆」
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-19 19:45:00   瀏覽:171次  

導(dǎo)讀:在 OpenAI o1 正式版發(fā)布 10 天后,Kimi 的「高階推理模型」也落地了。12 月 16 日,Kimi 直接發(fā)布了自己的「視覺思考模型」k1。相比于一個(gè)月前發(fā)布的 k0-math,k1 支持端到端的圖像理解和思維鏈(CoT),不僅推理能力進(jìn)一步提升,還可以識別幾何圖形、圖表等圖像信息。增強(qiáng)推理之后,大模型會(huì)獲得更嚴(yán)密的邏輯思考能力,在基礎(chǔ)科學(xué)領(lǐng)域的能力表現(xiàn)大幅提升。如果說過去的大語言 ......

在 OpenAI o1 正式版發(fā)布 10 天后,Kimi 的「高階推理模型」也落地了。

12 月 16 日,Kimi 直接發(fā)布了自己的「視覺思考模型」k1。相比于一個(gè)月前發(fā)布的 k0-math,k1 支持端到端的圖像理解和思維鏈(CoT),不僅推理能力進(jìn)一步提升,還可以識別幾何圖形、圖表等圖像信息。

增強(qiáng)推理之后,大模型會(huì)獲得更嚴(yán)密的邏輯思考能力,在基礎(chǔ)科學(xué)領(lǐng)域的能力表現(xiàn)大幅提升。如果說過去的大語言模型相對更接近「文科生」,那么現(xiàn)在,它學(xué)會(huì)了「數(shù)理化」。

發(fā)布模型的同時(shí),月之暗面宣布,Kimi k1 在多項(xiàng)基礎(chǔ)學(xué)科的基準(zhǔn)能力測試中表現(xiàn)優(yōu)異,超越了 Open AI o1、GPT-4o,及 Claude 3.5 Sonnet。

跑分超 o1,還會(huì)看圖思考,數(shù)理化正在被 AI「完爆」

學(xué)會(huì)「數(shù)理化」,意味著 Kimi 的能力得到了擴(kuò)增。但更重要的是,高質(zhì)量「思維鏈」的出現(xiàn),將徹底改變大模型的思維深度,讓它具備「自主探索答案和反思」的能力。

學(xué)會(huì)「自主探索和反思」,或許就是 AI 擴(kuò)寬人類知識邊界的關(guān)鍵所在。

01學(xué)會(huì)「數(shù)理化」的大模型

今年夏天,就有媒體利用高考試卷,測試了大模型的「知識水平」。

得到的結(jié)果相當(dāng)驚人,不少大模型的測試成績,都達(dá)到了「一本線」的水平,但僅限「文科」。大模型最擅長的學(xué)科是語文、英語,以及政治歷史,這幾門課基本都可以拿到 80 分以上,英語更是可以接近滿分。但數(shù)理化三科,大部分模型都無法及格。包括文綜三科里,比較注重邏輯判斷的地理,大模型的表現(xiàn)也欠佳。

這里最大的原因在于,大模型缺少「推理」能力,去對輸出的內(nèi)容進(jìn)行「收斂」。面對那些較為開放,沒有唯一標(biāo)準(zhǔn)答案的主觀題,大模型往往能引經(jīng)據(jù)典,給出豐富的回答,組織語句的能力也較強(qiáng)這都是語言模型的「老本行」。但面對那些理科的客觀題,只有唯一標(biāo)準(zhǔn)答案的時(shí)候,大模型就較難命中靶心。

所以,想要衡量下一代「高階推理模型」的能力高低,很大程度上,就是要看它的理科成績?nèi)绾巍?br/>

此次 Kimi k1 發(fā)布,月之暗面公布的第一項(xiàng)基準(zhǔn)測試,就是「數(shù)理化」三門學(xué)科的能力測試。根據(jù)測試結(jié)果,k1 大幅領(lǐng)先于 GPT-4o。而 4o 曾是今年夏天在高考測試中表現(xiàn)相對最好的大模型。同時(shí),k1 相比 OpenAI 最先進(jìn)的高階推理模型 o1,也存在一定優(yōu)勢。

不只是中學(xué)水平的數(shù)理化,Kimi k1 對于更高階的問題也具備相當(dāng)強(qiáng)的解析能力,比如奧賽數(shù)學(xué)。我們嘗試輸入了一道主要面向高校的數(shù)學(xué)奧賽題目給 Kimi,它也順利完成了推理解答,并得到了正確答案。

如果說,此前通用大模型 AI 的知識水平大概處于「高考一本線」左右,那具備高階推理能力的 k1,在一些領(lǐng)域則至少來到了研究生,甚至博士級的水平。

跑分超 o1,還會(huì)看圖思考,數(shù)理化正在被 AI「完爆」

在應(yīng)用層面,k1 具備兩個(gè)重要特點(diǎn),第一是對視覺內(nèi)容的「端到端」支持,用戶只需要輸入問題截圖、拍照,甚至是手寫的題目,Kimi 都能夠識別出原題,并進(jìn)行推理解答。即便畫面里有噪聲,不夠清晰,也沒有問題。特別是針對那些有圖示的幾何題、應(yīng)用題,Kimi k1 能夠結(jié)合圖示來理解題意,這是過去的大模型很難做到的。

其次,則在于 Kimi 具備「思維鏈」技術(shù),讓用戶看到的不只是答題結(jié)果,而是能看到模型思考和推演答案的全過程。

到這里,看起來 k1 最主要的應(yīng)用價(jià)值是教育,能成為學(xué)生和家長的「輔導(dǎo)助手」,但事情遠(yuǎn)沒有這么簡單。

02會(huì)「一步步思考」的 AI

當(dāng)我們嘗試用 Kimi k1 來解答一系列中學(xué)數(shù)理化問題,會(huì)發(fā)現(xiàn)明顯的特征是,k1 的思考過程非常細(xì),甚至有時(shí)候會(huì)有點(diǎn)「太細(xì)了」。

它會(huì)把一個(gè)問題分析、拆解到最底層,產(chǎn)生結(jié)論之后,還會(huì)主動(dòng)從其他角度進(jìn)行二次思考,來驗(yàn)證自己之前的想法是否正確,如果發(fā)現(xiàn)矛盾,就會(huì)進(jìn)行進(jìn)一步的反思。

思維鏈究竟應(yīng)該細(xì)化到何種程度,目前還沒有一個(gè)全行業(yè)共識的答案。但可以肯定的是,大模型的思維鏈能力可以啟發(fā)人類做事的思路。這是許多行業(yè)的專業(yè)人士在使用推理模型后,最常發(fā)出的感慨。

目前這一代「高階推理模型」所具備的思維能力,率先在數(shù)理化解題、專業(yè)知識解讀等場景下,得到了最明確的體現(xiàn)。而這種推理能力更深層的意義,在于「反思」。

「反思」能力的出現(xiàn),通過思維鏈技術(shù),能讓大模型輸出的內(nèi)容變得更有邏輯,更可控且靈活。

當(dāng)下大模型應(yīng)用場景里,明顯存在的一個(gè)矛盾是:當(dāng)我們提出一個(gè)問題,如果我們自己不知道答案,我們就依然無法判斷大模型給出的答案是否正確。

但如果大模型能給出自己的邏輯思維過程,我們就可以參考這個(gè)過程,來判斷答案的合理與否。所以當(dāng)下包括 Kimi k1 在內(nèi)的模型,一個(gè)最好用的 prompt 就是「一步步分析」,這樣經(jīng)過專門訓(xùn)練的大模型就能給出更詳細(xì)的思考過程,供用戶進(jìn)行參考評估。

這有助于消除大模型的「幻覺」問題。就是說,大模型可以自己對自己的擬合結(jié)果進(jìn)行反思,嘗試把那些可能錯(cuò)誤的內(nèi)容剔除出去。即便生成結(jié)果中包含一些可疑的、不確定的部分,用戶也更容易從 AI 的思考過程中發(fā)現(xiàn)這些內(nèi)容,進(jìn)行二次審核確認(rèn)。這對 AI 的安全性、可靠性,也會(huì)是一個(gè)積極提升。特別是對專業(yè)領(lǐng)域的用戶來說,這一點(diǎn)將非常有意義。

通過「思維鏈」,Kimi k1 不僅能進(jìn)行更復(fù)雜的思考,對輸出結(jié)果進(jìn)行收斂,還能輸出更有邏輯的結(jié)果,彌合與用戶之間的認(rèn)知鴻溝。

03用「反思」突破人類知識邊界

高階推理能力、思維鏈、端到端的視覺輸入……大模型 AI 正在經(jīng)歷一輪新的顛覆性改變。Kimi 再次占據(jù)了優(yōu)勢身位。

過去大模型所采取的,泛意義上的機(jī)器學(xué)習(xí)思路,更多是基于數(shù)據(jù)進(jìn)行「擬合」,也就是模仿。上一代語言模型主要模仿的,就是人類說話、寫字的方式。因?yàn)?AI 的學(xué)習(xí)效率很高,通過整合大量的知識數(shù)據(jù),就能輸出很好的結(jié)果。

但這依然注定了,這樣的模型只能無限接近人類水平,而很難超越人類已知的知識范疇,無法產(chǎn)生新的知識。

這也是為什么過去很多人覺得,大模型應(yīng)用有點(diǎn)像是「什么都懂一點(diǎn)的大學(xué)生」,但在任何一個(gè)垂直領(lǐng)域都不夠深入,無法給出更有價(jià)值的獨(dú)到洞見。

但「反思」能力的出現(xiàn),則意味著,AI 大模型未來可能可以通過自我的對抗強(qiáng)化學(xué)習(xí),產(chǎn)生新的知識,真正超越人類現(xiàn)有的知識邊界。

這件事早有成功范例。比如 AlphaGo,就是利用強(qiáng)化學(xué)習(xí)的方法,基于人類圍棋棋手的棋譜,發(fā)散出了更多,遠(yuǎn)超人類棋手所知的策略。之后的 AlphaZero,則是在完全沒有輸入任何棋譜數(shù)據(jù)的前提下,只是輸入規(guī)則,完全通過自我的對抗強(qiáng)化訓(xùn)練,產(chǎn)生了超越人類的智能。

在 Kimi k1 的功能演示中,月之暗面特意輸入了一些古代科學(xué)家的手稿,這些手稿在今天看起來無比模糊,普通人幾乎不可能理解其含義,但 Kimi 也能夠通過思考,發(fā)掘出很多畫面上沒有的背景信息。

此前曾有一種觀點(diǎn)認(rèn)為:當(dāng)下人類知識的總量已經(jīng)太大,人類作為個(gè)體,光是學(xué)習(xí)一個(gè)領(lǐng)域的知識,就已經(jīng)要耗費(fèi)大量時(shí)間,終其一生,可能也很難達(dá)到「知識圈」的邊界,所以很難像過去的群星閃耀的科學(xué)時(shí)代一樣,不斷有驚世駭俗的研究成果出來。甚至有人認(rèn)為,人類知識的總和,最終會(huì)是有限的。

而現(xiàn)在,具備深度思考能力,學(xué)習(xí)效率超高且具備無窮壽命的 AI,或許正在開創(chuàng)知識和智能的新維度。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港