展會信息港展會大全

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-09 10:17:07   瀏覽:252次  

導讀:新智元報道編輯:編輯部【新智元導讀】谷歌DeepMind的AI,終于拿下IMO金牌了!六個月前遺憾摘銀,如今一舉得金,SKEST新算法立大功。這不,它首破解了2009 IMO最難幾何題,輔助作圖的神來之筆解法讓谷歌研究員當場震驚。時隔6個多月,AlphaGeometry 2直接攻下IMO金牌!剛剛,谷歌DeepMind一篇28頁技術(shù)報告,公布了AG2最新突破在2000-2024年IMO幾何題上,解題率從54%飆升至84%。 ......

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

新智元報道

編輯:編輯部【新智元導讀】谷歌DeepMind的AI,終于拿下IMO金牌了!六個月前遺憾摘銀,如今一舉得金,SKEST新算法立大功。這不,它首破解了2009 IMO最難幾何題,輔助作圖的神來之筆解法讓谷歌研究員當場震驚。時隔6個多月,AlphaGeometry 2直接攻下IMO金牌!

剛剛,谷歌DeepMind一篇28頁技術(shù)報告,公布了AG2最新突破

在2000-2024年IMO幾何題上,解題率從54%飆升至84%。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

論文地址:https://arxiv.org/pdf/2502.03544

過去近25年IMO幾何真題(50道),AG2橫掃了42道。要知道,這個成績已經(jīng)大幅超于歷年IMO金牌得主的平均水平。

去年7月,谷歌曾官宣的兩大AI系統(tǒng)AlphaProof和AlphaGeometry 2,距離金牌只有1分之遙。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

論文中,團隊專為AG2設計了一種全新搜索算法基于知識共享集成的搜索樹(SKEST),允許多個集束搜索(beam search)并行運行并相互幫助。

得益于這算法,AG2能夠在19秒內(nèi),解決IMO 2024年P4題。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

谷歌DeepMind高級研究科學家Thang Luong稱,「這是AI首次破解了2009年IMO最難幾何題G7(備選題)」。

此前,這道題只有計算性解法(使用復數(shù)、三角計算等)。

令人驚訝的是,AG2利用關鍵的輔助作圖(圖中的紅點),給出了一個只需要「角度」和「比例推導」的優(yōu)雅解法。

這些點,是由神經(jīng)符號架構(gòu)中的「神經(jīng)網(wǎng)絡模型」預測得出的。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

有網(wǎng)友表示,「AGI似乎在谷歌內(nèi)部實現(xiàn)了」。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

AG2,一舉超越IMO金牌得主

作為全球最具權(quán)威的高數(shù)競賽,IMO幾何題不僅考驗選手對數(shù)學概念深刻理解,更需要極強的創(chuàng)造性思維。而今天,數(shù)學這個人類智慧的結(jié)晶,正被人工智能以驚人的速度攻克。

在當時看來,這個成績已是相當?shù)伢@人。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

AG1使用了簡單特定域語言,主要由表1列出的九個基本的「謂詞」組成

不過,AG1仍在幾個關鍵領域存在局限性,比如特定語言范圍、符號引擎效率,以及初始語言模型的能力均會影響其性能。

新一代AlphaGeometry 2,得到了全新升級。

它采用了基于Gemini更強大的語言模型,其在更大更多樣化數(shù)據(jù)集中完成訓練,顯著提升了理解和推理能力。

同時,谷歌還引入了更快速、更穩(wěn)健的「符號引擎」,融入了簡化規(guī)則集、增強雙重點處理等優(yōu)化。

此外,模型領域語言范圍也進行了擴展,涵蓋了更廣泛的幾何概念,包括軌跡定理和線性方程。

為了進一步提升性能,團隊還開發(fā)了一種新型搜索算法,探索更多樣的輔助作圖策略,并采用知識共享機制,來擴展和加速搜索過程。

AG2最令人矚目的進展之一是,完全自動化的處理能力。

它可以直接理解自然語言形式的幾何問題,借助Gemini團隊的技術(shù)將問題轉(zhuǎn)化為專用語言,實現(xiàn)了一種全新的「自動圖形生成」算法。

得益于以上的改進,AG2在所有IMO幾何題上,取得了令人印象深刻的84%解題率。

這意味著,它已經(jīng)超越了IMO金牌得主的平均水平。

總結(jié)來說,AG2帶來了幾項重大升級:

擴展了領域特定語言(DSL)的覆蓋范圍,可覆蓋88%的IMO幾何題目,相比此前的66%有顯著提升

改進了符號引擎,使其更加穩(wěn)健,且速度提升了兩個數(shù)量級

增強了語言模型,該模型基于Gemini并在更大規(guī)模(提升一個數(shù)量級)和更多樣化的數(shù)據(jù)集上訓練

創(chuàng)新性地提出了一種名為「基于知識共享集成的搜索樹」(SKEST)的新算法,能夠?qū)崿F(xiàn)多個搜索樹之間的知識共享

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

更通用的域語言,覆蓋88%題目

如上,表1列出的AG1九個基本「謂詞」,已經(jīng)覆蓋了2000-2024年IMO幾何題目中66%的問題。但是,AG1的語言無法表達線性方程、點/線/圓的移動,也無法處理「求角度...」這樣的常見問題。

由此,谷歌研究人員在AG1的基礎上,增加了兩個「謂詞」,可以解決「查找X」類型的問題:

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

另外,在某些幾何問題中,包括IMO 2024中的一道題目,存在AG1無法表達的幾何量(角度、距離)的線性方程。

為了表達這些概念,AG2增加了以下三個謂詞:

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

還有一點是,AG1不支持所謂的「軌跡問題」,這類問題涉及點、線和圓等對象的運動,AG2則通過新的謂詞語法捕捉這類問題。

表2列出了11種軌跡情況及其對應的謂詞和語法。這里使用了一個新的符號*作為固定點的占位符。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

除此以外,AG2通過引入一個新的謂詞 overlap a b(點A和點B是重合點)來證明點的非獨立性,其中涉及A的任何謂詞也可以用于B,反之亦然。

在推理閉包(deduction closure)過程中,重合點可以通過作為同一個圓的圓心來定義;

因此,團隊引入另一個謂詞cyclic_with_center來描述這種情況。因此,cyclic_with_center a1 a2 ... an x表示a_1=a_2=...=a_x是經(jīng)過點a_x+1...a_n的圓的圓心(當x=0 時,等同于cyclic)。

自動形式化和圖形生成

自動形式化AG1以及其他類似的神經(jīng)符號系統(tǒng)有一個主要弱點,需要手動將自然語言的輸入轉(zhuǎn)換成特定領域的語言。

例如,一個簡單的自然語言幾何問題「給定三角形ABC,其中兩邊相等AB=AC,證明角B和角C相等」,在AlphaGeometry的領域特定語言中變成了:「triangle a b c; a b = a c ? eqangle b a b c c b c a」。

在AG2中,團隊首先通過人工將幾十個幾何問題翻譯成AG語言。然后,使用這些示例編寫少樣本提示,要求Gemini將給定的幾何問題從自然語言翻譯成AG語言。

用這個提示在Gemini中查詢五次,然后再調(diào)用一次將這些結(jié)果合并成一個最終答案。

通過這種方法,AG2能夠?qū)MO 2000-2024中的39個幾何問題形式化30個。對于簡單的幾何問題,這種方法非常有效,幾乎沒有錯誤。

自動圖形生成對于無法直接通過幾何作圖構(gòu)建的圖形(非構(gòu)造性問題),AG2采用兩階段數(shù)值優(yōu)化方法:

第一階段使用ADAM梯度下降優(yōu)化,最小化誤差,同時防止點重合和坐標值過大。第二階段使用Gauss-Newton-Levenberg(高斯-牛頓-勒文伯格)方法,求解非線性方程組,得到精確的圖形坐標。

研究團隊在44道IMO問題上進行了基準測試,經(jīng)過上面的優(yōu)化后,AG2能夠為其中41個問題找到圖形。

大多數(shù)問題在AG2第一次嘗試時,甚至幾秒鐘內(nèi)就生成了圖形。對于剩余的問題,也可以通過更長的運行時間和更多的并行化運算獲得圖形。

例如,在使用了3333個進程運算了400分鐘后,AG2獲得了IMO-2011-6(2011年IMO第6題)的圖形。

更強大、更快的符號引擎

AlphaGeometry2的核心是「符號引擎」DDAR(演繹數(shù)據(jù)庫與算術(shù)推理)。

這是一種用來計算「演繹閉包」的算法。

所謂演繹閉包,就是從一堆最基本的已知事實出發(fā),通過推理能得到的所有事實的集合。

DDAR有一套固定的推理規(guī)則,然后它會按照這些規(guī)則,一步步地推導出新的事實,把新事實加到集合里,直到?jīng)]法再推出新的東西為止。

這使它能在兩個方面發(fā)揮關鍵作用:一是為語言模型生成訓練數(shù)據(jù),二是在測試時進行證明搜索,尋找演繹步驟。

在這兩種情況下,速度都至關重要。

更快的數(shù)據(jù)生成意味著可以進行更大規(guī)模、更徹底的數(shù)據(jù)過濾;而更快的證明搜索則意味著可以使得搜索更廣泛,從而增加了在給定時間內(nèi)找到解決方案的可能性。

DDAR的三個主要改進:處理重合點的能力(可以理解為處理更復雜幾何圖形的能力)、更快的算法和更快的實現(xiàn)。

處理重合點在AG1中,如果兩個點在幾何上重合,但名稱不同,則系統(tǒng)無法識別它們是同一個點。例如,如果兩條線a和b相交于點X,而我們想證明X在某個圓ω上,AG1可能會難以處理這種情況。

AG2通過允許使用具有不同名稱但坐標相同的點來解決這個問題。

這種處理重合點的能力非常重要,因為它允許AG2通過「重新表述」來解決問題。在某些情況下,直接證明某個點位于某個圓上可能很困難,但通過引入輔助點并證明該輔助點具有相同的性質(zhì),可以簡化證明過程。

考慮一個證明兩條直線a和b的交點X在圓ω上的例子。

AG2可以通過以下步驟實現(xiàn):首先,創(chuàng)建一個新的點 X',該點是a和ω的交點;接下來,證明X'位于b上。由于X和X'都位于a和b上,可以得出結(jié)論,X和X'是同一點,從而證明X位于ω上。

下圖1直觀地展示了上述證明過程。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

通過這些改進,AG2可以更靈活地處理各種幾何問題,并且能夠以更接近人類思維的方式解決問題。

更快的算法AG1的DDAR算法在處理規(guī)則列表時,會嘗試將每條規(guī)則應用于所有可能的點。

為了提高搜索效率,AG2直接硬編碼了其應用搜索過程,從而減少了對AR子引擎的查詢次數(shù),最多查詢?nèi)巍?br/>

AG2還丟棄了角度和距離的明確規(guī)則(例如關于垂直或平行線的規(guī)則),這些推導都自動在AR引擎中進行。此外,AG2設計了一種改進的DDAR2算法。

通過這些改進,AG2顯著提高了搜索速度和效率,從而加快了證明過程,使得AG2能夠更有效地解決復雜的幾何問題。

更快的實現(xiàn)AG2的核心計算部分,特別是高斯消元法,使用C++重新實現(xiàn)。為了與Python環(huán)境兼容,AG2使用pybind11將 C++庫導出到Python。

通過C++重新實現(xiàn),AG2的速度比AG1快了300多倍。

這意味著AG2在相同的時間內(nèi)可以完成更多的計算,從而更有效地解決復雜的幾何問題。

更好的合成訓練數(shù)據(jù)

AG2的成功很大程度上歸功于其改進的合成訓練數(shù)據(jù)。AG2使用與AG1相同的程序,但通過擴大資源和改進算法,生成了更大、更多樣化、更復雜的數(shù)據(jù)集,從而顯著提升了模型的性能。

AG2首先隨機采樣幾何圖形,然后使用符號引擎(DDAR)推導出所有可能的事實。對于每個推導出的事實,使用回溯算法提取相應的前提、輔助點和推導步驟。

AG2嚴格從隨機圖開始,這樣可以消除數(shù)據(jù)污染的風險,并探索可能超出人類已知定理分布的定理。

這種方法與TongGeometry等依賴人類專業(yè)知識和現(xiàn)有問題圖來指導和過濾數(shù)據(jù)生成的方法形成了鮮明對比。

更大、更復雜的圖和更好的數(shù)據(jù)分布AG2探索的隨機圖大小是AG1的兩倍,從而可以提取更復雜的問題。

生成的定理在復雜性上提高了一倍,包括更多的點和前提。生成的證明步驟最多增加了10倍。

AG2在有和沒有輔助點的證明之間有更平衡的數(shù)據(jù)分布,比例接近50:50,而AG1中有輔助點的證明比例僅為9%。

下圖2展示了AG2相比于AG1中包含了更多復雜、更長的問題,在每個問題類型中都有更平衡的分布。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

更多類型的定理除了生成證明經(jīng)典陳述(如「AB = CD」)的定理外,AG2的數(shù)據(jù)生成算法還生成「軌跡」類型的問題,例如 「當X在直線/圓Y上移動時,Z在固定直線/圓T上移動」。

AG2通過一個函數(shù)P(.)記錄每個點在隨機圖生成過程中的運動依賴性,從而支持軌跡類型問題的生成。

下表3顯示了P(.)函數(shù)的兩個示例,解釋了如何確定點的運動源。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

更快的數(shù)據(jù)生成算法

AG1首先在隨機圖上運行演繹閉包,然后「回溯」以獲得最小問題和證明。為了獲得AG1中的最小問題,必須窮舉地從問題中移除不同的點集,然后重新運行DDAR來檢查可證明性。這對于大量的點來說是不可行的

AG2改用了貪心丟棄算法,該算法只需進行線性次數(shù)的檢查,就可以判斷一組點是否足以證明目標。只要檢查是單調(diào)的(如果A是B的子集,那么如果A可證明,則B也可證明),貪心算法保證能找到一個關于包含關系的最小點集。

新穎的搜索算法在AG2中,研究人員設計了一種新穎的搜索算法基于知識共享集成的搜索樹(SKEST)。

在每棵搜索樹中,一個節(jié)點對應于一次輔助構(gòu)造嘗試以及隨后的符號引擎運行。

如果該嘗試成功,所有搜索樹立即終止。如果嘗試失敗,該節(jié)點會將符號引擎成功證明的事實記錄到共享事實數(shù)據(jù)庫中。

經(jīng)過篩選,這些共享事實不會包含節(jié)點自身特有的輔助點,而只保留與原始問題相關的內(nèi)容,以確保它們對同一搜索樹中的其他節(jié)點以及不同搜索樹中的節(jié)點都具有價值。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

為了確保搜索空間的不同部分都能得到有效探索,研究人員采用了以下幾種搜索樹:

「經(jīng)典」搜索樹:這種搜索樹使用與AG1相同的集束搜索,其中語言模型在每個節(jié)點僅生成一個輔助點。

在每個節(jié)點預測多個輔助點的搜索樹:語言模型被允許在每個樹節(jié)點生成多個輔助點。

這是可行的,因為語言模型經(jīng)過訓練,可以生成完整的證明,從輔助點開始,并依次推導出推理步驟。

盡管研究人員的目標是讓模型在一次查詢中生成所有必要的輔助點,但在實踐中,他們發(fā)現(xiàn)通常需要多次調(diào)用模型,以利用先前生成的輔助點。允許模型生成多個輔助點能夠加速求解過程,并有效地增加搜索樹的深度。

訓練設置AG1語言模型是一個自定義Transformer,在無監(jiān)督模式下經(jīng)過兩個階段的訓練:首先在包含和不包含輔助構(gòu)造的題目上訓練,然后僅在包含輔助構(gòu)造的題目上訓練。

對于AG2,研究人員采用Gemini訓練流水線,并將訓練簡化為一個階段,即在所有數(shù)據(jù)上進行無監(jiān)督學習。

這個新語言模型是一個基于Gemini構(gòu)建的MoE模型,并在AG2的數(shù)據(jù)集上訓練。

研究人員訓練了多種不同規(guī)模的模型,采用三種訓練方案:

1. 從零開始訓練,使用領域特定語言(DSL)的自定義分詞器(與AG1相同)。2. 微調(diào)預訓練的數(shù)學專用Gemini模型,使用自然語言進行訓練。3. 多模態(tài)訓練,從零開始并額外引入圖像輸入,即幾何題目的圖示。

除了一個包含約3億條定理的大型合成訓練集,研究人員還構(gòu)建了三個評估集:

1. 合成問題集「eval」:包含帶有和不帶有輔助點的問題。2. 合成問題集「eval_aux」:僅包含帶有輔助點的問題。3. IMO評估集「imo_eval」:由2000-2024年IMO中,AlphaGeometry先前成功解決的幾何問題組成。

所有這些評估集都包含完整的證明,研究人員在訓練過程中計算它們的困惑度損失。

與AG1相同,主要衡量指標是IMO題目的解答率,其中語言模型生成輔助點后,使用DDAR算法結(jié)合集束搜索進行求解。

研究人員使用TPUv4進行訓練,并采用最大可能的批大小,以充分利用硬件資源。學習率調(diào)度策略為線性預熱(warm-up)+ 余弦退火(cosine anneal),其中學習率的超參數(shù)基于scaling laws設定。

圖5展示了不同規(guī)模Gemini模型的學習曲線(以參數(shù)量為度量)。

如預期所示,模型規(guī)模越大,訓練集、評估集以及IMO評估集的困惑度損失均會降低。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

推理設置在搜索算法方面,研究人員通過多個搜索樹和不同規(guī)模的語言模型來解決一個新的問題。

與AG1不同,研究人員使用了溫度t=1.0和k=32的top-k采樣。需要注意的是,高溫度和多個采樣對于解決IMO問題至關重要。

在貪心解碼模式下(即t=0.0,k=1,且不使用搜索樹),模型只能解決26個需要輔助構(gòu)造的問題中的2個。

而當溫度提高到t=1.0并使用k=32個采樣(但不使用搜索樹)時,語言模型可以解決26個問題中的9個。

如果溫度低于t=1.0,則生成的輔助構(gòu)造不夠多樣化(見圖6);而如果溫度過高,則會增加語言模型輸出的錯誤領域語言語法的比例。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

這個AI,顯示出超凡的創(chuàng)造力

谷歌團隊中的幾位幾何專家和IMO獎牌得主仔細看過AlhpaGeometry的解題過程后,忍不住贊嘆道:它展示出了超凡的創(chuàng)造力!天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

不同配置的AlphaGeometry2,以及其他系統(tǒng)的對比

比如,下面這條題的∠KIL是由中點和內(nèi)心形成的角度,這兩個幾何元素通常難以建立關聯(lián),且無法直接通過主三角形ABC的角度來計算。

在傳統(tǒng)解法中,人類參賽者通常會借助三角函數(shù)、復數(shù)或其他計算方法來求解。而對于AlphaGeometry而言,其DDAR系統(tǒng)僅依靠基本的角度關系推導和比例關系推導,因此需要引入一些輔助點的構(gòu)造。

為此,AlphaGeometry在直線BI上巧妙地構(gòu)造了點E,使得∠AEB = 90°。這一構(gòu)造優(yōu)雅地將那些看似無關的幾何元素聯(lián)系起來,形成了兩對相似三角形:△ABE與△YBI、△ALE與△IPC。這些相似三角形產(chǎn)生了新的等角關系和等比關系,同時也揭示了點E與線段AB中點L之間的重要聯(lián)系。

要完成證明,關鍵在于證明兩組三角形的相似性:△AKI  △BPY和△ALI  △CPX,從而得出∠AIK = ∠BYP和∠AIL = ∠CPX。這一過程可以通過運用前述相似三角形所產(chǎn)生的邊長比例關系來完成。

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

天才解法震驚人類!谷歌AI破天荒摘得奧數(shù)金牌,橫掃IMO 42道幾何難題

正如開篇所述,下面這道題一直以來都只有計算性的解法,例如使用復數(shù)、三角計算或通過不等式進行反證法。而AlphaGeometry既不能使用這些計算和推理工具,也不具備高級歐幾里得幾何知識。

但是,最終的結(jié)果卻出乎意料AlphaGeometry通過構(gòu)建關鍵的輔助作圖,在只用角度和比例追蹤的情況下,給出了一個優(yōu)雅的解決方案。

首先,AlphaGeometry證明了X和Z關于BI對稱,根據(jù)對稱性可知I是三角形XYZ的外心。由此可以證明AB = AC,根據(jù)對稱性可知三角形ABC是等邊三角形。

但是,這個問題的主要挑戰(zhàn)在于使用三角形XYZ是等邊三角形的條件,即XY=YZ及其循環(huán)變體。

為此,AlphaGeometry構(gòu)造了一系列關鍵三角形的外心:

D是三角形BXC的外心

贊助本站

相關內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港