新智元報道
編輯:alan【新智元導讀】AI的飛躍可能會開辟我們理解古代世界的新方法。想象一下,如果ChatGPT可以在「上古卷軸」的文本洪流上接受訓練,我們將有機會直接與歷史對話。2023年10月,一封電子郵件發(fā)到了Federica Nicolardi的手機上,其中有一張圖片將永遠改變她的研究。
這是一張紙莎草卷軸的碎片,此卷軸在公元79年維蘇威(Vesuvius)火山噴發(fā)時被燒毀也就是導致龐貝古城被埋于地下的那次災難。
18世紀,人們在意大利龐貝城附近Herculeaneum的一座豪華羅馬別墅遺跡中發(fā)現(xiàn)了數(shù)百件卷軸,這本燒焦的卷軸就是其中之一。
幾百年來,研究者們試圖剝開卷軸上脆弱的碳化層,探尋內(nèi)部記錄的秘密,卻都沒有成功,許多卷軸因此變成了碎片。
學者們只好接受這些「上古卷軸」永遠無法打開的事實。
意大利那不勒斯大學(University of Naples)的紙莎草紙學家Nicolardi曾嘗試使用AI來閱讀這些難以辨認的內(nèi)容。
現(xiàn)在最新結(jié)果已經(jīng)發(fā)過來了,AI將文字還原為了整齊清晰的希臘字母,這是一段過去2000年來完全無法訪問的文本。
從希臘語、拉丁語、到中國的甲骨文(Oracle Bone Script),AI正在準備重塑我們看待古代世界的方式。
重建古代文本
幾十年來,計算機一直被用于對數(shù)字化文本進行分類和分析,AI的加入使研究者有望處理之前無法理解的龐大檔案。于是,大量新文本得以涌現(xiàn),比過去幾個世紀得到的數(shù)據(jù)還要多。
在2010年代,將深度學習應用于古代文本的早期嘗試是基于文本的數(shù)碼照片(拍攝紙莎草紙或者棕櫚葉的原件)。
這個時期最常用的網(wǎng)絡是CNN,對圖像進行光學字符識別(OCR)。
研究甲骨文的團隊使用模型來還原殘缺的字母圖像、拼湊碎片、以及分析字符如何隨著時間的推移而演變。
與此同時,RNN網(wǎng)絡也發(fā)揮了自己處理時間序列數(shù)據(jù)的優(yōu)勢,被用于搜索、翻譯和填補已翻譯文本的空白。比如,用RNN來猜測古巴比倫文字中數(shù)百個公式化的行政和法律文本中缺失的字符。
除了加速繁瑣的任務,神經(jīng)網(wǎng)絡還幫助建立了人類專家無法發(fā)現(xiàn)的關系。
2017年,英國牛津大學開展了第一個展示AI潛力的大型項目:破譯來自西西里島的希臘銘文。
這些古文字讀起來非常復雜,保存得也很糟糕,有一部分缺失還混合了方言,研究者不確定銘文的具體歸屬地以及日期。
過去的研究人員一般利用自己對類似現(xiàn)有文本的了解來解釋新的資料,他們通常是特定時間和地點作品的專家。
但一個人不可能掌握與新文本相關的所有信息,于是AI登場了。
研究人員在公元前7世紀至公元5世紀之間寫成的數(shù)萬個希臘銘文上訓練了一個RNN模型:Pythia。然后要求模型文本在它以前從未見過的文本上,預測缺失的單詞或字符。
2022年,他們又使用流行的Transformer訓練了一個名為Ithaca的模型,在之前的基礎上加入了預測未知文本的日期和起源地點的能力。
Transformer通過并行分析輸入的不同特征(字符或單詞)來捕獲比RNN更復雜的語言模式,并根據(jù)上下文對其進行加權(quán)。
最終,Ithaca以62%的準確率恢復了古代文本中人工產(chǎn)生的空白,相比之下人類專家的準確率為25%。而Ithaca和專家合作時,預測準確率達到了72%。
此外,Ithaca還以71%的準確率確定了銘文的地理來源,且日期預測也與公認的時間接近。
創(chuàng)建者將Ithaca免費開源后,每周都會收到幾百次的訪問。迄今為止,Ithaca做出貢獻的例子包括重新確定雅典政治法令的日期,以及對公元前4世紀泥板的調(diào)查等等。
海量檔案
關于古代文獻,另一個截然不同的挑戰(zhàn)則是數(shù)據(jù)量。比如研究人員在處理的世界上最大的歷史檔案之一:包含數(shù)十萬篇文章,涵蓋27位韓國國王的統(tǒng)治時間(14世紀至20世紀初)。
這些記錄是完整的,來源也是已知的,但幾乎沒有人能讀懂,因為它們是用古漢字書寫的,不同于現(xiàn)代漢字或韓文。
一個由政府翻譯組成的小團隊,正在努力手動將這些文本翻譯成現(xiàn)代韓語,但這項任務可能需要幾十年才能完成。
來自紐約大學(New York University)的首席機器翻譯研究員 Kyunghyun Cho與同事合作,訓練了一個基于Transformer的網(wǎng)絡來自動翻譯這些記錄。
由于目前還沒有足夠的類似數(shù)據(jù)來訓練這樣的模型,因此團隊采取了多語言方法。專家認為AI的翻譯(對國事訪問、懲罰叛徒和音樂會等事件的描述)比古代的翻譯更準確、更易讀,在某些情況下甚至比現(xiàn)代翻譯更好。
另一方面,研究人員正在使用神經(jīng)網(wǎng)絡來處理只有少量文本幸存下來的古代語言。
訓練Transformer一般需要大量的數(shù)據(jù),不適用于這種情況,研究者于是回歸以前的模型。
例如,希臘Patras大學的Katerina Papavassileiou和同事使用RNN從克里特島克諾索斯(Knossos, Crete)的1,100塊邁錫尼泥板(Mycenaean tablets)中恢復了缺失的文本,包含公元前兩千年書寫的羊群記錄(Linear B)。
在人工測試中,模型的前十個預測準確率達到了72%,而在實際應用中,其性能通常能跟人類專家打平。
為了進一步改進結(jié)果,Papavassileiou希望添加視覺數(shù)據(jù)(如不完整字母的痕跡),而不僅僅是依賴音譯文本。她還在研究「遷移學習」,將模型從一個系列的泥板中學到的知識應用于其他系列的泥板。
看似不可能的任務
讓我們回到最開始的例子,閱讀赫庫蘭尼姆(Herculaneum)卷軸涉及克服兩個大問題。首先,脆弱的卷軸無法展開。為了看到它們的內(nèi)部,計算機科學家 Brent Seales花了數(shù)年時間開發(fā)「虛擬展開」技術,包括對卷軸的內(nèi)部結(jié)構(gòu)進行高分辨率計算機斷層掃描(CT),并手工繪制橫截面每一幀中可見的表面,然后使用算法將表面展開成平面圖像。
2015年,研究人員使用這種技術從以色列恩戈地(EnGedi)的一個燒焦、無法打開的卷軸(公元3世紀左右)中閱讀完整的文本,結(jié)果證明它來自圣經(jīng)的章節(jié)。
相比于EnGedi的卷軸,Herculaneum的卷軸每卷都有幾百圈,而且像絲綢一樣薄。為了捕獲極高分辨率的CT數(shù)據(jù),團隊將幾個卷軸運送到牛津附近的Diamond Light Source使用粒子加速器。
但是,EnGedi卷軸和其他后期作品的墨水往往含有鐵,在CT掃描中會發(fā)出明亮的光芒,而Herculaneum的抄寫員使用的是碳基墨水,在掃描中是看不見的,因為它的密度與使用的莎草紙相同。
Seales團隊意識到,雖然他們無法直接看到墨水,但有可能檢測到它的形狀。如果裸露的紙莎草纖維與涂有墨水的纖維相比,表面紋理存在細微差異,也許他們可以訓練神經(jīng)網(wǎng)絡來捕捉這種差異。
不過對于Seales的小團隊來說,這個工作量太大了,因此他們在2023年3月與硅谷企業(yè)家Nat Friedman合作發(fā)起了維蘇威火山挑戰(zhàn)賽(Vesuvius Challenge),并提供了豐厚的現(xiàn)金獎勵。
Seales團隊發(fā)布了卷軸表面的扁平圖像,并要求參賽者訓練神經(jīng)網(wǎng)絡來找到墨水。超過1,000個團隊參加了比賽,每天都有數(shù)百人在比賽的Discord頻道上討論進度。
最終在2024年2月,計算機專業(yè)的學生Youssef Nader、Luke Farritor和Julian Schilliger 獲得了700,000美元的大獎。
獲勝團隊使用了TimeSformer,是Transformer的一種變體,通常用于在視頻數(shù)據(jù)中分別處理空間和時間維度。
對于散落在那不勒斯、巴黎、倫敦和牛津的這些「上古卷軸」,這個時代的AI將有望令其重見光明。
參考資料:https://www.nature.com/articles/d41586-024-04161-z