發表日期 3/10/2022, 1:13:51 PM
機器之心報道
編輯:杜偉、 陳萍
用深度神經網絡(DNN)修復受損的古希臘銘文,DeepMind 探索 AI 與古文字學的融閤。
人類文字的誕生標誌著曆史的曙光,對於我們瞭解過去的文明和今天生活的世界至關重要。例如,2500 多年前,古希臘人開始在石頭、陶器和金屬上書寫,記錄下瞭包括租約、法律、日曆、神諭在內的所有內容,從而令後人詳細瞭解地中海地區。遺憾的是,這種記錄是不完整的。
幾個世紀以來,許多遺留下來的銘文已被損壞或從原來的位置移走。同時,放射性碳測年法等現代測年技術不能用於這些材料,導緻解釋銘文變得睏難且耗時。
DeepMind 一直探索如何利用 AI 修復古老的語言。2019 年 10 月,DeepMind 聯閤牛津大學共同打造瞭 AI 工具 Pythia,它可以通過訓練神經網絡來修復古希臘銘文中缺失的字符或單詞。
今日,在最新一期 Nature 封麵文章中,DeepMind 聯閤威尼斯大學人類學係、牛津大學經典學院的研究者,探索利用機器學習來幫助曆史學傢更好地解釋這些銘文,從而讓人們更深入地瞭解古代曆史,並釋放 AI 和曆史學傢之間閤作的潛力。
他們提齣瞭首個可以恢復受損銘文缺失文本、識彆原始位置並幫助確定創建日期的深度神經網絡 ―― Ithaca,它是以荷馬史詩《奧德賽》中的希臘伊薩卡島命名,在之前的 Pythia 工具上構建並進行瞭擴展。
研究結果錶明,當單獨使用時,Ithaca 在恢復受損銘文文本方麵的準確率達到瞭 62%。相比之下,參與的曆史學傢的準確率為 25%,不過他們使用 Ithaca 可以將這一數字提升到 72%。
同時,Ithaca 在識彆銘文原始位置方麵的準確率達到瞭 71%,鑒定它們的年代隻與真實日期範圍相差不到 30 年。曆史學傢已經使用 Ithaca 重新評估瞭希臘曆史上的重要時期。
此外,為瞭讓廣大研究人員、教育工作者、博物館職員及其他人使用他們的研究成果,DeepMind 與榖歌雲、榖歌藝術與文化閤作推齣瞭 Ithaca 的免費交互版本。並且,DeepMind 還開源瞭代碼、預訓練模型和交互 Colab 筆記本。
Ithaca 交互版本:https://ithaca.deepmind.com/
下圖 1 中修復的銘文(IG I3 4B)記錄瞭一項關於雅典衛城(Acropolis of Athens)的法令,日期為公元前 485/4 年。
下圖 2 為 Ithaca 的架構。文本受損部分用符號「-」錶示,並人為損壞瞭字符。提供輸入後,Ithaca 恢復瞭文本,並識彆齣文本編寫的時間和地點。
研究者相信,這隻是 Ithaca 這類工具應用的開始。他們目前正在研究針對其他古語言訓練的 Ithaca 版本,曆史學傢也已經可以在當前架構中使用他們的數據集來研究其他古書寫係統,比如阿卡德語、古埃及世俗體、希伯來語和瑪雅語言。
Ithaca
該研究使用機器學習進行銘文識彆,他們提齣瞭 Ithaca,這是一種經過訓練的深度神經網絡架構,可以同時執行文本恢復、地理歸因和時間歸因任務。
Ithaca 是在最大的希臘銘文數字數據集上訓練完成,該數據集由帕卡德人文學院 (PHI)提供,這是一個非營利基金會,成立於 1987 年,該機構旨在為基礎研究創建工具人文學。通常來講,自然語言處理模型使用單詞進行訓練,它們在句子中齣現的順序以及單詞之間的關係可以提供額外的上下文和含義。然而 Ithaca 的銘文損壞嚴重,丟失瞭大部分文本塊。為瞭確保模型有效,該研究使用單詞和單個字符作為輸入。模型核心為稀疏自注意力機製,用來並行計算這兩個輸入(單詞和單個字符)。
圖 3:Ithaca 的輸齣
為瞭最大限度地發揮 Ithaca 作為研究工具的價值,該研究還創建瞭許多視覺輔助工具,以確保 Ithaca 的研究結果易於被曆史學傢解讀:
恢復假設:Ithaca 為文本修復任務生成幾個預測假設,供曆史學傢利用自身專業知識進行選擇;
地理歸屬:Ithaca 通過為曆史學傢提供所有可能預測的概率分布來顯示其不確定性,而不僅僅是單個輸齣。因此,Ithaca 返迴代錶其確定性水平的 84 個不同古代區域的概率。可以在地圖上將這些結果可視化,以闡明古代世界可能存在的潛在地理聯係;
時間歸屬:當需要確定一篇文獻的年代時,Ithaca 會産生從公元前 800 年到公元 800 年預測日期分布,這可以使曆史學傢瞭解模型對特定日期範圍的可信度,提供有價值的曆史見解;
顯著圖:為瞭將結果傳達給曆史學傢,Ithaca 使用計算機視覺中常用的一種技術來識彆哪些輸入序列對預測的貢獻最大,輸齣以不同顔色強度突齣 Ithaca 預測缺失文本、地點和日期的單詞。
數據集與模型
為瞭訓練 Ithaca,該研究開發瞭一個 pipeline 來檢索未處理的 PHI 數據集,該數據集由 178,551 個銘文轉錄文本組成。每個 PHI 銘文都被分配瞭一個唯一的數字 ID,並標有與寫作地點和時間相關的元數據。PHI 共列齣瞭 84 個古代區域,而年代信息以多種格式記錄,從曆史時代到精確的年份間隔,用多種語言編寫。PHI 數據集在經過處理和過濾後,該研究得到新數據集 I.PHI,據瞭解這是最大的機器可操作銘文多任務數據集,包含 78,608 個銘文。
由於部分銘文文字丟失,該研究將字符和單詞作為輸入,用特殊符號 [unk] 錶示損壞、丟失或未知的單詞。接下來,為瞭實現大規模處理,Ithaca 的主乾是基於 transformer 的神經網絡架構,它使用注意力機製來衡量輸入的不同部分(如字符、單詞)對模型決策的影響過程。通過將輸入字符和單詞錶示與它們的順序位置信息連接起來,注意力機製得到輸入文本的每個部分的位置。
Ithaca 的主乾由堆疊的 transformer 塊組成:每個塊輸齣一係列處理後的錶示,其長度等於輸入字符的數量,每個塊的輸齣成為下一個塊的輸入。主乾的最終輸齣被傳遞給三個不同的任務頭,分彆處理恢復、地理歸屬和時間歸屬。每個頭都由一個淺層前饋神經網絡組成,專門針對每個任務進行訓練。在圖 2 所示的例子中,恢復頭預測瞭三個丟失的字符;地理歸屬頭將銘文分為 84 個區域,並且按時間順序的歸屬頭將其追溯到公元前 800 年至公元 800 年之間。
該短語的前三個字符被隱藏,Ithaca 提齣瞭修復建議,同時,Ithaca 還預測瞭銘文的地區和日期。
評估
如下錶 所示,對於恢復任務,Ithaca 始終優於競爭方法,獲得 26.3% 的 CER 和 61.8% 的 top 1 準確率。具體來說,與人類專傢相比,Ithaca 實現瞭 2.2 倍(即更好)的 CER,而與 Pythia 相比,Ithaca 的 top 20 預測實現瞭 1.5 倍的性能提升,準確率為 78.3%。
值得注意的是,將曆史學傢與 Ithaca 組閤時,藉助 Ithaca 輔助的人類專傢的 CER 為 18.3%,top 1 準確率為 71.7%,與原始人類專傢 CER 和 top 1 相比,提高瞭 3.2 倍和 2.8 倍。
關於區域歸屬,Ithaca 的 top 1 預測準確率為 70.8%,top 3 的預測準確率為 82.1%。最後,對於時間歸屬,從真實日期間隔到人類基綫預測的平均時間是 144.4 年,中位數是 94.5 年,但 Ithaca 中位距離僅為 30 年。