根據聯合國教科文組織的瀕臨滅絕語言地圖(interactive map of threatened and endangered languages),全世界現有近7,000種瀕臨絕種的語言,當中九成可能在80年內消失,各界專家正在展開拯救行動,而人工智能(AI)可以技術大派用場。
統計學專家David Corliss指出,拯救一種語言的最佳時間是在它未瀕臨消失的時候。一種語言消失,代表著相關的文化絕跡,是十分可惜的事。Google的Woolaroo和OBTranslate都共享資源,協助有心人運用AI拯救消失中的語言和文化。Woolaroo是開放碼平台,讓用家以鏡頭拍下物件上的文字,然後上載至平台保存和共享。Data for Good一方面提供繙譯服務,另一方面連結統計學者、數據科學家、語言專家和使用不同母語的人,建立語言的數據庫,目前數據庫已有2,000多種語言的資料。
德國Ludwig-Maximilians-University Muchen(LMU)的研究人員用AI繙譯公元前4世紀、古代美索不達米亞銘文上的楔形文字。帶領這項研究項目的占文尼斯(Enrique Jiménez)教授說,陶泥是古代最便宜和耐用的書寫媒介,但一旦泥乾了便會變得脆弱,容易破裂,現在看到的都是殘缺不全的部分。AI系統通過深度學習運算,加上機器神經系統網絡,能夠憑碎片和不完整的文字,精準地推測古文的意義。AI 另一強項是從文本圖像詮釋文義,因此一些破舊的典籍或殘破的碑文,AI也可以憑圖像推敲其意思。
團隊迄今用AI繙譯了30多萬句美索不達米亞古文,並將有2,300多年歷史的經典吉爾伽美什史詩還原,去年系統就確認了一塊「碎片」屬於史詩。占文尼斯表示:「AI技術有助我們重建巴比倫文學,以往難以詮釋的文字歧義,AI通過類似基因排序的分析方法,能夠結合語境,準確作出繙譯。」他說以AI為基礎的龐大「碎片」資料庫是威力驚人的考古工具,惟系統需要大量數據來支持學習,因此LMU與大英博物館和伊拉克博物館合作,兼望將收藏品的相關資料收錄在AI資料庫裡。
科技公司DeepMedia利用其文本和聲音平台整理古希臘文獻的內容,準確度達62%。該公司的CEO吉卜特解釋,AI將人類智慧和雲端的延伸性結合起來,用Rosetta Stone程式辨識古籍的文字,為古籍研究帶來突破。他表示:「AI並不會取代人類,而是協助人類將語言學家、歷史學家等的智慧提升。古代語言得靠文物或遺跡,以及說某種語言的民族後代傳承。AI能夠迅速處理大量數據,將古代語言的文本數碼化和繙譯。」他認為 AI 考古學仍處於初始階段,預料ChatGPT可以推進這領域的發展,讓大家更準確地辨識和解讀古文,甚至深入古代文化。
占文尼斯教授認為AI能夠憑古文的「碎片」推敲原文的意義,為研究古代文明和歷史帶來重大突破。
不少科技公司紛紛推出用AI重現古代文明的工具。Equator AI最近推出視頻,用電腦生成不同背景的古代人物角色,片中運用了古典英語、日語、琉球語等古代語言。古典英語聽起來像現在的蘇格蘭語,夾雜著拉丁韻律,而且有很多捲舌音,與現代英語大相逕庭。
短片中重現的古代語言:
0:01 Old Norse(古代斯堪地那維亞人的語言)
0:24 馬雅語
0:53 拉丁語
1:29 中世紀中文
1:57 古代英語
2:28 古代日語
2:57 古教會斯拉夫語(Old Church Slavonic)
3:26 原始凱爾特語(Proto-Celtic language)
3:56 中世紀埃及語
4:26 琉球語
4:56 古代希臘語
5:30 腓尼基語 (Phoenician language)──腓尼基族是生活在今天地中海東岸、黎巴嫩和叙利亞沿海一带的古老民族
5:53 赫梯語(Hittite language)──公元前20世紀的亞洲古國,位於安納托利亞
6:23 克丘亞語(Quechua)──分佈在南美洲的原住民
6:53 阿卡德語(Akkadian language)──阿卡德是公元前二千多年的第一個帝國,位於今天的伊拉克