专访DeepMind团队:“伊萨卡”复原希腊铭文只是开始
AlphaGo战胜人类世界围棋冠军、AlphaFold在预测蛋白质结构方面准确性和人类实验结果接近、语音合成算法WaveNet帮助“渐冻人”重现更自然的声音,甚至用AI控制核聚变反应……全球范围内最受关注的人工智能公司DeepMind创立至今超过10年,试图用人工智能技术解决一切他们认为最紧迫和最基本的科学挑战。他们最新瞄准的是那些有着数千年历史的残缺铭文。历史学家们依靠不同的来源重建过往文明的思想、社会和历史,他们的资料大多基于本文,或写在卷轴上,或刻在石头上。铭文就在其中。
“一切都始于与Thea Sommerschield博士讨论历史学家最具挑战性的任务时的一次谈话,我们立刻看到了人工智能和历史研究之间的合作潜力。”DeepMind的希腊人工智能研究科学家Yannis Assael博士和Sommerschield在接受澎湃新闻(www.thepaper.cn)记者采访时如是谈起他们这项最新兴趣的起点。Sommerschield系意大利威尼斯大学人文系玛丽·居里研究员。
Yannis Assael博士(左)和Thea Sommerschield博士。
北京时间3月10日凌晨,国际顶级学术期刊《自然》(Nature)在线发表了Assael和Sommerschield作为共同通讯作者的一项新研究,题为“使用深度神经网络复原和归因古代文本”( Restoring and attributing ancient texts using deep neural networks)。研究团队训练了一种深度神经网络,名为伊萨卡(Ithaca)。
伊萨卡是以荷马史诗《奥德赛》中的希腊岛屿伊萨卡命名,是古希腊神话英雄奥德修斯的故乡。“我们开发的伊萨卡是第一个可以复原受损铭文的缺失文本、识别铭文原始位置、确定创建日期的深度神经网络。”
评估显示,伊萨卡单独使用于复原受损希腊铭文文本时可达到62%的准确率,在历史学家使用时可达72%的准确度。而且,伊萨卡还能协助确定铭文的书写位置和时间。在实验中,它能以71%的准确度判断这些铭文的原始位置,鉴定年代与历史学家提出的范围相差少于30年。
研究团队认为,这些发现或可释放人工智能与历史学家的合作潜力,并改进我们对人类历史的理解。“我们确实看到了文化和人文领域人工智能跨学科研究的巨大潜力。”Assael强调。
复原损坏的铭文。这一铭文记录了一项关于雅典卫城的法令。
深度神经网络“伊萨卡”
这项研究由DeepMind、威尼斯大学人文系、牛津大学古典学院以及雅典经济与商业大学信息学系联合完成。
Assael在希腊马其顿大学获得应用信息学文凭后,相继在牛津大学、帝国理工学院学习,最终于2019年在牛津大学获得机器学习博士。而实际上,其从2007年起就开始成为了自由开发者,彼时尚在念高中。其间还创立了AccuInstruments、LipNet Artificial Intelligence等公司。直至2017年,其加入DeepMind。Assael还曾登上2021福布斯欧洲地区“30岁以下30位精英”榜单。
Sommerschieldze则是研究古希腊和古罗马文字的历史学家和铭文学家。其将机器学习应用于研究古地中海的书写文化,她还研究古代和古典西西里岛的社会和文化历史。其现为威尼斯大学的玛丽·居里研究员,同时借调在DeepMind,她也是哈佛大学希腊研究中心的研究人员。
DeepMind在一份新闻稿中写道,人类文字的诞生标志着历史的开端,对我们理解过去的文明和今天生活的世界至关重要。例如,2500多年前,希腊人开始在石头、陶器和金属上书写,记录从租约、法律到日历和预言的一切,让人们对地中海地区有了详细的了解。
然而,Assael等人意识到一个问题,这些记录通常都是不完整的。许多幸存下来的铭文在几个世纪的时间里遭到了破坏,或者从原来的位置被移走或者贩运。此外,现代年代测定技术,如放射性碳年代测定法,无法在这些材料上使用。而传统的铭文学方法涉及到高度复杂、耗时和专业的工作流程,这使得解读铭文既困难又费时。
Assael对澎湃新闻记者表示,在将人工智能切入到铭文复原中,他们的工作涉及三项主要的任务,“文本复原、确定原始的地理位置,以及追溯至铭文书写的时间。”
他们在论文中也指出,受生物神经网络的启发,深度神经网络可以发现和利用大量数据中复杂的统计模式。而近年来计算能力的提高,使这些模型能够应对包括古代语言研究在内的许多领域中日益复杂的挑战。
Assael将目标旨在完成上述三项任务的深度神经网络命名为伊萨卡(Ithaca),该工作始于2019年。“伊萨卡接受了近8万份由帕卡德人文学院(PHI,一个非营利性基金会)提供的希腊铭文数字数据集的培训,它的架构旨在捕捉上下文并有效地处理受损的单词,同时它还可以并行地“注意”输入的不同部分。”他表示。
这些希腊铭文的时间跨度在公元前7世纪至公元5世纪,并横跨古地中海世界。论文中对这些铭文的选择做出2点解释,“首先,希腊铭文记录的内容和语境的多样性,对语言处理构成了极大的挑战;其次,古希腊数字化语料库的可用性,这是训练机器学习模型的重要资源。”
Assael提到,伊萨卡是一种基于Transformer的人工神经网络,它使用注意力机制来衡量输入的不同部分对模型决策过程的影响。相比于循环神经网(RNN)、卷积神经网络(CNN)等,Transformer是一种新的神经网络结构,其仅基于注意力机制,抛弃了传统的循环或卷积神经网络结构。
研究团队提到,自然语言处理模型通常使用单词进行训练,因为它们在句子中出现的顺序和它们之间的关系提供了额外的上下文和含义。例如,“once upon a time”比单独看到的每个字符或单词有更多的含义。然而在这项研究中的挑战是,这些铭文都已损坏,而且经常丢失文本块。
“为了确保模型在使用部分字符时仍能正常工作,我们既使用单词也使用单个字符输入来训练它。”他们提到,模型核心的注意力机制并行地评估这两种输入,允许伊萨卡根据需要评估铭文。
此外,为了最大化伊萨卡作为研究工具的价值,研究团队还开发了一些视觉辅助工具,以确保历史学家能够轻松地解释伊萨卡的结果。
伊萨卡处理δήμο το αθηναίων’ (the people of Athens)的过程。该短语的前三个字符被隐藏,最终提出了修复建议。同时,伊萨卡还预测了铭文的地区和日期。
希腊铭文复原仅有助于理解全球文明图景的一部分
Assael对澎湃新闻记者表示,伊萨卡的目标是提高我们对古代史的理解,并为历史学家提供一个方便的工具来帮助他们的研究。
“出于这个原因,为了让历史学家能够解释伊萨卡,我们创造了大量的可视化图像来呈现所有的伊萨卡推测。这些可视化技术允许专家们使用他们的背景知识来选择最合适的输出,并可能对未探索的历史见解有所启发。”他进一步提到。
论文中详细提到,对于复原任务,伊萨卡并不是提供单一的假设,而是提供了一组根据概率排序的前20个解码预测。在确定地理任务方面,伊萨卡在84个区域中对输入文本进行分类,并通过地图和条形图可视化地实现可能区域预测的排名列表。
在年代方面,为增加可解释性,伊萨卡也不是输出一个单一的时间,而是预测时间的分类分布。更准确地说,伊萨卡将公元前800年至公元800年之间的所有时间处理为,取每10年为一个跨度,也就是说有160个10年。例如,如果日期范围在公元前300至公元前250年间,也就是5个10年,每一个概率分别为20%;而日期如果在公元前305年,则将以100%的概率指定为出自公元前300至公元前310年。评估显示,在复原文本方面,伊萨卡始终优于其他竞争方法,字符错误率(CER)为26.3%,top 1准确率为61.8%。对复原铭文文本和确定原始的地理位置方面,研究团队还引用top-k准确率来衡量,即正确的复原或地理位置是否在前k项预测中。
具体来说,与人类历史学家相比,伊萨卡实现了更低的字符错误率(CER),人类历史学家该项分数为59.6%。另外,与研究团队此前开发的专注于文本复原的皮提亚(Pythia)相比,表现也更为优秀。皮提亚名字取自希腊神殿德尔斐中为阿波罗神传达神谕的女祭司。在文本复原方面,皮提亚皮的字符错误率(CER)为47.0%,虽然高于伊萨卡,但也高于人类历史学家。
值得注意的是,当人类历史学家与伊萨卡合作时,历史学家的字符错误率(CER)大幅降低到18.3%,top 1准确率则从25.3%大幅提升至71.7%。
在地理定位方面,伊萨卡top 1预测准确率为70.8%,top 3预测准确率为82.1%。对于年代追溯,伊萨卡与历史学家提出的范围相差少于30年。 “值得注意的是,在我们的评估过程中,我们看到了多个伊萨卡与历史学家共识一致的例子。”Assael举例谈到,他们看到了伊萨卡如何将雅典的一篇提到尼基亚斯(Nikias)将军的铭文追溯到公元前413年,“这与历史学家提出的范围完全吻合。”
他补充到,“在进一步研究中,我们将伊萨卡的关注重点可视化,看看哪些部分的输入对这一预测贡献最大。我们看到的是个人姓名(Νικίας,“Nikias”)和希腊指挥官的军衔(στρατεγοῖς,“generals”)。尼基亚斯在雅典远征西西里岛的过程中扮演了关键的角色,而这篇铭文也与这一历史事件有关。
论文中也提到了另一案例来展示伊萨卡的潜力。研究团队注意到,目前历史学家对雅典颁布的一系列重要法令的日期存在分歧,这些法令是在苏格拉底和伯里克利等著名人物在世的时期颁布的。长期以来,这些法令被认为是在公元前446/445年之前写的。然而,也有新的证据表明,更有可能是公元前420年。
他们认为,虽然看起来差别不大,但这些法令对我们理解古代雅典的政治史是至关重要的。值得关注的是,伊萨卡对这些法令的平均预测日期是公元前421年,这与最新的推测日期几乎一致。
“雅典帝国主义是希腊历史上最重要的时刻之一。在任何情形下,伊萨卡对这组铭文的预测都不会超过公元前433年,平均预测日期是公元前421年。”研究团队认为,历史学家现在可以使用伊萨卡的可解释性工具来进一步研究这些预测,并使雅典的历史更加清晰。
Assael同时强调,模型改进的空间总是存在的。“特别是随着新铭文的发现,将会为这类文本进一步增加数字文本存储库。”
值得一提的是,Assael认为,伊萨卡很容易适用于任何古代语言,而尽管古希腊在我们理解地中海世界的过程中发挥了重要作用,但它仍只是全球文明图景的一部分。“从拉丁语到玛雅语,以及任何书写媒介,从莎草纸到手稿,我们真的很高兴看到伊萨卡将用于更多新的方向。”
此外,研究团队在论文最后还指出,他们创建了一个开源和公开可用的接口(https://ithaca.deepmind.com),便于历史学家能够使用伊萨进行个人研究,同时促进进一步应用的开发。
“我们确实看到了文化和人文领域人工智能跨学科研究的巨大潜力。”Assael表示,目前仅仅是伊萨卡这样的工具的开始,机器学习和人文学科之间合作的潜力也刚刚展示出来。
页:
[1]