物理科技生物学-PHYICA

研究人电视剧刀客家族的女人员使用人工智能来解开古代文本的秘密

技术工程 2021-12-31 21:54:12

latin Credit: CC0公共领域瑞士圣加尔修道院图书馆收藏了大约16万册可追溯到8世纪的文学和历史手稿——所有这些手稿都是用羊皮纸手写的,语言在现代很少使用。为了保存这些人类的历史记录,数以百万计的这些文献被安全地保存在世界各地的图书馆和修道院中。这些收藏品中有很大一部分是通过数字图像提供给普通大众的,但专家表示,有大量的资料从未被阅读过——这是一个隐藏在其中的洞察世界历史的宝库。

现在,圣母大学的研究人员正在开发一种基于人类感知的人工神经网络来阅读复杂的古代笔迹,以提高深度学习转录的能力。

圣母院计算机科学与工程系丹尼斯·o·多尔蒂学院副教授沃尔特·谢雷尔说:“我们处理的是早已过时的历史文件,这些文件可以追溯到许多世纪以前,而且像拉丁语这样的语言已经很少使用了。”。“你可以获得这些材料的漂亮照片,但我们已经着手做的是以一种模拟专家读者眼中的页面感知的方式自动转录,并提供快速、可搜索的文本阅读。”

在电气和电子工程师协会期刊《模式分析和机器智能学报》上发表的一项研究中,谢雷尔概述了他的团队是如何将传统的机器学习方法与视觉心理物理学相结合的——视觉心理物理学是一种测量物理刺激和心理现象之间联系的方法,例如专家读者识别特定字符、评估手写质量或识别某些缩写的使用所需的时间。

谢雷尔的团队研究了数字化的拉丁手稿,这些手稿是9世纪由圣加尔修道院的抄写员撰写的。读者将手动转录输入一个特别设计的软件界面。研究小组随后测量了转录过程中的反应时间,以了解哪些单词、字符和段落容易或困难。Scheirer解释说,包含这类数据创建了一个更符合人类行为的网络,减少了错误,并提供了更准确、更真实的文本阅读。

“这是一种机器学习中不常用的策略,”Scheirer说。“我们通过这些心理物理测量来标记数据,这些测量直接来自感知的心理学研究——通过进行行为测量。然后,我们会将感知这些字符的常见困难告知网络,并根据这些测量结果进行纠正。”

使用深度学习来转录古代文本是人文学者非常感兴趣的事情。

圣母院古典文学系副教授希尔德冈·穆勒(Hildegund Müller)说:“只拍照片并阅读它们与拥有一个提供可搜索阅读的程序是有区别的。“如果你考虑这项研究中使用的文本——9世纪的手稿——那是中世纪的早期阶段。离印刷机还有很长时间。那是一个产生大量手稿的时代。在这些手稿中隐藏着各种各样的信息——以前没有人见过的不明文本。”

谢雷尔说,挑战依然存在。他的团队正在努力提高转录的准确性,尤其是在文档损坏或不完整的情况下,以及如何解释插图或页面的其他方面,这些可能会使网络感到困惑。

然而,该团队能够调整该程序来转录埃塞俄比亚文本,使其适应一种具有完全不同字符集的语言——这是开发一个能够为用户转录和翻译信息的程序的第一步。

“在文学领域,这可能真的很有帮助。每一部好的文学作品都被大量的历史文献所包围,但真正有用的地方是历史档案研究,”穆勒说。“非常需要推进数字人文学科。当你谈论中世纪和近代早期时,如果你想了解历史事件的细节和后果,你必须浏览书面材料,这些文本是我们唯一拥有的。在西方世界之外,这个问题可能更大。想想在受到威胁的文化中正在消失的语言。我们必须首先保存这些作品,让它们变得容易获得,并在某个时候加入翻译,让它们成为仍在进行的文化进程的一部分——我们正在与时间赛跑。”

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/7066.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~