世界最牛的档案馆,世界著名档案馆

大明星 2025-06-15 10:50www.198689.com大明星

世界上最顶尖的档案馆,令人叹为观止。在这里,你可以亲眼目睹各国领导人的珍贵档案,如美国总统尼克松、英国首相撒切尔夫人和法国总统戴高乐的历史记录。这些档案中的珍品,包括戴高乐将军的照片、尼克松总统的签名笔记本等,都是世界级的文物。

企业档案馆是专门管理本企业档案的机构,集中管理特定范围的档案。这是一项极其重要的任务,对于保护企业的历史和文化具有重要意义。

识别并转录古老且混乱的文本却是一项异常艰巨的任务。梵蒂冈秘密档案室是世界上最伟大的历史收藏馆之一,其收藏规模及范围无可比拟。在这里,你可以找到教皇利奥十世下令驱逐马丁路德的教令、苏格兰玛丽女王被斩首前写给教宗西都斯五世的求情信等珍贵文件。

尽管梵蒂冈秘密档案室无比伟大,但对现代学者来说,其用处却十分有限。由于大部分文件未被扫描提供在线访问,且只有极少部分文件被转录为计算机文本,因此研究这些文件需要特殊的访问权限,并需亲自前往罗马进行手动浏览。

一项新兴的技术项目——In Codice Ratio,正试图改变这一现状。它将人工智能和光学字符识别(OCR)软件相结合,以转录这些被忽视的文本,让隐藏的文本大白于天下。如果成功,这项技术将开启其他隐藏在世界各个历史档案馆中的文件,方便人们的研究和访问。

多年来,OCR技术一直被用于扫描书籍、打印文件等。传统的OCR技术并不适用于梵蒂冈内的机密档案。传统的OCR技术通过查找字符之间的空白来将单词分解成一系列字母图像,然后将其与内存中的字母库进行比对,以转录为计算机ASCII编码。但是这个过程只能用于排版后的文本,对于手写文本则表现糟糕。

梵蒂冈的大部分文件都是手写文本,这造成了巨大的识别难题。主要问题在于字母间缺少空格(所谓的脏分割),导致OCR软件无法分辨单个字母的起止位置。一些计算机科学家尝试重新开发OCR技术,不再仅识别单个字母,而是识别整个单词。但是建立这样的系统并让它正常运转是一种巨大的挑战,需要大量的存储库作为支撑。

In Codice Ratio团队采取了一种新的手写OCR方法,成功地绕开了Sayer悖论。该团队的四位主要科学家使用一种新型的“拼图分割”方法,将单词分割成更接近于单个笔画的东西。他们没有将单词分割为字母,而是将其划分为一系列垂直、水平带,并寻找局部最小部分。然后软件根据这些局部点分割字母,得到的结果是一系列拼图块。

为了训练OCR软件重新组合这些拼图块并识别真正的字母,该团队向高中生寻求帮助。他们在意大利的24所学校招募学生,建立自己的记忆库。学生们通过登录一个网站,在屏幕上出现的三个部分的图片中学习和识别中世纪拉丁文。这些高中生在帮助科学家解决一个复杂的技术难题的也为保护和传承人类历史文化遗产做出了重要贡献。在Codice项目中,我们看到了一个令人惊叹的机器学习之旅。在这个旅程中,科学家们用智慧的红框和网格系统来教授OCR软件识别古老的拉丁文。这是一种极富创意的方法,让机器能够学习识别中世纪拉丁文的复杂字符。这就像拼图游戏一样,学生们将碎片拼接成完整的字母或单词。当学生们参与这一过程时,他们成为了人工智能学习的重要参与者。虽然一开始人们可能认为让高中生参与这样的任务似乎有些愚蠢,但现在看来,这种参与实际上为OCR软件的学习带来了质的飞跃。每个微小的贡献都为解决复杂的问题提供了宝贵的帮助。这种集体努力的结果使得OCR软件得以在识别手写文本方面取得显著的进步。

在教学的初步阶段,学生们帮助软件区分假朋友和真正的例子。他们通过点击复选框来告诉软件哪些字母组合是正确的。这些看似简单的任务实际上帮助软件逐渐理解拉丁文字母的形状和特征。一旦软件掌握了这些基本的模式,它就可以开始独立地进行识别工作。这个过程体现了人工智能学习的本质——通过大量的数据和反馈来不断调整和优化自身的性能。在这个阶段,软件本身已经成为了一个专家,它有能力独立地进行识别工作。

解决识别手写文本的问题仍然是一项挑战。想象一下你正在阅读一封信,可能会遇到一些难以区分的字母组合,比如“d”和“cl”的笔画看起来是相同的。我们的OCR软件在面对这种情况时也会感到困惑,尤其是在处理高度风格化的文本时更是如此。为了解决这个问题,In Codice Ratio团队采取了额外的措施来教授软件一些常识性的知识。他们利用了大量的拉丁词语料库来帮助软件理解哪些字母组合是常见的,哪些则不可能出现。通过这些统计数据,OCR软件可以为不同的字母组合分配概率,从而提高其识别的准确性。

经过这些改进和优化后,OCR软件已经能够自主阅读一些文本了。为了测试软件的性能,团队决定向它馈送一些Vatican Registers文件。虽然最初的测试结果有些参差不齐,但在识别手写信件方面,软件的准确率达到了96%。即使存在某些拼写错误,这些不完美的转录仍然提供了足够的信息和背景资料。Merialdo认为这对于研究历史文献的人来说是非常有用的工具。这个项目展示了人工智能的巨大潜力以及人类智慧的无限可能。

上一篇:早到的天使 早到天使宣传语 下一篇:没有了

Copyright © 2016-2025 www.198689.com 奇技网 版权所有 Power by