使用智能手机数字化世界图书遗产

这个星球上有超过二十亿个智能手机用户。如果他们每个人至少将一本书数字化,那么我们所写的所有作品都将只需要一天的时间。拥有20年经验的数据处理系统专家Kalev Litaru提供了一种新方法,可以基于众包和传统智能手机对书籍进行数字化。 2015年1月,一场大火烧毁了15%的资金

图片

莫斯科INION科学图书馆。然后2000平方米被烧毁,部分屋顶倒塌。图书馆藏有1400万本书籍和文件,其中包括16世纪至20世纪初的稀有版本。据图书馆馆长尤里·皮沃瓦洛夫(Yuri Pivovarov)称,几乎没有钱被分配用于数字化。尽管有一些项目可以解决书籍,文档,手稿的完全数字化的问题,但俄罗斯和其他国家/地区图书馆本身正在尝试将现有的副本转换为数字形式。

使用价值超过一万美元的笨重的扫描仪对书籍进行数字化处理。对于这些扫描仪,需要花费时间的专业操作人员。操作员翻一本书的书页,然后扫描仪同时拍摄两页。工作速度通常高达每小时500页,也就是说,员工在一小时内将扫描一两本书。

卡莱弗Litaru 提供来自世界各地的智能手机呼救爱好者。作为众包有效性的一个例子,他谈到了eBird项目,该项目跟踪鸟类的迁徙。在过去的13年中,超过10万名志愿者一直在从事此项目,这使得从287万个独特位置记录2.75亿个观测值成为可能。现在在地球上的人26亿部智能手机,到2020年,包括发展中国家在内,其数量将增至61亿部。

图片
俄罗斯公司“ Elar”的员工正在研究图书的数字化,

Litar建议将该项目分为两个部分。在第一阶段,您需要列出要数字化的书籍清单。为此,请使用WorldCat目录和其他工具:初始列表将包括图书馆中所有尚未数字化的书籍。易碎的副本和受版权保护的书籍将不包括在此列表中。该列表的汇编可以部分提供给众包-图书馆将发布其版权保护状态未知的书籍清单,志愿者将检查书籍的第一页并将此信息发送给图书馆。

只有第一阶段才能让您了解世界上数字化图书的百分比。根据Google自己的数据,该公司已在Ngram项目的框架内对所有已出版书籍的6%进行了数字化处理,但确切的清单是未知的。

编制完非数字作品的完整清单后,该项目的主要众包部分便开始了。志愿者将来到图书馆,看书,获得智能手机并拍照。光学字符识别,例如Google的,将确定书的作者和书名,并将其与服务器上的列表进行比较,之后,它将通知您需要对副本进行数字化或该工作已经完成。如果要对书籍进行数字化处理,志愿者将为前几页拍照:在这个阶段,系统应确定照片的质量,光线是否还可以,字符是否可以被识别,或者摄影师的手抖得太多。然后,用户会收到命令以继续工作或学习另一本书。

利塔鲁(Litaru)进行了几项测试,结果发现,以此方式适应的用户可以在五到十分钟内将一本600页的书籍数字化。 2004年,他为自己的文凭工作,使用一台普通的数码相机和一台便宜的台灯,手动对来自700多个文档的三万页材料进行了数字化处理。 Litaru在一个周末的十五小时内完成了大部分工作。

来自智能手机的图像将不会具有使用专业技术获得的相同质量。但是将有足够的阅读空间,光学字符识别系统将使文本可搜索。这些页面他们是十年前拍摄的照片,如今,智能手机具有更好的相机和LED闪光灯。

图书馆可以允许志愿者使用该机构提供的文档扫描仪进行此项工作。所有结果都将发送到项目的中央服务器,在此将它们转换为PDF和其他格式以阅读电子书,并将在此处处理文本并将其提供给搜索。

游戏化因子可以包括在数字化过程中。志愿者将获得数字化作品的积分,组织将能够安排“数字化日”并向项目中的最佳参与者赠送礼物。甚至小学生也可以参加工作。图书馆将从用户那里收到有关数字化页数不多的反馈。志愿者将成为维基百科的编辑,图书馆将协调他们的工作。

维基百科和其他众包项目证明了它们的有效性。Kalev Litaru确信,众包可以再次证明其在数字化图书遗产方面的有效性。拥有两个半亿智能手机的用户不必在Instagram上拍摄自拍照和食物照片,而是可以帮助保存大量作品,并创建一个庞大的数据库,其中包含所有已出版的书籍,供我们的后代使用。

Source: https://habr.com/ru/post/zh-CN386581/


All Articles