Digitalizando o patrimônio mundial dos livros usando smartphones
Existem mais de dois bilhões e meio de usuários de smartphones no planeta. Se cada um deles digitasse pelo menos um livro, precisaríamos de apenas um dia para todos os trabalhos já escritos. Kalev Litaru, especialista em sistemas de processamento de dados com vinte anos de experiência, oferece uma nova maneira de digitalizar livros com base em crowdsourcing e smartphones convencionais. Em janeiro de 2015, um incêndio danificou 15% dos fundos
biblioteca científica da INION em Moscou. Então, 2000 metros quadrados queimaram e parte do telhado desabou. A biblioteca abrigava 14 milhões de livros e documentos, incluindo edições raras do século XVI - início do século XX. Segundo o diretor da biblioteca, Yuri Pivovarov, quase nenhum dinheiro foi alocado para digitalização. O problema da digitalização completa de livros, documentos e manuscritos não foi resolvido globalmente, embora existam projetos que lidam com isso, e as próprias bibliotecas da Rússia e de outros países estejam tentando converter cópias existentes em formato digital.Para digitalizar livros usando scanners volumosos no valor de mais de dez mil dólares. Para esses scanners, são operadores profissionais cujo tempo custa dinheiro. Os operadores viram as páginas de um livro e o scanner fotografa duas páginas ao mesmo tempo. A velocidade do trabalho geralmente é de quinhentas páginas por hora, ou seja, em uma hora o funcionário digitaliza um ou dois livros.Kalev Litaru oferece-se para chamar entusiastas de ajuda de todo o mundo com seus smartphones. Como exemplo da eficácia do crowdsourcing, ele fala sobre o projeto eBird , que rastreia as migrações de pássaros. Ao longo de treze anos, mais de cem mil voluntários trabalharam nesse projeto, o que tornou possível registrar 275 milhões de observações em 2,87 milhões de locais únicos. Agora nas pessoas do planeta2,6 bilhões de smartphones , até 2020 seu número aumentará para 6,1 bilhões, inclusive devido aos países em desenvolvimento.
Os funcionários da empresa russa Elar estão trabalhando na digitalização dos livros queLitar propõe dividir o projeto em duas partes. No primeiro estágio, você precisa fazer uma lista de livros a serem digitalizados. Para fazer isso, use o catálogo do WorldCat e outras ferramentas: a lista inicial incluirá todos os livros que estão nas bibliotecas e que não foram digitalizados. Cópias frágeis e os livros protegidos por direitos autorais serão excluídos desta lista. A compilação da lista pode ser parcialmente fornecida ao crowdsourcing - as bibliotecas publicarão uma lista de livros cujo status sobre a proteção de direitos autorais é desconhecido, e os voluntários verificarão as primeiras páginas dos livros e enviarão essas informações às bibliotecas.Somente o primeiro estágio permitirá que você entenda qual é a porcentagem de livros digitalizados no mundo. De acordo com os próprios dados do Google, a empresa digitalizou 6% de todos os livros publicados dentro da estrutura do projeto Ngram , mas sua lista exata é desconhecida.Depois de compilar uma lista completa de obras não digitais, começa a principal parte do projeto de crowdsourcing. Os voluntários vão à biblioteca, pegam um livro, pegam um smartphone e fotografam a capa. Reconhecimento óptico de caracteres como o do Google, determinará o autor e o título do livro e o comparará com a lista no servidor, após o que informará sobre a necessidade de digitalizar a cópia ou que esse trabalho já foi realizado. Se o livro for digitalizado, o voluntário tirará uma foto das primeiras páginas: nesta fase, o sistema deve determinar quão boas são as fotografias, se está tudo bem com a luz, se os personagens podem ser reconhecidos ou se as mãos do fotógrafo estão tremendo demais. Em seguida, o usuário recebe um comando para continuar trabalhando ou pegar outro livro.Litaru realizou vários testes e descobriu que, dessa maneira, um usuário, após se adaptar, poderá digitalizar um livro de 600 páginas em cinco a dez minutos. Em 2004, por seu diploma, ele próprio digitalizou trinta mil páginas de materiais de mais de setecentos documentos usando uma câmera digital comum e um candeeiro de mesa barato. Litaru concluiu a maior parte desse trabalho em quinze horas em um fim de semana.As imagens dos smartphones não terão a mesma qualidade obtida com a tecnologia profissional. Mas haverá o suficiente para lê-los , e o sistema óptico de reconhecimento de caracteres tornará o texto pesquisável. Estas páginasEles foram fotografados há dez anos e hoje os smartphones têm melhores câmeras e flash LED.As bibliotecas podem permitir que os voluntários usem scanners de documentos disponíveis na instituição para este trabalho. Todos os resultados serão enviados ao servidor central do projeto, onde serão traduzidos para PDF e outros formatos para leitura de livros eletrônicos, e onde o texto será processado e estará disponível para pesquisa.O fator de gamificação pode ser incluído no processo de digitalização. Os voluntários receberão pontos por trabalhos digitalizados, e as organizações poderão organizar "dias de digitalização" e dar presentes aos melhores participantes do projeto. Até crianças em idade escolar podem participar do trabalho. As bibliotecas receberão feedback dos usuários sobre páginas mal digitalizadas. Os voluntários se tornarão algo como editores da Wikipedia e as bibliotecas coordenarão seu trabalho.Wikipedia e outros projetos de crowdsourcingdemonstraram sua eficácia. E o crowdsourcing pode mostrar mais uma vez sua eficácia na digitalização do patrimônio dos livros, Kalev Litaru tem certeza. Em vez de tirar fotos de selfies e fotos de alimentos no Instagram, os usuários de dois bilhões e meio de smartphones podem ajudar a economizar muitos trabalhos e criar um enorme banco de dados de todos os livros já publicados para deixá-los para nossos descendentes. Source: https://habr.com/ru/post/pt386581/
All Articles