Numérisation du patrimoine mondial du livre à l'aide de smartphones

Il y a plus de deux milliards et demi d'utilisateurs de smartphones sur la planète. Si chacun d'eux numérisait au moins un livre, nous n'aurions besoin que d'une journée pour toutes les œuvres jamais écrites. Kalev Litaru, spécialiste des systèmes informatiques avec vingt ans d'expérience, propose une nouvelle façon de numériser des livres à partir du crowdsourcing et des smartphones conventionnels. En janvier 2015, un incendie a endommagé 15% des fonds

image

bibliothèque scientifique de INION à Moscou. Ensuite, 2000 mètres carrés ont brûlé et une partie du toit s'est effondrée. La bibliothèque abritait 14 millions de livres et de documents, y compris de rares éditions du XVIe - début du XXe siècle. Selon le directeur de la bibliothèque, Yuri Pivovarov, presque aucun argent n'a été alloué à la numérisation. Le problème de la numérisation complète des livres, documents, manuscrits n'a pas été résolu à l'échelle mondiale, bien qu'il existe des projets qui traitent de cela, et les bibliothèques elles-mêmes en Russie et dans d'autres pays tentent de convertir les copies existantes sous forme numérique.

Pour numériser des livres à l'aide de scanners encombrants d'une valeur de plus de dix mille dollars. Car ces scanners sont des opérateurs professionnels dont le temps coûte de l'argent. Les opérateurs tournent les pages d'un livre et le scanner photographie deux pages en même temps. La vitesse de travail peut atteindre jusqu'à cinq cents pages par heure, c'est-à-dire qu'en une heure, l'employé numérise un ou deux livres.

Kalev Litaru propose d'appeler les amateurs du monde entier avec leurs smartphones. À titre d'exemple de l'efficacité du crowdsourcing, il parle du projet eBird , qui suit les migrations des oiseaux. En treize ans, plus de cent mille volontaires ont travaillé sur ce projet qui a permis d'enregistrer 275 millions d'observations à partir de 2,87 millions de lieux uniques. Maintenant sur les gens de la planète2,6 milliards de smartphones , d'ici 2020 leur nombre passera à 6,1 milliards, notamment en raison des pays en développement.

image
Les employés de la société russe «Elar» travaillent sur la numérisation des livres

Litar propose de diviser le projet en deux parties. À la première étape, vous devez dresser une liste de livres à numériser. Pour ce faire, utilisez le catalogue WorldCat et d'autres outils: la liste initiale inclura tous les livres qui se trouvent dans les bibliothèques et qui n'ont pas été numérisés. Les copies fragiles et les livres protégés par le droit d'auteur seront exclus de cette liste. La compilation de la liste peut être partiellement fournie au crowdsourcing - les bibliothèques publieront une liste de livres dont le statut concernant la protection du droit d'auteur est inconnu, et les volontaires vérifieront les premières pages des livres et enverront ces informations aux bibliothèques.

Seule la première étape vous permettra de comprendre quel pourcentage de livres numérisés dans le monde. Selon les propres données de Google, la société a numérisé 6% de tous les livres publiés dans le cadre du projet Ngram , mais leur liste exacte est inconnue.

Après avoir compilé une liste complète des œuvres non numériques, la principale partie de crowdsourcing du projet commence. Les bénévoles viendront à la bibliothèque, prendront un livre, se procureront un smartphone et photographieront la couverture. Reconnaissance optique des caractères comme celle de Google, déterminera l'auteur et le titre du livre et le comparera avec la liste sur le serveur, après quoi il vous informera de la nécessité de numériser la copie ou que ce travail a déjà été effectué. Si le livre doit être numérisé, le volontaire prendra une photo des premières pages: à ce stade, le système devrait déterminer comment les photographies de haute qualité sont obtenues, si tout va bien avec la lumière, si les caractères peuvent être reconnus ou si les mains du photographe tremblent trop. Ensuite, l'utilisateur reçoit une commande pour continuer à travailler ou prendre un autre livre.

Litaru a effectué plusieurs tests et a découvert que de cette façon, un utilisateur, après s'être adapté, pourra numériser un livre de 600 pages en cinq à dix minutes. En 2004, pour son travail de diplôme, il a lui-même numérisé manuellement trente mille pages de documents à partir de plus de sept cents documents à l'aide d'un appareil photo numérique ordinaire et d'une lampe de bureau bon marché. Litaru a réalisé la plupart de ces travaux en quinze heures au cours d'un week-end.

Les images des smartphones ne seront pas de la même qualité que celle obtenue avec une technologie professionnelle. Mais il y en aura assez pour les lire , et le système de reconnaissance optique des caractères rendra le texte consultable. Ces pagesIls ont été photographiés il y a dix ans, et aujourd'hui les smartphones ont de meilleurs appareils photo et flash LED.

Les bibliothèques peuvent autoriser les bénévoles à utiliser les scanners de documents disponibles à l'établissement pour ce travail. Tous les résultats seront envoyés au serveur central du projet, où ils seront traduits en PDF et autres formats pour lire des livres électroniques, et où le texte sera traité et disponible pour la recherche.

Le facteur de gamification peut être inclus dans le processus de numérisation. Les volontaires recevront des points pour les travaux numérisés, et les organisations pourront organiser des «journées de numérisation» et offrir des cadeaux aux meilleurs participants au projet. Même les écoliers peuvent se joindre au travail. Les bibliothèques recevront des commentaires des utilisateurs sur les pages mal numérisées. Les volontaires deviendront des éditeurs de Wikipédia et les bibliothèques coordonneront leur travail.

Wikipédia et autres projets de crowdsourcingont montré leur efficacité. Et le crowdsourcing peut encore une fois montrer son efficacité dans la numérisation du patrimoine du livre, Kalev Litaru en est sûr. Au lieu de prendre des selfies et des photos de nourriture sur Instagram, les utilisateurs de deux milliards et demi de smartphones peuvent aider à économiser beaucoup de travaux et à créer une énorme base de données de tous les livres jamais publiés pour le laisser à nos descendants.

Source: https://habr.com/ru/post/fr386581/


All Articles