La base structurée des «Archives de Panama» publiées dans le domaine public

La plus grande fuite de documents de l'histoire d'Internet: 2,6 téraoctets




Le Consortium international des journalistes d'investigation (ICIJ) a téléchargé les archives de Panama: la plus grande base de données de sociétés offshore obtenues à partir d'ordinateurs inconnus par le cabinet d'avocats panaméen Mossack Fonseca .

Anonymous (John Doe) a transféré 2,6 téraoctets de fichiers - feuilles de calcul, textes de lettre, PDF, TIFF et autres formats, y compris anciens et déjà inutilisés, aux journalistes du journal allemand Süeddeustche Zeitung . Réalisant l'ampleur du travail, ils ont demandé à l'ICJI d'organiser un projet conjoint international.

Des millions d'images graphiques ont été générées via le logiciel de reconnaissance de caractères Tesseract sur 40 serveurs temporaires dans le cloud Amazon. Apache Solr a été utilisé pour indexer le texte, Apache Tika a été utilisé pour traiter des documents dans différents formats .

Au cours de l'année, 370 journalistes de 80 pays ont étudié les archives . Pour faciliter leur travail aux journalistes, les développeurs de l'ICIJ ont connecté une interface graphique à partir du programme de bibliothèque Project Blacklight . Afin d'afficher des informations sous forme graphique et d'afficher les connexions entre les objets, j'ai dû utiliser le programme propriétaire Linkurious et utiliser l'outil TalendLe contenu de la base de données SQL relationnelle de Mossack Fonseca a été converti au format Neo4j .



Maintenant, le résultat du travail des développeurs est invité à évaluer tout le monde sur Internet.

La base de données ICIJ sous une forme structurée est disponible à l'
adresse : https://www.occrp.org/en/panamapapers/database.html

Vous pouvez télécharger une copie sur votre ordinateur (35,7 Mo dans l'archive).





La base de données contient des informations sur près de 214 000 sociétés offshore dans 21 juridictions offshore.

Carte interactive des clients des sociétés offshore. La base de données contient 11 516 sociétés appartenant à 6285 citoyens russes. Parmi eux, des parents et amis de hauts fonctionnaires. Une telle fuite de documents à grande échelle peut entraîner un certain nombre de démissions et d'affaires criminelles très médiatisées, bien que les sociétés offshore opèrent souvent dans un domaine juridique gris sans violer la loi. Seule une partie des informations provenant de 11,5 millions de fichiers obtenus à partir des ordinateurs du cabinet d'avocats Mossack Fonseca, l'une des plus grandes sociétés de générateur d'un jour au monde, a été publiée.






Le consortium international de journalistes d'investigation ne publie pas toutes les informations disponibles, il n'y a pas de documents sources ou une grande base de données avec des informations personnelles, les comptes bancaires des entreprises, le contenu de la correspondance électronique et les transactions financières des entreprises ne sont pas indiqués. Cela est fait afin de ne pas divulguer les données personnelles de nombreuses personnes qui ne sont pas impliquées dans des délits financiers.

Seuls les noms des entreprises, leurs juridictions, leurs adresses postales et les noms des dirigeants des sociétés offshore sont rendus publics. Les données couvrent la période de 1977 à 2015.

La base de données des archives de Panama est publiée sous une licence Creative Commons Attribution-ShareAlike gratuite. Un consortium international de journalistes d'investigation invite toute la communauté à se concentrer sur l'étude et la classification des informations publiées.

UPDLa première trouvaille de la communauté Geektimes


UPD2. La deuxième découverte de la communauté

Source: https://habr.com/ru/post/fr393769/


All Articles