在公共领域发布的“巴拿马档案馆”的结构化基础

Internet历史上最大的文档泄漏:2.6 TB




国际调查记者协会(ICIJ)已上载“巴拿马档案馆”:巴拿马律师事务所Mossack Fonseca未知计算机获得的最大离岸公司数据库

匿名者(John Doe)向德国报纸SüeddeustcheZeitung的记者传送了2.6 TB的文件,包括电子表格,信函文本,PDF,TIFF和其他格式,包括古老的和已经未使用的文件。考虑到工作规模,他们要求ICJI组织一个国际联合项目。

通过Tesseract字符识别软件在Amazon云中的40个临时服务器上驱动了数百万个图形图像Apache Solr用于索引文本,Apache Tika用于处理不同格式的文档

在这一年中,来自80个国家的370名记者对档案进行了研究。为了使记者的工作更轻松,ICIJ开发人员已连接Project Blacklight库程序中的图形界面。为了以图形形式显示信息并显示对象之间的连接,我必须使用Linkurious专有程序,并使用Talend工具Mossack Fonseca关系SQL数据库内容已转换为Neo4j格式



现在,邀请开发人员的工作成果来评估Internet上的每个人。

可通过以下
网址获得结构化形式的ICIJ数据库:https : //www.occrp.org/en/panamapapers/database.html

您可以将副本下载到计算机上(存档中35.7 MB)。





该数据库包含21个离岸司法管辖区的近214,000个离岸公司的信息。

离岸公司客户互动地图, 该数据库包含11 516家公司,这些公司属于6285名俄罗斯公民。其中包括高级官员的亲戚和朋友。尽管离岸公司通常在不违反法律的灰色法律领域开展业务,但如此大规模的文件泄漏可能导致许多引人注目的辞职和刑事案件。 从世界上最大的单日发电公司之一摩萨克·丰塞卡律师事务所的计算机获取的1150万个文件中,只有部分信息被公开。






国际调查记者协会未发布所有可用信息,没有原始文件或包含个人信息的大型数据库,公司的银行账户,电子信函的内容和公司的财务交易均未显示。这样做是为了不暴露许多不涉及金融犯罪的人的个人数据。

仅公开公司名称,其辖区,邮政地址和离岸公司负责人名称。数据涵盖了1977年至2015年。

巴拿马档案数据库是根据免费的知识共享署名-相同方式许可发布的。一个国际调查记者协会邀请整个社区专注于研究和分类已发布的信息。

UPDGeektimes


UPD2 社区的第一个发现社区的第二发现

Source: https://habr.com/ru/post/zh-CN393769/


All Articles