Info Desk: "Internet Archive" - ​​proyek sejarah, misi dan anak perusahaan



Mungkin, tidak ada begitu banyak pengguna di Habr yang belum pernah mendengar tentang "Internet Archive" , layanan yang mencari dan menyimpan data digital yang penting bagi semua umat manusia, apakah itu halaman Internet, buku, video atau jenis lainnya. informasi.

Siapa yang mengelola arsip Internet, kapan muncul dan apa misinya? Baca tentang itu di "Pertanyaan" hari ini.

Mengapa kita membutuhkan "Arsip"?


Ini jauh dari sekadar hiburan. Misi organisasi adalah untuk menyediakan akses universal ke semua informasi. "Arsip Internet" berupaya untuk melawan monopoli penyediaan informasi oleh perusahaan telekomunikasi (Google, Facebook, dll.) Dan pemerintah.

Pada saat yang sama, "Arsip" adalah organisasi yang taat hukum. Jika menurut undang-undang AS beberapa informasi perlu dihapus, organisasi melakukannya.

"Arsip Internet" juga berfungsi sebagai alat bagi para ilmuwan, agen keamanan, sejarawan (misalnya, arkeolog) dan perwakilan dari banyak bidang lain, belum lagi pengguna perorangan.

Kapan "arsip Internet" muncul?


Pencipta "Archive" adalah Brewster Cale dari AS, yang menciptakan perusahaan Alexa Internet. Kedua jasanya telah menjadi sangat populer, keduanya masih makmur.

"Arsip Internet" telah mulai mengarsipkan informasi dari situs web dan menyimpan salinan halaman web pada tahun 1996. Markas organisasi nirlaba ini berlokasi di San Francisco, AS.

Namun, selama lima tahun data tidak tersedia untuk akses publik - data disimpan di server "Arsip", dan hanya itu, hanya administrasi layanan yang dapat melihat salinan lama situs. Sejak 2001, administrasi layanan telah memutuskan untuk menyediakan akses ke data yang disimpan untuk semua orang.

Pada awalnya, "arsip Internet" hanyalah arsip web, tetapi kemudian organisasi mulai menyimpan buku, file audio, gambar bergerak, perangkat lunak. Sekarang "Internet arsip" bertindak sebagai gudang untuk foto dan gambar lain dari NASA, membuka teks Perpustakaan, dll.

Bagaimana organisasi itu ada?


"Arsip" ada atas sumbangan sukarela - baik dari organisasi maupun dari individu. Anda dapat memberikan dukungan dalam bitcoin, nomor dompet adalah 1Archive1n2C579dMsAu3iC6tWzuQJz8dN. Dompet ini, by the way, telah menerima 357.47245492 BTC selama keberadaannya, yaitu sekitar $ 2,25 juta pada kurs saat ini.

Bagaimana cara kerja "Arsip"?


Sebagian besar staf dipekerjakan di pusat pemindaian buku, melakukan pekerjaan rutin, tetapi lebih memakan waktu. Organisasi ini memiliki tiga pusat data yang berlokasi di California, AS. Satu di San Francisco, satu di kota Redwood, satu di Richmond. Untuk menghindari risiko kehilangan data jika terjadi bencana alam atau bencana lainnya, "Arsip" memiliki kapasitas cadangan di Mesir dan Amsterdam.

“Jutaan orang telah menghabiskan banyak waktu dan upaya untuk berbagi dengan orang lain apa yang kita ketahui dalam bentuk Internet. Kami ingin membuat perpustakaan untuk platform penerbitan baru ini, ”kata Brewster Kahle, pendiri Internet Archive)

Seberapa besar "Arsip" sekarang?


"Arsip Internet" memiliki beberapa divisi, dan yang mengumpulkan informasi dari situs memiliki namanya sendiri - Wayback Machine. Pada saat penulisan "Permintaan", arsip berisi 339 miliar halaman web yang disimpan. Pada 2017, "Archive" menyimpan 30 petabyte informasi, yaitu sekitar 300 miliar halaman web, 12 juta buku, 4 juta rekaman audio, 3,3 juta video, 1,5 juta foto, dan 170 ribu distribusi perangkat lunak berbeda. Hanya dalam setahun, layanan ini secara signifikan "menambah berat". Sekarang "Archive" menyimpan 339 miliar halaman web, 19 juta buku, 4,5 juta file video, 4,7 juta file audio, 3,2 juta gambar dari berbagai jenis, 381 ribu distribusi perangkat lunak.

Bagaimana cara mengatur penyimpanan data?


Informasi tersebut disimpan pada hard drive dalam apa yang disebut "data node". Ini adalah server. Masing-masing berisi 36 hard drive (ditambah dua drive sistem operasi). Node data dikelompokkan ke dalam array 10 mesin dan mewakili penyimpanan cluster. Pada 2016, "Archive" menggunakan HDD 8-terabyte, sekarang situasinya hampir sama. Ternyata satu node menyimpan sekitar 288 terabyte data. Secara umum, hard drive ukuran lain juga digunakan: 2,3 dan 4 TB.

Pada 2016, ada sekitar 20.000 hard drive. Pusat data "Arsip" dilengkapi dengan unit pendingin udara untuk kontrol iklim dengan karakteristik konstan. Penyimpanan 10 node yang dikelompokkan menghabiskan sekitar 5 kilowatt energi.

Struktur Internet Archive adalah "perpustakaan" virtual, yang dibagi menjadi beberapa bagian seperti buku, film, musik, dll. Untuk setiap elemen ada deskripsi dalam katalog - biasanya nama, nama penulis dan informasi tambahan. Dari sudut pandang teknis, elemen-elemen terstruktur dan terletak di direktori Linux.

Jumlah total data yang disimpan oleh "Archive" adalah 22 PB, dan sekarang ada ruang untuk 22 PB lainnya. "Karena kita paranoid," - sebutkan perwakilan dari layanan.



Lihatlah screenshot dari isi direktori - ada file dengan nama yang diakhiri dengan "_files.xml". Ini adalah direktori dengan informasi tentang semua file dalam direktori.

Apa yang akan terjadi pada data jika satu atau lebih server gagal?


Tidak ada yang buruk - datanya diduplikasi. Segera setelah item baru muncul di perpustakaan "Archive", item itu segera direplikasi dan ditempatkan pada hard drive yang berbeda di server yang berbeda. Proses "mirroring" konten membantu untuk mengatasi masalah seperti pemadaman listrik dan kegagalan sistem file.

Jika hard disk gagal, itu diganti dengan yang baru. Berkat struktur data cermin dan reduplikasi, itu segera diisi dengan data yang ada di HDD lama yang gagal.

"Archive" memiliki sistem khusus yang memantau status HDD. Selama sehari, Anda harus mengganti 6 hingga 7 drive yang gagal.

Apa itu Mesin Wayback?


Ini hanyalah salah satu layanan "Arsip Internet" yang berspesialisasi dalam menyimpan halaman web. Layanan ini memiliki "laba-laba" sendiri, yang secara teratur memeriksa semua situs yang tersedia di jaringan dan menyimpannya di server khusus. Semakin populer sebuah situs web, semakin sering robot menyalin isinya. Jika administrator sumber daya tidak ingin informasi situs disalin oleh bot, cukup mendaftar larangan di file robots.txt.


Sumber daya populer sering disalin - hampir setiap hari. Wayback Machine bahkan mengindeks jejaring sosial, termasuk Twitter, Facebook



Pada 2017, "Archive" meluncurkan Wayback Machine yang diperbarui, menjanjikan akses yang lebih nyaman ke halaman web yang disimpan. Layanan ini sangat didesain ulang, jika tidak diberi kode dari awal. Sekarang mendukung sejumlah format file yang sebelumnya tidak dapat disimpan. Pada 2017 yang sama, organisasi mengatakan bahwa setiap minggu servernya menghemat sekitar 1 miliar halaman web.



Seperti inilah tampilan Twitter pada 2007

Apa lagi yang bisa ditemukan di database "Internet arsip"?


Buku Koleksi organisasi sangat besar, termasuk buku-buku digital, edisi umum dan sangat langka. Buku-buku tersebut disimpan tidak hanya dalam bahasa Inggris, tetapi juga dalam banyak bahasa lainnya. "Archive" memiliki pusat-pusat khusus untuk memindai buku, 33 dari total pusat-pusat tersebut. Mereka berada di lima negara di dunia.

Staf pusat memindai sekitar 1.000 buku per hari. Basis data layanan berisi jutaan publikasi. Pekerjaan digitalisasi mereka didanai oleh masyarakat awam dan berbagai organisasi, termasuk perpustakaan dan yayasan.

Sejak 2007, "arsip Internet" telah menyimpan buku-buku umum dari Google Book Search dalam basis datanya. Setelah peluncuran, basis data buku telah berkembang pesat - pada 2013, ada lebih dari 900 ribu buku yang disimpan dari layanan Google.

Salah satu layanan "Arsip" juga menyediakan akses ke buku-buku yang sepenuhnya terbuka. Sudah ada lebih dari satu juta di antaranya. Layanan ini disebut Open Library.

Video Layanan ini menyimpan 4,5 juta video. Mereka dibagi menjadi beberapa topik dan memiliki fokus yang sangat berbeda. Server "Archive" menyimpan film, dokumenter, acara olahraga, acara TV, dan banyak materi lainnya.

Pada 2015, "Archive" memunculkan proyek skala besar - digitalisasi kaset video. Pada awalnya, itu sekitar 40 ribu kaset dari arsip Marion Stokes, seorang wanita yang telah merekam berita di kaset selama beberapa dekade. Kemudian kaset video lainnya ditambahkan. Mereka dikirim ke "Archive" oleh para penggemar gagasan digitalisasi data yang penting bagi umat manusia.

File audio. Mirip dengan video, "Arsip" menyimpan file audio, yang juga dibagi dengan subjek. Tahun lalu, "Archive" mulai mengimplementasikan proyek barunya - decoding dari catatan shellac, format tertua dari rekaman audio. Suara itu disimpan di piring-piring lak - resin alami, yang diisolasi oleh serangga skala perempuan. Secara total, arsip Great 78 Project berisi beberapa ratus ribu catatan .

Perangkat lunak Tentu saja, tidak mungkin untuk menyimpan semua perangkat lunak yang dibuat oleh umat manusia, bahkan untuk "Arsip". Server menyimpan vintage - misalnya, program untuk Macintosh, perangkat lunak untuk DOS dan perangkat lunak lainnya. Pada 2016, karyawan "Archive" memposting lebih dari 1500 program untuk Windows 3.1. Anda dapat bekerja langsung di browser. Pada 2017, Internet Archive telah merilis arsip perangkat lunak untuk Macintosh pertama .

Game Ya, "Archive" menyediakan akses ke sejumlah besar game. Beberapa dari mereka dapat dimainkan di lingkungan emulator browser. Berbagai gim disimpan, termasuk gim untuk konsol analog-digital portabel . Ada game untuk MS-DOS dan game konsol untuk Atari dan ColecoVision .



Untuk pertama kalinya arsip game lama diunggah oleh organisasi pada 2013. Kita berbicara tentang judul 30-40 tahun yang lalu, yang dapat dimainkan langsung di browser. Ini adalah game untuk Atari 2600 (1977), Atari 7800 (1986), ColecoVision (1982), Philips Videopac G7000 (1978) dan Astrocade (1983). Yang paling menarik adalah Internet Archive memastikan Anda bisa bermain cukup legal. Sekarang koleksinya memiliki lebih dari 3400 game dan terus bertambah.

Source: https://habr.com/ru/post/id436026/


All Articles