🛀🏼 🕘 👩🏾‍🏭 Hintergrund: „Internet Archive“ - Entstehungsgeschichte, Mission und Nebenprojekte 👨🏽‍🎨 ☂️ 💛

Wahrscheinlich gibt es auf Habr nicht viele Benutzer, die noch nie von dem Internetarchiv gehört haben, einem Dienst, der digitale Daten sucht und speichert, die für die gesamte Menschheit wichtig sind, egal ob es sich um Internetseiten, Bücher, Videos oder andere Arten von Informationen handelt .

Wer betreibt das Online-Archiv, als es erschien, und was ist seine Mission? Lesen Sie darüber in der heutigen Hilfe.

Warum brauchen wir ein "Archiv"?

Dies ist alles andere als nur Unterhaltung. Die Mission der Organisation ist der universelle Zugang zu allen Informationen. Das Internetarchiv versucht, das Monopol auf die Bereitstellung von Informationen sowohl von Telekommunikationsunternehmen (Google, Facebook usw.) als auch von Staaten zu bekämpfen.

Darüber hinaus ist das „Archiv“ eine gesetzestreue Organisation. Wenn nach US-Recht das Löschen von Informationen erforderlich ist, tut dies die Organisation.

Das Internetarchiv dient auch als Werkzeug für Wissenschaftler, Geheimdienste, Historiker (wie Archäographen) und Vertreter vieler anderer Bereiche, ganz zu schweigen von einzelnen Benutzern.

Wann erschien das „Internetarchiv“?

Der Schöpfer des Archivs ist American Brewster Cale, der Alexa Internet erstellt hat. Beide Dienste sind sehr beliebt geworden, beide blühen jetzt auf.

Das Internetarchiv beginnt seit 1996 mit der Archivierung von Informationen von Websites und dem Speichern von Kopien von Webseiten. Der Hauptsitz dieser gemeinnützigen Organisation befindet sich in San Francisco, USA.

Zwar waren die Daten fünf Jahre lang nicht für den öffentlichen Zugriff verfügbar - die Daten wurden auf den Archivservern gespeichert, und das ist alles, nur die Dienstverwaltung konnte alte Kopien von Websites anzeigen. Seit 2001 hat die Verwaltung des Dienstes beschlossen, allen Zugriff auf die gespeicherten Daten zu gewähren.

Am Anfang war das „Internetarchiv“ nur ein Webarchiv, aber dann begann die Organisation, Bücher, Audio, bewegte Bilder und Software zu speichern. Jetzt fungiert das "Internetarchiv" als Aufbewahrungsort für Fotos und andere Bilder der NASA, Open Library-Texte usw.

Wofür gibt es eine Organisation?

"Archiv" existiert für freiwillige Spenden - sowohl Organisationen als auch Einzelpersonen. Sie können Unterstützung in Bitcoins, 1Archive1n2C579dMsAu3iC6tWzuQJz8dN Wallet, bereitstellen. Diese Brieftasche hat übrigens für ihre gesamte Existenz 357,47245492 BTC erhalten, was zum aktuellen Wechselkurs ungefähr 2,25 Millionen US-Dollar entspricht.

Wie funktioniert das Archiv?

Die meisten Mitarbeiter sind in Buchscanzentren beschäftigt und erledigen routinemäßige, aber mühsame Arbeiten. Die Organisation verfügt über drei Rechenzentren in Kalifornien, USA. Einer ist in San Francisco, der zweite ist Redwood City, der dritte ist Richmond. Um die Gefahr eines Datenverlusts bei Naturkatastrophen oder anderen Katastrophen zu vermeiden, verfügt das Archiv über Kapazitätsreserven in Ägypten und Amsterdam.

„Millionen von Menschen haben viel Zeit und Mühe aufgewendet, um mit anderen zu teilen, was wir in Form des Internets wissen. Wir möchten eine Bibliothek für diese neue Veröffentlichungsplattform erstellen “, sagte Brewster Kahle, Gründer des Internetarchivs

Wie groß ist das Archiv jetzt?

Das "Internetarchiv" hat mehrere Abteilungen, und diejenige, die Informationen von Websites sammelt, hat ihren eigenen Namen - Wayback Machine. Zum Zeitpunkt der Erstellung der „Anfrage“ wurden im Archiv 339 Milliarden Webseiten gespeichert. Im Jahr 2017 wurden im „Archiv“ 30 Petabyte an Informationen gespeichert, dh ungefähr 300 Milliarden Webseiten, 12 Millionen Bücher, 4 Millionen Audioaufnahmen, 3,3 Millionen Videos, 1,5 Millionen Fotos und 170.000 verschiedene Softwareverteilungen. In nur einem Jahr hat der Dienst spürbar an Gewicht zugenommen, jetzt speichert das „Archiv“ 339 Milliarden Webseiten, 19 Millionen Bücher, 4,5 Millionen Videodateien, 4,7 Millionen Audiodateien, 3,2 Millionen Bilder verschiedener Art und 381.000 Distributionen Software.

Wie ist die Datenspeicherung organisiert?

Informationen werden auf Festplatten in den sogenannten "Datenknoten" gespeichert. Dies sind Server, von denen jeder 36 Festplatten enthält (plus zwei Festplatten mit Betriebssystemen). Datenknoten sind in Arrays von 10 Computern gruppiert und bilden ein Cluster-Repository. Im Jahr 2016 verwendete das „Archiv“ 8-Terabyte-Festplatten, jetzt ist die Situation ungefähr gleich. Es stellt sich heraus, dass ein Knoten ungefähr 288 Terabyte Daten enthält. Im Allgemeinen werden auch Festplatten anderer Größen verwendet: 2, 3 und 4 TB.

Im Jahr 2016 gab es etwa 20.000 Festplatten. Archiv-Rechenzentren sind mit Klimasystemen ausgestattet, um ein Mikroklima mit konstanten Eigenschaften aufrechtzuerhalten. Ein Cluster-Speicher mit 10 Knoten verbraucht etwa 5 kW Energie.

Die Struktur des Internetarchivs ist eine virtuelle „Bibliothek“, die in Abschnitte wie Bücher, Filme, Musik usw. unterteilt ist. Für jedes Element wird eine Beschreibung in den Katalog eingegeben - normalerweise sind dies der Name, der Autorenname und zusätzliche Informationen. Aus technischer Sicht sind die Elemente strukturiert und befinden sich in Linux-Verzeichnissen.

Die Gesamtmenge der vom „Archiv“ gespeicherten Daten beträgt 22 PB, während jetzt noch Platz für 22 PB vorhanden ist. "Weil wir paranoid sind", sagen Servicemitarbeiter.

Schauen Sie sich den Screenshot des Inhalts des Verzeichnisses an - es gibt eine Datei mit einem Namen, der auf "_files.xml" endet. Dies ist ein Verzeichnis mit Informationen zu allen Dateien im Verzeichnis.

Was passiert mit den Daten, wenn ein oder mehrere Server ausfallen?

Es wird nichts Schreckliches passieren - die Daten werden dupliziert . Sobald ein neues Element in der Archivbibliothek angezeigt wird, wird es sofort repliziert und auf verschiedenen Festplatten auf verschiedenen Servern abgelegt. Das "Spiegeln" des Inhalts hilft, Probleme wie Stromausfälle und Abstürze im Dateisystem zu bewältigen.

Wenn die Festplatte ausfällt, wird sie durch eine neue ersetzt. Dank der gespiegelten und reduzierten Datenstruktur wird der Anfänger sofort mit Daten gefüllt, die auf der alten Festplatte ausgefallen sind.

Das "Archiv" verfügt über ein spezielles System, das den Status der Festplatte überwacht. An dem Tag müssen Sie 6-7 ausgefallene Laufwerke ersetzen.

Was ist eine Wayback-Maschine?

Dies ist nur einer der Dienste des "Internet-Archivs", das sich auf die Aufbewahrung von Webseiten spezialisiert hat. Der Dienst verfügt über eine eigene "Spinne", die regelmäßig alle im Netzwerk verfügbaren Sites überprüft und auf spezialisierten Servern speichert. Je beliebter die Website ist, desto häufiger kopiert der Roboter seinen Inhalt. Wenn der Ressourcenadministrator nicht möchte, dass die Site-Informationen vom Bot kopiert werden, reicht es aus, ein Verbot in die Datei robots.txt zu schreiben.

Beliebte Ressourcen werden häufig kopiert - fast täglich. Wayback Machine indiziert sogar soziale Netzwerke, einschließlich Twitter, Facebook

Im Jahr 2017 startete Archive den aktualisierten Wayback Machine-Dienst , der einen bequemeren Zugriff auf gespeicherte Webseiten verspricht. Der Service wurde geschrieben, wenn nicht von Grund auf neu, dann cool neu gestaltet. Jetzt unterstützt es eine Reihe von Dateiformaten, die zuvor einfach nicht gespeichert wurden. Im selben Jahr 2017 gab die Organisation bekannt, dass jede Woche etwa 1 Milliarde Webseiten auf ihren Servern gespeichert werden.

So sah Twitter 2007 aus

Was kann man sonst noch in der Datenbank "Internet Archive" finden?

Bücher. Die Sammlung der Organisation ist riesig und umfasst digitalisierte Bücher, sowohl gängige als auch sehr seltene Ausgaben. Bücher werden nicht nur in Englisch, sondern auch in vielen anderen Sprachen gespeichert. Das Archiv verfügt über spezialisierte Zentren für das Scannen von Büchern. Insgesamt gibt es 33 solcher Zentren, die sich in fünf Ländern auf der ganzen Welt befinden.

Das Personal des Zentrums scannt täglich etwa 1.000 Bücher. Die Servicedatenbank enthält Millionen von Veröffentlichungen. Die Arbeit an ihrer Digitalisierung wird sowohl von einfachen Leuten als auch von verschiedenen Organisationen, einschließlich Bibliotheken und Fonds, finanziert.

Seit 2007 hat das Internetarchiv öffentlich zugängliche Bücher aus der Google Buchsuche in seiner Datenbank gespeichert. Nach dem Start wurde die Basis der Bücher schnell erweitert - 2013 wurden bereits mehr als 900.000 Bücher vom Google-Dienst gespeichert.

Einer der Dienste des „Archivs“ bietet auch Zugang zu vollständig geöffneten Büchern, von denen es bereits mehr als eine Million gibt. Dieser Dienst heißt Open Library.

Video Der Service speichert 4,5 Millionen Clips. Sie sind thematisch unterteilt und haben einen ganz anderen Schwerpunkt. Die Server des „Archivs“ speichern Filme, Dokumentationen, Aufzeichnungen von Sportereignissen, Fernsehsendungen und viele andere Materialien.

Im Jahr 2015 entstand aus dem „Archiv“ ein Großprojekt - die Digitalisierung von Videobändern . Zuerst waren es ungefähr 40.000 Bänder aus dem Archiv von Marion Stokes, einer Frau, die jahrzehntelang Nachrichten auf Bändern aufzeichnete. Dann wurden weitere Videobänder hinzugefügt, die von Fans der Idee, für die Menschheit wichtige Daten zu digitalisieren, an das „Archiv“ gesendet wurden.

Audio Ähnlich wie bei Videos speichert das „Archiv“ auch Audiodateien, die ebenfalls nach Betreff unterteilt sind. Im vergangenen Jahr begann „Archive“ mit der Implementierung seines neuen Projekts - der Dekodierung von Schellackaufzeichnungen, dem ältesten Audioaufzeichnungsformat. Der Klang blieb auf Schellackplatten erhalten, einem natürlichen Harz, das von weiblichen Würmern abgesondert wurde. Insgesamt verfügt das Great 78 Project- Archiv über mehrere hunderttausend Datensätze .

Software. Natürlich ist es einfach unmöglich, die gesamte von der Menschheit erstellte Software zu speichern, selbst für das Archiv. Die Server speichern Vintage - zum Beispiel Programme für den Macintosh, Software für DOS und andere Software. Im Jahr 2016 haben die Mitarbeiter des Archivs mehr als 1.500 Programme für Windows 3.1 veröffentlicht. Sie können direkt im Browser arbeiten. Im Jahr 2017 veröffentlichte Internet Archive ein Softwarearchiv für den ersten Macintosh .

Spiele Ja, das Archiv bietet Zugriff auf eine Vielzahl von Spielen. Einige von ihnen können in der Umgebung eines Browser-Emulators abgespielt werden. Spiele werden sehr unterschiedlich gespeichert, auch von tragbaren Analog-Digital-Konsolen . Es gibt Spiele für MS-DOS und Konsolenspiele für Atari und ColecoVision.

Die Organisation hat bereits 2013 das Archiv alter Spiele veröffentlicht. Wir sprechen von Titeln vor 30-40 Jahren, die direkt im Browser abgespielt werden konnten. Dies sind Spiele für die Atari 2600-Konsolen (1977), Atari 7800 (1986), ColecoVision (1982), Philips Videopac G7000 (1978) und Astrocade (1983). Das Interessanteste ist, dass das Internetarchiv es ermöglicht hat, rechtmäßig zu spielen. Jetzt hat die Sammlung mehr als 3400 Spiele und wird weiter aufgefüllt.

Hintergrund: „Internet Archive“ - Entstehungsgeschichte, Mission und Nebenprojekte