
ربما ، لا يوجد الكثير من المستخدمين على موقع Habr الذين لم يسمعوا قط عن
"أرشيف الإنترنت" ، وهي خدمة تبحث وتخزين البيانات الرقمية المهمة للبشرية جمعاء ، سواء كانت صفحات الإنترنت أو الكتب أو مقاطع الفيديو أو أي نوع آخر المعلومات.
من يدير أرشيف الإنترنت ، متى ظهر وما هي مهمته؟ اقرأ عن ذلك في "التحقيق" اليوم.
لماذا نحتاج حتى إلى "الأرشيف"؟
هذا أبعد ما يكون عن الترفيه فقط. مهمة المنظمة هي توفير الوصول الشامل لجميع المعلومات. يسعى "أرشيف الإنترنت" إلى محاربة احتكار توفير المعلومات من قِبل كل من شركات الاتصالات (Google و Facebook وغيرها) والحكومات.
في الوقت نفسه ، "الأرشيف" هي منظمة تحترم القانون. إذا كانت هناك حاجة إلى إزالة بعض المعلومات بموجب قانون الولايات المتحدة ، فإن المنظمة تفعل ذلك.
يعمل "أرشيف الإنترنت" أيضًا كأداة للعلماء ووكالات الأمن والمؤرخين (على سبيل المثال ، علماء الآثار) وممثلين عن العديد من المجالات الأخرى ، ناهيك عن المستخدمين الأفراد.
متى ظهر "أرشيف الإنترنت"؟
منشئ "الأرشيف" هو Brewster Cale من الولايات المتحدة ، الذي أنشأ شركة Alexa Internet. أصبحت كل من خدماته شعبية للغاية ، وكلاهما لا يزال مزدهرا.
بدأ "أرشيف الإنترنت" في أرشفة المعلومات من المواقع الإلكترونية والاحتفاظ بنسخ من صفحات الويب في عام 1996. يقع مقر هذه المنظمة غير الربحية في سان فرانسيسكو ، الولايات المتحدة الأمريكية.
ومع ذلك ، لمدة خمس سنوات كانت البيانات غير متوفرة للوصول العام - تم تخزين البيانات على خوادم "الأرشيف" ، وهذا كل شيء ، يمكن فقط لإدارة الخدمة عرض النسخ القديمة من المواقع. منذ عام 2001 ، قررت إدارة الخدمة توفير الوصول إلى البيانات المخزنة للجميع.
في البداية ، كان "أرشيف الإنترنت" مجرد أرشيف ويب ، ولكن بعد ذلك بدأت المنظمة في حفظ الكتب والملفات الصوتية ونقل الصور والبرامج. الآن "أرشيف الإنترنت" يعمل كمستودع للصور وغيرها من صور ناسا ، ونصوص المكتبة المفتوحة ، إلخ.
كيف توجد المنظمة؟
يوجد "الأرشيف" على التبرعات الطوعية - سواء من المنظمات أو من الأفراد. يمكنك تقديم الدعم في عملات البيتكوين ، رقم المحفظة هو 1Archive1n2C579dMsAu3iC6tWzuQJz8dN. هذه المحفظة ، بالمناسبة ، تلقت 357.47245492 BTC خلال وجودها ، وهو حوالي 2.25 مليون دولار بالمعدل الحالي.
كيف يعمل "الأرشيف"؟
يعمل معظم الموظفين في مراكز مسح الكتب ، ويقومون بأعمال روتينية ، لكنهم يستهلكون وقتًا طويلاً. يوجد في المنظمة ثلاثة مراكز بيانات في كاليفورنيا بالولايات المتحدة الأمريكية. واحد في سان فرانسيسكو ، وواحد في مدينة ريدوود ، وواحد في ريتشموند. من أجل تجنب خطر فقدان البيانات في حالة وقوع كارثة طبيعية أو غيرها من الكوارث ، فإن "الأرشيف" لديه طاقة احتياطية في مصر وأمستردام.
"لقد قضى الملايين من الناس الكثير من الوقت والجهد لمشاركة الآخرين ما نعرفه في شكل الإنترنت. قال بروستر كاهل ، مؤسس أرشيف الإنترنت "نريد إنشاء مكتبة لمنصة النشر الجديدة هذه".
ما حجم "الأرشيف" الآن؟
يحتوي "أرشيف الإنترنت" على العديد من الأقسام ، والقسم الذي يجمع المعلومات من المواقع له اسمه الخاص - Wayback Machine. في وقت كتابة "الاستعلام" ، احتوى الأرشيف على 339 مليار صفحة ويب محفوظة. في عام 2017 ، قام "الأرشيف"
بتخزين 30 بيتابايت من المعلومات ، أي حوالي 300 مليار صفحة ويب و 12 مليون كتاب و 4 ملايين تسجيل صوتي و 3.3 مليون فيديو و 1.5 مليون صورة و 170 ألف توزيع برامج مختلف. في عام واحد فقط ، الخدمة بشكل كبير "وزن إضافي". الآن "الأرشيف" يخزن 339 مليار صفحة ويب ، 19 مليون كتاب ، 4.5 مليون ملف فيديو ، 4.7 مليون ملف صوتي ، 3.2 مليون صورة من مختلف الأنواع ، 381 ألف برنامج توزيع.
كيف يتم تنظيم تخزين البيانات؟
يتم تخزين المعلومات على الأقراص الصلبة في ما يسمى ب "العقد البيانات". هذه هي الخوادم. يحتوي كل منها على 36 محرك أقراص ثابتة (بالإضافة إلى محركي نظام تشغيل). يتم تجميع العقد البيانات في صفائف من 10 آلات وتمثل تخزين كتلة. في عام 2016 ، استخدم "الأرشيف" HDD سعة 8 تيرابايت ، والآن أصبح الوضع على حاله. اتضح أن عقدة واحدة تخزن حوالي 288 تيرابايت من البيانات. بشكل عام ، يتم استخدام محركات الأقراص الصلبة ذات الأحجام الأخرى أيضًا: 2.3 و 4 تيرابايت.
في عام 2016 ، كان هناك حوالي 20،000 محرك أقراص صلبة. تم تجهيز مراكز البيانات في "الأرشيف" بوحدات تكييف الهواء للتحكم في المناخ بخصائص ثابتة. يستهلك تخزين متفاوت المسافات يتكون من 10 نقاط حوالي 5 كيلووات من الطاقة.
هيكل أرشيف الإنترنت هو "مكتبة" افتراضية ، تنقسم إلى أقسام مثل الكتب والأفلام والموسيقى وغيرها. لكل عنصر هناك وصف في الكتالوج - عادةً الاسم واسم المؤلف والمعلومات الإضافية. من وجهة نظر تقنية ، يتم هيكلة العناصر وتحديد موقعها في أدلة Linux.
المبلغ الإجمالي للبيانات المخزنة من قبل "الأرشيف" هو 22 PB ، والآن هناك مجال ل 22 PB آخر. "لأننا بجنون العظمة ،" - الدولة ممثلي الخدمة.

انظر إلى لقطة شاشة لمحتويات الدليل - يوجد ملف يحمل الاسم "_files.xml". هذا دليل يحتوي على معلومات حول جميع الملفات في الدليل.
ماذا سيحدث للبيانات في حالة فشل خادم واحد أو أكثر؟
لا شيء سيء - يتم تكرار البيانات. بمجرد ظهور عنصر جديد في مكتبة "الأرشفة" ، يتم
نسخه على الفور ووضعه على محركات أقراص صلبة مختلفة على خوادم مختلفة. تساعد عملية "النسخ المتطابق" للمحتوى على التغلب على مشاكل مثل انقطاع التيار الكهربائي وفشل نظام الملفات.
إذا فشل القرص الصلب ، يتم استبداله بقرص جديد. بفضل بنية البيانات التي لها نسخ متطابقة ومكررة ، يتم ملء البيانات على الفور على القرص الصلب القديم الذي فشل.
يحتوي "الأرشيف" على نظام متخصص يراقب حالة محرك الأقراص الصلبة. خلال يوم ، يجب عليك استبدال 6 إلى 7 من محركات الأقراص الفاشلة.
ما هي آلة Wayback؟
هذه مجرد واحدة من خدمات "أرشيف الإنترنت" التي تتخصص في حفظ صفحات الويب. للخدمة "عنكبوت" خاص بها ، والذي يفحص بانتظام جميع المواقع المتاحة على الشبكة ويخزنها على خوادم متخصصة. كلما زاد شعبية موقع الويب ، زاد عدد مرات نسخ الروبوت لمحتواه. إذا كان المسؤول عن المورد لا يريد نسخ معلومات الموقع بواسطة الروبوت ، فهذا يكفي لتسجيل حظر في ملف robots.txt.
يتم نسخ الموارد الشائعة بشكل متكرر - يوميًا تقريبًا. تقوم Wayback Machine بفهرسة الشبكات الاجتماعية ، بما في ذلك Twitter و Facebook
في عام 2017 ، أطلق "الأرشيف" جهاز Wayback المحدث ، مما يعد بمزيد من سهولة الوصول إلى صفحات الويب المحفوظة. تم إعادة تصميم الخدمة بشكل كبير ، إن لم تكن مشفرة من البداية. الآن يدعم عددًا من تنسيقات الملفات التي لم يكن من الممكن حفظها في السابق. في نفس عام 2017 ، قالت المنظمة إنه كل أسبوع توفر خوادمها حوالي مليار صفحة ويب.
هذا ما بدا عليه تويتر في عام 2007ماذا يمكن العثور عليها في قاعدة بيانات "أرشيف الإنترنت"؟
كتب مجموعة المؤسسة ضخمة ، وتتضمن كتبًا رقمية ، وكلاهما من الإصدارات الشائعة والنادرة للغاية. لا يتم حفظ الكتب باللغة الإنجليزية فقط ، ولكن أيضًا في العديد من اللغات الأخرى. يحتوي "الأرشيف" على مراكز متخصصة لمسح الكتب ، 33 من هذه المراكز في المجموع. تقع في خمس دول حول العالم.
يقوم موظفو المركز بمسح حوالي 1000 كتاب يوميًا. تحتوي قاعدة بيانات الخدمة على ملايين المنشورات. يتم تمويل العمل على الرقمنة من قبل كل من الأفراد العاديين والمؤسسات المختلفة ، بما في ذلك المكتبات والمؤسسات.
منذ عام 2007 ، يقوم "أرشيف الإنترنت" بتخزين الكتب العامة من Google Book Search في قاعدة بياناته. بعد الإطلاق ، نمت قاعدة بيانات الكتب بسرعة - في عام 2013 ، تم حفظ أكثر من 900 ألف كتاب من خدمة Google.
توفر إحدى خدمات "الأرشيف" أيضًا إمكانية الوصول إلى الكتب المفتوحة بالكامل. هناك أكثر من مليون منهم بالفعل. هذه الخدمة تسمى المكتبة المفتوحة.
فيديو تخزن الخدمة 4.5 مليون فيديو. وهي مقسمة إلى مواضيع ولها تركيز مختلف تمامًا. تقوم خوادم "الأرشفة" بتخزين الأفلام والبرامج الوثائقية والأحداث الرياضية والبرامج التلفزيونية والعديد من المواد الأخرى.
في عام 2015 ، أدى "الأرشيف" إلى ظهور
مشروع واسع النطاق - رقمنة أشرطة الفيديو. في البداية ، كان حوالي 40 ألف كاسيت من أرشيف ماريون ستوكس ، وهي امرأة تم تسجيل الأخبار على الشريط لعدة عقود. ثم أضافت أشرطة فيديو أخرى. تم إرسالهم إلى "الأرشيف" من قبل المعجبين بفكرة رقمنة البيانات المهمة للإنسانية.
ملفات الصوت. على غرار مقاطع الفيديو ، يقوم "الأرشيف" بتخزين الملفات الصوتية ، والتي يتم تقسيمها أيضًا حسب الموضوعات. في العام الماضي ، بدأ "الأرشيف" في تنفيذ مشروعه الجديد - فك شفرة سجلات اللك ، أقدم تنسيق للتسجيلات الصوتية. تم الحفاظ على الصوت على لوحات اللك - وهو راتنج طبيعي ، معزول بواسطة الحشرات على نطاق الإناث. في المجموع ، يحتوي
مشروع Great 78 على
عدة مئات الآلاف من السجلات .
البرمجيات بالطبع ، من المستحيل ببساطة تخزين جميع البرامج التي أنشأتها البشرية ، حتى بالنسبة لـ "الأرشيف". تقوم الخوادم بتخزين برامج قديمة - على سبيل المثال ، برامج لماكنتوش ، وبرنامج DOS وغيرها من البرامج. في عام 2016 ، نشر موظفو "الأرشفة"
أكثر من 1500 برنامج لنظام Windows 3.1. يمكنك العمل مباشرة في المتصفح. في عام 2017 ، أصدر أرشيف الإنترنت
أرشيف البرامج لماكنتوش الأول .
العاب نعم ، يوفر "الأرشيف" الوصول إلى عدد كبير من الألعاب. يمكن لعب بعضها في بيئة محاكي المتصفح. يتم تخزين مجموعة متنوعة من الألعاب ، بما في ذلك الألعاب
المحمولة الرقمية التناظرية . هناك
ألعاب لـ MS-DOS وألعاب وحدة التحكم
لـ Atari و ColecoVision .

لأول مرة تم
تحميل أرشيف الألعاب القديمة من قبل المؤسسة في عام 2013. نحن نتحدث عن عناوين 30-40 سنة مضت ، والتي يمكن تشغيلها مباشرة في المتصفح. هذه هي ألعاب Atari 2600 (1977) و Atari 7800 (1986) و ColecoVision (1982) و Philips Videopac G7000 (1978) و Astrocade (1983). الشيء الأكثر إثارة للاهتمام هو أن أرشيف الإنترنت يضمن أنه يمكنك اللعب بشكل قانوني. تضم المجموعة الآن
أكثر من 3400 لعبة وتستمر في النمو.