
ربما لا يوجد الكثير من المستخدمين على هبر الذين لم يسمعوا قط عن
" أرشيف الإنترنت" ، وهي خدمة تبحث وتخزن البيانات الرقمية المهمة للبشرية جمعاء ، سواء كانت صفحات الويب أو الكتب أو مقاطع الفيديو أو أنواع أخرى من المعلومات .
من يدير الأرشيف على الإنترنت عندما ظهر وما هي مهمته؟ اقرأ عنها في مساعدة اليوم.
لماذا نحتاج إلى "أرشيف"؟
هذا بعيد عن الترفيه فقط. مهمة المنظمة هي الوصول الشامل إلى جميع المعلومات. يسعى أرشيف الإنترنت لمحاربة الاحتكار في توفير المعلومات من كل من شركات الاتصالات (جوجل ، فيسبوك ، إلخ) والدول.
علاوة على ذلك ، فإن "الأرشيف" منظمة تلتزم بالقانون. إذا كان القانون الأمريكي يتطلب حذف أي معلومات ، فإن المنظمة تفعل ذلك.
يعمل أرشيف الإنترنت أيضًا كأداة للعلماء ووكالات الاستخبارات والمؤرخين (مثل علماء الآثار) وممثلي العديد من المجالات الأخرى ، ناهيك عن المستخدمين الفرديين.
متى ظهر "أرشيف الإنترنت"؟
منشئ الأرشيف هو American Brewster Cale ، الذي أنشأ Alexa Internet. أصبحت كل من خدماته شائعة للغاية ، كلاهما مزدهران الآن.
بدأ أرشيف الإنترنت أرشفة المعلومات من المواقع وتخزين نسخ من صفحات الويب منذ عام 1996. يقع المقر الرئيسي لهذه المنظمة غير الربحية في سان فرانسيسكو بالولايات المتحدة الأمريكية.
صحيح ، لمدة خمس سنوات لم تكن البيانات متاحة للوصول العام - تم تخزين البيانات على خوادم الأرشيف ، وهذا كل شيء ، فقط إدارة الخدمة يمكنها عرض النسخ القديمة من المواقع. منذ عام 2001 ، قررت إدارة الخدمة توفير الوصول إلى البيانات المخزنة للجميع.
في البداية ، كان "أرشيف الإنترنت" مجرد أرشيف ويب ، ولكن بعد ذلك بدأت المنظمة في حفظ الكتب والصوت والصور المتحركة والبرامج. يعمل الآن "أرشيف الإنترنت" كمخزن للصور والصور الأخرى لناسا ونصوص المكتبة المفتوحة وما إلى ذلك.
ماذا عن منظمة موجودة؟
"الأرشيف" موجود على التبرعات الطوعية - المنظمات والأفراد. يمكنك تقديم الدعم في عملات البيتكوين ، المحفظة 1 الأرشفة 1 n2C579dMsAu3iC6tWzuQJz8dN. بالمناسبة ، تلقت هذه المحفظة 357.47245492 BTC لكامل وجودها ، والتي تبلغ حوالي 2.25 مليون دولار بسعر الصرف الحالي.
كيف يعمل الأرشيف؟
يعمل معظم الموظفين في مراكز مسح الكتب ، ويقومون بأعمال روتينية ولكن شاقة. لدى المنظمة ثلاثة مراكز بيانات تقع في كاليفورنيا بالولايات المتحدة الأمريكية. واحد في سان فرانسيسكو ، والثاني هو ريدوود سيتي ، والثالث هو ريتشموند. من أجل تجنب خطر فقدان البيانات في حالة وقوع كارثة طبيعية أو كوارث أخرى ، فإن الأرشيف لديه قدرات احتياطية في مصر وأمستردام.
"لقد أمضى الملايين من الأشخاص الكثير من الوقت والجهد لمشاركة الآخرين مع ما نعرفه في شكل الإنترنت. قال بروستر كالي ، مؤسس أرشيف الإنترنت: نريد إنشاء مكتبة لهذه المنصة الجديدة للنشر
ما حجم الأرشيف الآن؟
يحتوي "أرشيف الإنترنت" على عدة أقسام ، والفرع الذي يجمع المعلومات من المواقع له اسمه الخاص - Wayback Machine. في وقت كتابة "الاستفسار" ، احتفظ الأرشيف بـ 339 مليار صفحة ويب محفوظة. في عام 2017 ،
خزن "الأرشيف" 30 بيتابايت من المعلومات ، أي ما يقرب من 300 مليار صفحة ويب ، و 12 مليون كتاب ، و 4 ملايين تسجيل صوتي ، و 3.3 مليون مقطع فيديو ، و 1.5 مليون صورة ، و 170 ألف توزيعة برامج مختلفة. في غضون عام واحد فقط ، اكتسبت الخدمة "وزنًا ملحوظًا" بشكل ملحوظ ، والآن يخزن "الأرشيف" 339 مليار صفحة ويب ، و 19 مليون كتاب ، و 4.5 مليون ملف فيديو ، و 4.7 مليون ملف صوتي ، و 3.2 مليون صورة بمختلف أنواعها ، و 381 ألف توزيعة البرمجيات.
كيف يتم تنظيم تخزين البيانات؟
يتم تخزين المعلومات على محركات الأقراص الثابتة في ما يسمى "عقد البيانات". هذه خوادم ، يحتوي كل منها على 36 قرصًا ثابتًا (بالإضافة إلى قرصين مع أنظمة تشغيل). يتم تجميع عقد البيانات في صفائف من 10 أجهزة وهي مستودع كتلة. في عام 2016 ، استخدم "الأرشيف" محركات الأقراص الثابتة سعة 8 تيرابايت ، والآن أصبح الوضع كما هو. وتبين أن عقدة واحدة تحتوي على حوالي 288 تيرابايت من البيانات. بشكل عام ، يتم استخدام محركات الأقراص الصلبة ذات الأحجام الأخرى أيضًا: 2 و 3 و 4 تيرابايت.
في عام 2016 ، كان هناك حوالي 20000 محرك أقراص ثابتة. تم تجهيز مراكز بيانات الأرشيف بأنظمة مناخية للحفاظ على مناخ محلي بخصائص ثابتة. يستهلك مخزن عنقودي واحد من 10 عقد حوالي 5 كيلو واط من الطاقة.
بنية أرشيف الإنترنت هي "مكتبة" افتراضية ، تنقسم إلى أقسام مثل الكتب والأفلام والموسيقى ، إلخ. لكل عنصر هناك وصف تم إدخاله في الكتالوج - عادة ما يكون هذا هو الاسم واسم المؤلف والمعلومات الإضافية. من وجهة نظر فنية ، العناصر منظمة وموجودة في أدلة لينكس.
يبلغ إجمالي البيانات المخزنة بواسطة "الأرشيف" 22 بيتابايت ، بينما لا يزال هناك مساحة لـ 22 بيتابايت. يقول مندوبو الخدمة: "لأننا مصابون بجنون العظمة".

انظر إلى لقطة شاشة لمحتويات الدليل - هناك ملف باسم ينتهي بـ "_files.xml". هذا دليل يحتوي على معلومات حول جميع الملفات الموجودة في الدليل.
ماذا سيحدث للبيانات إذا فشل خادم أو أكثر؟
لن يحدث شيء فظيع -
البيانات مكررة . بمجرد ظهور عنصر جديد في مكتبة الأرشيف ، يتم نسخه على الفور ووضعه على محركات أقراص ثابتة مختلفة على خوادم مختلفة. تساعد عملية "النسخ المطابق" للمحتوى على التعامل مع مشكلات مثل انقطاع التيار الكهربائي وحالات التعطل في نظام الملفات.
إذا فشل القرص الصلب ، يتم استبداله بآخر جديد. بفضل بنية البيانات المتطابقة والمكررة ، يتم تعبئة المبتدئ على الفور بالبيانات الموجودة على محرك الأقراص الثابتة القديم الذي فشل.
يحتوي "الأرشيف" على نظام متخصص يراقب حالة القرص الصلب. في اليوم عليك استبدال 6-7 محركات أقراص فاشلة.
ما هي آلة Wayback.
هذه ليست سوى واحدة من خدمات "أرشيف الإنترنت" ، والتي تتخصص في الحفاظ على صفحات الويب. للخدمة "العنكبوت" الخاص بها ، والذي يفحص بانتظام جميع المواقع المتاحة على الشبكة ويخزنها على خوادم متخصصة. كلما كان الموقع أكثر شعبية ، كلما نسخ الروبوت محتوياته في كثير من الأحيان. إذا لم يرغب مسؤول الموارد في نسخ معلومات الموقع بواسطة برنامج التتبُّع ، يكفي كتابة حظر في ملف robots.txt.
يتم نسخ الموارد الشائعة في كثير من الأحيان - تقريبًا يوميًا. تقوم Wayback Machine بفهرسة حتى الشبكات الاجتماعية ، بما في ذلك Twitter و Facebook
في عام 2017 ،
أطلقت شركة Archive
خدمة Wayback Machine المحدثة ، مما يعد بوصول أكثر ملاءمة إلى صفحات الويب المحفوظة. تم كتابة الخدمة إن لم يكن من الصفر ، ثم أعيد تصميمها باردة. وهي الآن تدعم عددًا من تنسيقات الملفات التي لم يتم حفظها في السابق ، وفي عام 2017 أعلنت المنظمة أنه يتم تخزين حوالي 1 مليار صفحة ويب على خوادمها كل أسبوع.
هذا هو شكل تويتر في عام 2007ماذا يمكن العثور عليه في قاعدة بيانات "أرشيف الإنترنت"؟
كتب. مجموعة المنظمة ضخمة ، وتتضمن كتبًا رقمية ، في إصدارات شائعة ونادرة جدًا. لا يتم تخزين الكتب باللغة الإنجليزية فقط ، ولكن أيضًا بالعديد من اللغات الأخرى. يحتوي الأرشيف على مراكز متخصصة لمسح الكتب ، وهناك 33 مركزًا في المجموع ، وهي موجودة في خمس دول حول العالم.
يقوم موظفو المركز بمسح حوالي 1000 كتاب يوميًا. تحتوي قاعدة بيانات الخدمة على ملايين المنشورات ، ويتم تمويل العمل على الرقمنة من قبل الناس العاديين والمنظمات المختلفة ، بما في ذلك المكتبات والصناديق.
منذ عام 2007 ، احتفظ أرشيف الإنترنت بكتب يمكن الوصول إليها بشكل عام من Google Book Search في قاعدة بياناته. بعد الإطلاق ، توسعت قاعدة الكتب بسرعة - في عام 2013 ، تم بالفعل حفظ أكثر من 900 ألف كتاب من خدمة Google.
كما توفر إحدى خدمات "الأرشيف" إمكانية الوصول إلى الكتب المفتوحة بالكامل ، حيث يوجد بالفعل أكثر من مليون منها. تسمى هذه الخدمة Open Library.
فيديو تخزن الخدمة 4.5 مليون مقطع. وهي مقسمة حسب الموضوع ولها تركيز مختلف تمامًا. خوادم مخزن الأرشيف والأفلام الوثائقية وتسجيلات الأحداث الرياضية والبرامج التلفزيونية والعديد من المواد الأخرى.
في عام 2015 ، أدى "الأرشيف" إلى مشروع واسع النطاق -
رقمنة شرائط الفيديو . في البداية كان هناك حوالي 40 ألف شريط من أرشيف ماريون ستوكس ، وهي امرأة سجلت لعقود أخبارًا على الأشرطة. ثم ، تمت إضافة أشرطة فيديو أخرى ، والتي تم إرسالها إلى "الأرشيف" من قبل المشجعين لفكرة رقمنة البيانات المهمة للإنسانية.
صوت كما هو الحال مع الفيديو ، يخزن "الأرشيف" أيضًا ملفات صوتية مقسمة أيضًا حسب الموضوع. في العام الماضي ، بدأت "الأرشيف" في تنفيذ مشروعها الجديد - فك تشفير سجلات shellac ، وهو أقدم تنسيق تسجيل صوتي. تم الحفاظ على الصوت على صفائح اللك ، وهو راتنج طبيعي تفرزه الديدان الأنثوية. في المجموع ، يحتوي أرشيف
مشروع 78 العظيم على عدة
مئات الآلاف من السجلات .
البرمجيات. بالطبع ، من المستحيل ببساطة تخزين جميع البرامج التي أنشأتها البشرية ، حتى للأرشيف. تقوم الخوادم بتخزين المنتجات القديمة - على سبيل المثال ، برامج لـ Macintosh وبرامج DOS وبرامج أخرى. في عام 2016 ، نشر موظفو الأرشيف أكثر من
1500 برنامج لـ Windows 3.1 ، يمكنك العمل مباشرة في المتصفح. في عام 2017 ، أصدر أرشيف الإنترنت أرشيف
برنامج لجهاز Macintosh الأول .
ألعاب نعم ، يوفر الأرشيف إمكانية الوصول إلى عدد كبير من الألعاب. يمكن تشغيل بعضها في بيئة محاكي المتصفح. يتم تخزين الألعاب بشكل مختلف جدًا ، بما في ذلك من
وحدات التحكم التناظرية إلى الرقمية المحمولة . هناك ألعاب لـ
MS-DOS وألعاب وحدة التحكم لـ Atari و ColecoVision.

نشرت المنظمة لأول مرة أرشيف الألعاب القديمة في عام 2013. نحن نتحدث عن العناوين قبل 30-40 عامًا ، والتي يمكن تشغيلها مباشرة في المتصفح. هذه ألعاب لأجهزة Atari 2600 (1977) و Atari 7800 (1986) و ColecoVision (1982) و Philips Videopac G7000 (1978) و Astrocade (1983). الشيء الأكثر إثارة للاهتمام هو أن أرشيف الإنترنت جعل من الممكن اللعب بشكل قانوني تمامًا. تحتوي المجموعة الآن على
أكثر من 3400 لعبة وتواصل تجديدها.