فقد اليوم الحادي عشر من الشهر وتواريخ أخرى



في تشرين الثاني (نوفمبر) 2012 ، نشر Randal Monroe رسومًا كوميدية xkcd مع تقويم يتناسب فيه حجم أرقام كل شهر مع عدد المرات التي يتم فيها ذكر هذا الرقم في الكتب باسمه (على سبيل المثال ، "14 أكتوبر") في قاعدة بيانات Google Ngrams منذ عام 2000. معظم المواعيد الكبرى واضحة إلى حد ما: 4 يوليو ، 25 ديسمبر ، وهو اليوم الأول من كل شهر، في اليوم الأخير من كل شهر تقريبا، و 11 سبتمبر ، تاركا وراءه الجميع. لا تبدو أيام كثيرة أصغر بكثير من البقية. على سبيل المثال ، 29 فبراير- نقطة صغيرة. ولكن إذا نظرت عن كثب ، يمكنك أن ترى أن اليوم الحادي عشر من كل شهر صغير نسبيًا. ذهبت ملاحظة إلى الكوميديا: "في جميع الأشهر باستثناء سبتمبر ، يذكر الحادي عشر في كثير من الأحيان أقل بكثير من بقية التواريخ. كان ذلك حتى 11 سبتمبر [2001] ، ولا أعرف لماذا هذا ". بحثت في البيانات ، وأعتقد أنني اكتشفت السبب.

في البداية تأكدت من أن الحادي عشر يختلف عن البقية. يمكن أن يصل الشهر إلى 31 يومًا ، ومن المؤكد أن بعض هذه الأيام سيكون الأصغر على الإطلاق. ربما لا يكون الرقم 11 في التقويم هو الأصغر ، فقط يتمسكنا به. لذا قارنت البيانات الحقيقية ، ولم أدرس القصص المصورة فقط. تعرض قاعدة بيانات Ngrams إجمالي عدد المرات التي يتم فيها ذكر عبارة لمدة عام ، ويتم تسويتها بعدد الكتب المنشورة في ذلك العام.

اخترت مبلغ كل يوم من أيام السنة (1 يناير ، 2 يناير) ورسمت المتوسطاتحسب الشهر لكل يوم من أيام الشهر (1 يناير ، 1 فبراير ، وما إلى ذلك) لكل سنة. أظهر هذا عدد المرات التي يتم فيها ذكر 11 و 30 يومًا آخر في السنة المختارة. يسمح لك الوسيط بتخفيف الرشقات من أيام مثل 4 يوليو. سيبدو الوسيط غير عادي فقط إذا كان الرقم التسلسلي مختلفًا جدًا في 6 على الأقل من 12 شهرًا.

قمت ببناء متوسط ​​لكل رقم تسلسلي من 2000 إلى 2008. يوجد أدناه رسم بياني لـ 31 متوسطًا. الرقم الأول يبرز من الجميع ، و 15 بالكاد يمكن رؤيته بين البقية. لكن نتيجة اليوم الحادي عشر هي الأقل بكمية كبيرة إلى حد ما (بقيمة P <0.05) ، والتي يصعب تفسيرها للوهلة الأولى.



وهذا النقص موجود منذ فترة طويلة. يوضح الرسم البياني التالي جميع الأرقام التسلسلية لكل سنة من 1800-2008. يتم تنعيم البيانات على مدى 11 عامًا لإزالة الضوضاء. حتى في البداية ، الحادي عشر أقل بكثير من المجموعة الرئيسية. يستمر عيبه البسيط لعدة عقود ، ثم في 1860s ينحرف 11 فجأة عن موقعه باعتباره الأخير في السلسلة الوسطى. تزداد الفجوة بين الرقمين التسلسليين الحادي عشر والعادي بشكل حاد ، ونتيجة لذلك ، تصبح قيمة تكرار مراجعه أقل بمقدار النصف تقريبًا ، والتي تستمر في النصف الأول من القرن العشرين. في النصف الثاني ، يتم تقليل الفجوة ، لكنها لا تختفي حتى النهاية.



سيلاحظ القراء اليقظون غرابة أخرى. هناك 4 خطوط أخرى أقل مما يجب أن تكون. من الأعلى إلى الأسفل ، هذه هي الأرقام 2 و 3 و 22 و 23. من 1800 إلى 1890 هم أقل من الحادي عشر. ولكن منذ عام 1900 ، تضيق فجوتهم ، بينما بدأت الفجوة منذ الحادي عشر في الاتساع ، وتختفي تمامًا بحلول الثلاثينيات. هذا أيضًا موضوع مثير للاهتمام إلى حد ما ، والذي سننظر فيه بعد قليل.

الفضول المطبعي


في بداية الدراسة ، آمل أن أجد من المحرمات السرية حول أحداث الحادي عشر أو انحراف مطبعي عن قواعد الصحافة. للأسف ، تبين أن السبب هو أكثر من ذلك بكثير إلى الأرض: الرقم 1 يشبه إلى حد كبير الأحرف الكبيرة I (i) أو الأحرف الصغيرة l (L) في معظم الخطوط المستخدمة لطباعة الكتب. وأيضا يمكن الخلط بين 11 و n. خوارزميات من Google خاطئة ، حيث تتعرف على 11 في الصفحة ، وتفسر الرقم التسلسلي كنوع من الكلمات.

يمكننا البحث مباشرة عن عبارات لا معنى لها مثل ll March أو July II أو May II. يمكن الخلط بين 11 وتسع مجموعات من I و l و i. تم العثور على خمسة منهم بالفعل في قاعدة البيانات ، على الأقل لمدة شهر واحد: II-nd و Il-th و ii-th و li-th و ll-th. أيضًا ، كانت هناك خيارات بشخصية واحدة خاطئة ، 1lth ، 1ith و l1th. دعوت هذه الأخطاء xxth. كتب جوجليجعل الاستعلامات إلى قاعدة بيانات أحدث من Ngrams ، ولكن لا يزال من الممكن العثور على أمثلة لمثل هذه الأخطاء. على سبيل المثال ، يتعرف Google على ما يلي باعتباره الثاني من يناير:



مثل February ll :



لكن March li :



هناك الكثير من هذه الأمثلة في قاعدة البيانات. يمكنك العثور على أرقام تسلسلية أخرى تم تفسيرها بشكل خاطئ ، ولكن الرقم 11 أكثر شيوعًا من الآخرين.

أضفت يناير II ، January ll ، إلخ ، إلى حساباتي ، وفعلت الشيء نفسه للأشهر الأخرى. يظهر الرسم البياني التالي أن الحادي عشر يحصل على دفعة كبيرة من هذه الإضافة. حتى ستينيات القرن التاسع عشر ، اختفى الفرق بين المجموعة الحادية عشرة والمجموعة الرئيسية. بعد ستينيات القرن التاسع عشر ، اختفى ثلث أو ربع هذا الاختلاف.



وأين ذهب باقي الحادي عشر؟ منذ ستينيات القرن التاسع عشر ، بدأت خوارزمية Google في ارتكاب خطأ غريب - بدلاً من الحادي عشر ، تتعرف على الأخطاء رقم n. في ما يلي مثال لصفحة مليئة بالأرقام nth لشهر يناير:



في بعض السنوات ، يتجاوز عدد عمليات التعرّف غير الصحيحة عدد عمليات التعرّف الصحيحة. أضفت اليوم التاسع من يناير إلى 11 يناير ، وفعلت نفس الشيء مع الأشهر الأخرى. يوضح الرسم البياني التالي الأرقام nth ومجموعها مع 11s. حتى ستينيات القرن التاسع عشر ، كانت مساهمتهما ضئيلة ، ولكن بعد ذلك بدأ هذا الخطأ في أن يكون مسؤولًا عن جميع الأشخاص المفقودين الـ 11 تقريبًا.



جدول مدمج

بإضافة الأخطاء xxth و n-th إلى الرسم البياني الحادي عشر ، أغلقت الفجوة على طول الرسم البياني بالكامل ، وبدأ الحادي عشر في الظهور بنفس شكل جميع التواريخ الأخرى. اتضح أن التعرف غير الصحيح على الرقم 11 في شكل nth و II و ll وما إلى ذلك ، مسؤول عن عدد صغير من 11 رقمًا بين أيام أخرى من الشهر.



ماكينات الطباعة


على الرغم من أنه من الواضح لماذا تم التعرف على الخطأ الحادي عشر في الغالب بشكل غير صحيح من الآخرين ، فلماذا عدد الأخطاء غير متكافئ؟ ما الذي حدث في ستينيات القرن التاسع عشر ، والذي قفز بسببه معدل الخطأ كثيرًا؟ أظن أن هذا يرجع إلى اختراع جهاز في ستينيات القرن التاسع عشر مثل آلة كاتبة. لم يكن لدى الآلات الكاتبة الأولى مفتاح منفصل للرقم 1 . تم اقتراح استخدام الحرف l (L) في الأحرف الصغيرة بدلاً من ذلك. وعندما تتعرف الخوارزمية على شهر أكتوبر ، فإنها في الواقع تفعل ذلك بشكل صحيح أكثر مما كنا نعتقد. لا تحتوي كتب Google على العديد من المستندات المطبوعة ، ولكن هذا الجهاز الشهير كان له تأثير كبير على تطوير الخط. 1 و l لم يختلفا على المزيد والمزيد من الآلات الكاتبة الشائعة ، وحتى الخط المطبعي بدأ يرقى إلى مستوى توقعات هذا التشابه. قارن هذه الأحرف بخط1850 :



الفرق بين l بدون serif في الأعلى و 1 مع serif واضح. قارنها بخط 1920 :



الأحرف متطابقة باستثناء تقنين الأحرف. واليوم ، معظم الخطوط تصور 1 و l كأحرف طويلة مع وجود خطين في الجزء السفلي وآخر موجه إلى اليسار ، في الأعلى. فقط زاوية الشق 1 أكبر قليلاً من تلك التي ل. ساعدت جودة طباعة الكتب منذ عام 1970 في تقليل عدد التعرفات غير الصحيحة ، لكنها لم تختف تمامًا ، لذلك ظهرت المشاكل المتبقية على الشريط الهزلي من xkcd.

لا تزال مسألة شعبية الخطأ مفتوحة ، حيث يتم استبدال 11 بالعلامة nth. هذا خطأ غريب نوعا ما. غالبًا ما يتم العثور على nth في الرياضيات والمنشورات العلمية ، وهذا قد يؤثر على شعبيتها. في معظم الخطوط ، يكون الجزء العلوي من n رقيقًا جدًا ، وربما لا يكون مرئيًا في النصوص التي تم تدريب الخوارزمية عليها. ولكن هناك فرق كبير في نمو 1 و n ، خاصة في عصر الآلات الكاتبة ، حيث تحدث الكثير من الأخطاء. لكن العبارة n-th of January عبارة عن هراء ، لذا كان ينبغي تقليص فرص هذا الاعتراف. ربما احتوت بعض النصوص الحديثة على أخطاء ، وتم وضع علامة على الحادي عشر على أنها أخطاء تخدم كمصدر للأخطاء؟ الطريقة الوحيدة لمعرفة ذلك هي فتح شفرة المصدر للخوارزمية من Google ، والتي تتعرف على النص. سنترك هذا التمرين للقارئ.

خسر 2 و 3 و 22 و 23


لقد توصلنا إلى الأرقام الحادية عشرة ، ولكن خلال دراسة سلوكهم ، صادفت لغزًا آخر - عدد منخفض بشكل غير مفهوم من 2 و 3 و 22 و 23 ، ولكن حتى ثلاثينيات القرن العشرين فقط ، بعد وبذلك يصبح عددهم معادلاً.

على الرسم البياني أدناه جميع الأرقام ، وتبين أنه في القرن التاسع عشر لم يتم استخدام التواريخ المشار إليها على الإطلاق. ظهرت الإشارات الأولى لتواريخنا في 1810s ، ينمو عددهم بنفس معدل التواريخ الأخرى ، ولكن في نفس الوقت يحتفظ بفجوة معهم - عددهم حوالي نصف صغير. فجأة ، في تسعينيات القرن التاسع عشر ، ضاقت الفجوة ، ويحدث هذا حتى ثلاثينيات القرن العشرين ، عندما اندمجوا أخيرًا في المجموعة الرئيسية.



أسلوب ما قبل الثورة


لذا ، هل كان الرقمان 2 و 3 في القرن التاسع عشر غير سعداء؟ هل تكاد خوارزمية Google تتعرف على الثنائيات والمضاعفات الثلاثية في الخطوط القديمة؟ لا ، اتضح أنه في وقت سابق بدلاً من السجل الإنجليزي الحالي "2 ، 3 ، 22 ، 23" كان من المعتاد كتابة "2d ، 3d ، 22d ، 23d". لقد بنيت وسيطًا في 2 كانون الثاني (يناير) و 2 شباط (فبراير) وأشهر أخرى ، وفعلت الشيء نفسه مع التواريخ المتبقية. يوضح الرسم البياني أدناه تكرار حدوث هذه التواريخ بأسلوب التسجيل القديم - فهي تبدأ بتكرار التواريخ الأخرى ، ولكنها تختفي تدريجياً بحلول تسعينيات القرن التاسع عشر ، وتذوب تمامًا بحلول الثلاثينيات.



في بعض الأحيان يمكنك العثور على الاستخدام الحديث للشكل القديم للتسجيل ، إذا تم استخدامه في عنوان له تاريخ طويل ، مثل 3D Marine Division. لكن الاستخدام المتبقي لمثل هذا السجل يرجع بشكل أساسي إلى وجود نسخ من الكتب القديمة ومنشورات يوميات قديمة.

جدول مدمج


إذا أضفنا النمط القديم إلى الجديد ، نحصل على الرسم البياني التالي. يتبع ذلك أن التواريخ المحسوبة بشكل صحيح لا تختلف تقريبًا عن جميع التواريخ الأخرى.



لماذا يتبين الآن أن الإشارات إلى رقمين و 3 أرقام تتجاوز أحيانًا الأرقام الأخرى في التردد ، لا تزال غير مفهومة بالنسبة لي. أعتقد أنه نظرًا للإشارة المتكررة جدًا في اليوم الأول من الشهر ، يجب أيضًا ذكر اليومين الثاني والثالث من اليوم كثيرًا. ولكن إذا نظرت إلى أحداث 2 يناير أو 2 يناير في كتب Google ، يمكنك العثور على عدد غير قليل من هذه المقاطع: من



الواضح أن كتب Google تتجاهل الفواصل. لذا ، على الرغم من أن تواريخ الشهر من 1 إلى 4 ليست شيئًا خاصًا ، فإن مثل هذه الأمثلة يمكن أن تؤثر على الإحصائيات.

المنطق


لماذا استخدم الكتاب مثل هذه الاختصارات ذات الحرف الواحد من قبل؟ ربما بسبب اللاتينية ، حيث كان الحرف o بمثابة مؤشر للرقم التسلسلي. لا تزال اللغات الرومانسية مثل الإسبانية والإيطالية والبرتغالية تستخدم o أو a. سنستمر في استخدام d إن لم يكن للرابع ، والرابع ، وما إلى ذلك ، حيث لا يتم التعبير عن الحرف الساكن الأخير باللغة الإنجليزية بحرف واحد. اتضح أن اتباع اللغة الإنجليزية فاق الرغبة في تقليد اللاتينية.

Source: https://habr.com/ru/post/ar397869/


All Articles