لقد بدأت في كتابة هذا النص منذ وقت طويل ، لذلك لم يكن من المخطط أن يكون ذا صلة سياسية. ولكن اتضح أنه في هذه الأيام ظهرت وسائل الإعلام دليلاً إعلاميًا يتعلق باللغات الصغيرة (الأقلية) في روسيا. من الممكن أن توضح الدراسة التي أكتب عنها أدناه شيئًا لشخص بهذا المعنى.
كم عدد اللغات الموجودة في روسيا؟
ليس من السهل إدراك ذلك ، لكنهم يتحدثون في روسيا عددًا هائلًا من اللغات. علاوة على ذلك ، يتحدثون في روسيا مثل هذه اللغات التي لا يتم توزيعها في أي مكان آخر. لنفترض أن الملايين من الأوكرانيين والأوزبك يعيشون في روسيا ، ولكن في نفس الوقت هناك دولتان ذات سيادة أوكرانيا وأوزبكستان ، حيث تكون اللغات المقابلة رسمية. لكن في روسيا يتحدثون الباشكيرية والتوفانية والأدمرت والعديد من اللغات الأخرى (بل والكثير) التي لا تتمتع بوضع دولتها في أي مكان آخر.
وضع الدولة مهم. في عصر العولمة ، من أجل البقاء ، تحتاج اللغات إلى دعم يؤثر بشكل إيجابي على المطبوعات ووسائل الإعلام والفن ، وفي نهاية المطاف رغبة وقدرة الناس على التحدث بلغتهم الأصلية.
وكيف تكيفت هذه اللغات مع الحقائق الرقمية الجديدة؟ هل صحيح أنهم يتحدثون فقط في القرى الجبلية النائية؟ أم أنها لا تزال وسيلة كاملة للتواصل عبر الإنترنت؟ قبل بضع سنوات ، قررت أنا وزملائي معرفة ذلك.
في البداية ، كانت هذه دراسة في إطار مركز الدراسة البائد الآن لدراسة الإنترنت وجمعية NES (الآن تم تحويلها بنجاح إلى نادي الإنترنت وعشاق المجتمع ) ، ثم نظمنا مشروع بحث في القضاء في كلية اللغويات في المدرسة العليا للاقتصاد ، وبشكل عام ، كانت ناجحة. يتم عرض جميع النتائج على موقع ويب خاص ، لغات روسيا ، ولكن سأخبرك عن الأكثر إثارة للاهتمام ، حول ما قمنا به وكيف (وكذلك ما حدث).
بادئ ذي بدء ، كان من الضروري تحديد عدد اللغات بشكل عام في روسيا ، وما هي اللغات. لم يكن لدى اللغويين أي قائمة مقبولة بشكل عام: ليس من المعروف عن بعض اللغات ما إذا كان هناك متحدث آخر على الأقل على قيد الحياة ، أو عن بعض لا يوجد اتفاق ما إذا كانت هذه لغة حقًا ، أو في الواقع هي لهجة لغة أخرى. ولا توجد معايير واضحة لتمييز أحدهما عن الآخر. هناك نكتة: "اللغة لهجة مع الجيش والبحرية" ، ولكن مع كل ذكاء هذا البيان من قبل Weinreich ، هناك ما يكفي من الأمثلة المضادة: البرازيل لديها جيش وبحرية ، ولكن ليس لديها لغتها الخاصة (البرازيليون يستخدمون البرتغالية ، لغة مدينتهم السابقة) ، علاوة على ذلك ، الأمريكيون ، أصحاب أقوى جيش في العالم ، يستخدمون لهجة فقط وليس لغتهم الخاصة. لا يوجد في أيسلندا جيش أو أسطول (فقط سفن خفر السواحل) ، لكن لا أحد يتعدى على خصوصية لغتهم (على الرغم من أنه لا أحد يجادل في أنه أحد أقارب النرويجية الحديثة).
في كلمة واحدة ، لم تكن المهمة سهلة. كانت لغات داغستان ذات صعوبة خاصة. هناك العديد من اللغات (لغات حقيقية ، ليست لهجات! شركاتهم لا تفهم بعضها البعض) بحيث يمكنك اكتشافها فقط بعد التشاور مع المتخصصين.
قررنا أيضًا نقل لغات العنوان لدول أخرى خارج قائمتنا. في الواقع ، إذا كانت دولة بأكملها خارج روسيا تتحدث بعض اللغات ، فمن المرجح أن يتم استخدام موارد الدولة أيضًا لدعم اللغة. من الممكن اعتبار لغة مثل لغة روسيا ، ولكن سيكون من الخطأ تقييم وجودها على الإنترنت مقارنة باللغات الأخرى التي لا يتم تغذيتها من الخارج: ستكون اللغة الإنغوشية والكازاخستانية في فئات وزن مختلفة تمامًا. لذلك ، تبين أن أوسيتيا تجاوزت دراستنا: على الرغم من حقيقة أنه في روسيا هناك منطقة فكرية كاملة حيث يتم التحدث بالأوسيتيين ، هناك أيضًا دولة منفصلة معترف بها من قبل روسيا ، أوسيتيا الجنوبية ، والتي تعتبر هذه اللغة رسمية. بالمعنى الدقيق للكلمة ، في أوسيتيا الجنوبية والشمالية يتحدثون لهجات مختلفة ، الحديد والديجور. ولكن تلقائيا ، الكمبيوتر ، للتمييز بينهما أمر صعب للغاية. لذا من الأفضل اعتبارها لغة واحدة لا تنتمي إلى فئة لغات روسيا.
حادثة أخرى تتعلق اليديشية. في روسيا ، اسميا ، هناك أيضا منطقة يجب أن يعيش فيها المتحدثون باللغة اليديشية - منطقة الحكم الذاتي اليهودية. في الوقت نفسه ، أوضح لنا خبراؤنا أنه لم يكن هناك تقريبًا أي متحدثين باللغة اليديشية في EAO ، وأن جميع النصوص على الإنترنت بهذه اللغة تمت كتابتها بشكل شبه حصري في إسرائيل والولايات المتحدة. لذا لتحليل تمثيل اليديشية على الإنترنت كلغة روسيا غبية. هذا بالإضافة إلى حقيقة أننا سنواجه صداعًا مرتبطًا بمجموعة متنوعة من خيارات التدقيق الإملائي. إليك بعض الروابط ذات الصلة بهذا الموضوع: [ 1 ] ، [ 2 ] ، [ 3 ].
لذا ، قررنا اللغات. كان هناك 96 منهم.
القائمة الكاملة للغاتأباظة
أفار
أغول
الأديغة
ألوتيان
المعلم
amuzgi-shirinsky
الأنديز
ارشنسكي
أهويان
باغفالنسكي
بشكير
bezhtinsky
botlikh
بوريات
الفيبسية
Verkhneurkunsky
فودسكي
فجوة
جينوهسكي
godoberinsky
جبل ماري
غونزيب
Izhora
انجوش
Itelmen
قبردينو شركسي
Kadar (ربما لهجة Darginsky)
كايتاج
كالميك
كاراتينسكي
Karachay-Balkar
كاريليان
كيت
كولا سامي
كومي زيريانسكي
كومي-بيرمياك
كورياك
Kubachi-Ashtinsky
كوميك
لاكسكي
ليزجي
غابات نينيتس
مرج الشرق ماري
منسي
ميجيب
موكشا-موردوفيان
muirinsky
ناناي
Nganasan
negidalsky
nivkhsky
نوغاي
Orok
روتولسكي
سانجي إيتارين
شمال التاي
شمال يوكاجير (التندرا ، الفادول)
Severodarginsky (بما في ذلك الأدبية Darginsky)
Selkup
Soyot-Tsatansky
تاباساران
tanty-sirkhinsky (ربما نفس لغة Verkhneurkunsky)
التتار
تات (المهددة بالانقراض)
تيندين
توفالار
أنبوبي
توفيني
شبكات التندرا
أوديني
الأدمرت
Udege
أولتشي
usisha-tsudahar
خكاس
خانتي
خفارشينسكي
Tsakhur
سيسيان
غجري
تشامالينسكي
الشيشانية
شيراجي
تشوفاش
تشوكشي
شوليمسكي
شور
إيفينكي
حتى
enetsky
ارزيا موردوفيان
الإسكيمو
ألتاي الجنوبية
جنوب يوكاجير (كوليما ، أودول)
ياقوت
كيف الآن للبحث عنها على الويب؟ يمكنك تفريغ الإنترنت بالكامل ومحاولة العثور على النصوص الضرورية في المجموعة الناتجة ... ولكن انتظر ، لا يمكنك حقًا تفريغ الإنترنت بالكامل. أي أنه من الممكن إذا كنت شركة كبيرة لتكنولوجيا المعلومات ولديها مجموعة خوادم مناسبة وفريق تطوير. وإذا كان لديك فريق جامعي صغير تحت تصرفك ، فلا يوجد شيء للتفكير فيه. من ناحية أخرى ، لا تحتاج إلى تنزيل أي شيء في هذه المرحلة ، لأن محركات البحث تجاوزت بالفعل الشبكة بالكامل. من الضروري فقط أن تطلب من محركات البحث الاستعلامات الصحيحة. صحيح أن محركات البحث لا تحب الضربات التلقائية. ولكن إذا كنت تسأل حقًا ، فيمكنك استخدام ، على سبيل المثال ، Yandex.XML ، الذي لديه حد لعدد الطلبات ، ولكن لا يزال هذا ليس مثل العمل مع نتائج البحث بيديك.
الكلمات المميزة
ولكن ماذا تسأل؟ هناك حاجة إلى الكلمات - هذا واضح. تتكون فهارس البحث من الكلمات ، لذلك تحتاج إلى تحديد كلمات لكل لغة تبحث عنها والتي يمكن العثور عليها في تلك اللغة المحددة ولن تتطابق مع تركيبة الحروف بأي كلمة في أي لغة أخرى. بمعنى ما ، يجب أن يكون البحث عن اللغات الروسية أبسط ، لأن جميع اللغات الموجودة في قائمتنا تقريبًا تحتوي على نصوص سيريلية ، وهذه حالة نادرة نسبيًا للغات العالم ، لذا فإن احتمالية تزامن كلمتين من لغات مختلفة تقل بشكل حاد: سيكون من الممكن الخلط فقط الكلمات من لغات من الفضاء ما بعد السوفييتي ، والكلمات من بعض لغات أوقيانوسيا لن تخلق ضوضاء.
ولكن من أين تحصل على الكلمات؟ إذا لجأنا مرة أخرى إلى اللغويين ، فسيخبرونك أن هناك منشورًا قديمًا وجديرًا به - Gilyarevsky R. S. ، Grivnin V. S. المحدد للغات العالم من خلال اللغة المكتوبة (M. ، 1961 للطبعة الثانية). تحتوي كل لغة من اللغات الموصوفة (حوالي 200) على صفحة واحدة ، حيث يحتوي قالب واحد على اسم اللغة ، ونصوص قصيرة عليها ، والأبجدية ، وخصائصها الرئيسية ومعلومات عن عدد شركات النقل والانتماء الجيني.
يبدو أن الكتاب لأغراضنا عديم الفائدة تمامًا ، ولكن في الصفحة 259 يوجد قسم إضافي ، "تركيبات نموذجية وكلمات خدمة لبعض اللغات". يبدو أن هذا هو ما تحتاجه ، ولكن لسوء الحظ ، فإن الكلمات التي يتم اقتباسها هناك قصيرة جدًا ويتوافق تكوين الحروف مع الكلمات من اللغة الروسية. على سبيل المثال ، بالنسبة لـ Balkar هي كلمة "blah" ، والتي عند البحث ستنتج كمية هائلة من القمامة التي لا تتوافق على الإطلاق مع لغة Balkar (ليس فقط blah blah ، ولكن أيضًا " مركبة جوية بدون طيار ") ، وبالنسبة لجبل Mari - "don" ( سيكون البحث أسوأ). حسنًا ، على الرغم من ذلك ، فإن الكلمات في هذا القسم نادرة إلى حد ما. وبتركيبة الحروف في Yandex ، لن تبدو.
لذا يقترح اللغويون القيام به. سيكون لدى علماء الكمبيوتر حل مختلف. لماذا لا تأخذ ويكيبيديا (بعد كل شيء ، هناك ويكيبيديا في لغات شعوب روسيا) ، وتقوم بعمل كتاب تردد منه ، وقواميس متقاطعة ، والعثور على الرموز المميزة الفريدة بهذه الطريقة ، واستخدامها لطلبات البحث؟ لسوء الحظ ، لن يعمل هذا أيضًا. أولاً ، ويكيبيديا ليست لجميع لغات روسيا. لا يوجد سوى 22 قسمًا في ويكيبيديا "الحقيقية" ، وليس من الحاضنة. تضيف الحاضنة 41 مقطعًا إضافيًا. ولكن عادةً ما يكون عددًا يصل إلى عشرات النصوص القصيرة جدًا ، أي أنها لن تنتج نتائج ذات دلالة إحصائية. هنا حاضنة مع Tabasaran ويكيبيديا (5 مقالات). هنا حاضنة نوغاي (23 مقالة). علاوة على ذلك ، في بعض لا يوجد نص على الإطلاق ، ولكن هناك مقال عن البشكير . وهكذا دواليك.
لكن ويكيبيديا الحقيقية (بدون حضانة) لا يمكن أن تكون مصدرًا جيدًا. لأنهم ... لم يكتبوا من قبل الناس! أكبر ويكيبيديا في لغات شعوب روسيا تعاني مما يسميه ويكيبيديا " العناكب العنكبوتية ". بمعنى ، ملء القسم تلقائيًا بالمقالات التي تم إنشاؤها بواسطة القالب الذي يتم فيه إدراج بعض البيانات العددية من قاعدة بيانات أو سجل مفتوح. لنفترض ، أن Bashkir و Tatar Wikipedia لنسبة صغيرة جدًا من "الإنسان" ، هناك عشرات الآلاف من المقالات التلقائية حول الأنهار والبحيرات. حاول النقر على رابط " مقال عشوائي " في Bashkir Wikipedia ، كم مرة من أصل 10 تحصل على "مقال غير مائي" (يمكنك البحث عن "نهر" باستخدام الكلمة الرئيسية "yylkha")؟ الآن تحسن الوضع إلى حد ما ، لا تزال هناك مقالات حول البلدان والمستوطنات ، ولكن قبل خمس سنوات كانت هناك مواضيع "المياه" في 8 حالات من أصل 10. نقرت الآن ، اتضح أنه 7: 3 لصالح الأنهار. ماذا عنك؟
كل شيء سيكون على ما يرام ، لكن كلمات التكرار في مثل هذه النصوص ليست كلمات تردد في اللغة على الإطلاق. كيف يبدو قاموس التردد "العادي" بناءً على النصوص ذات الأصل الطبيعي؟ يشغل أول اثنين من المواقف بعدة كلمات رسمية مختلفة ، وهي أكثر شيوعًا في الكلام عدة مرات من أي كلمات مهمة. هنا هو قاموس تردد للغة الروسية . يظهر الاسم الأول (السنة) هناك في نهاية العشرة الثالثة. وقبل ذلك ، كل شيء تمامًا - العطف وحروف الجر والضمائر والجسيمات. وهنا القاموس التكراري ل Tatar Wikipedia لعام 2013:
لا. | شكل كلمة | ترجمة / معنى | حدوث |
---|
1 | إلغا | النهر | 132567 |
2 | حمامات السباحة | التجمع | 75706 |
3 | الصوص | الماء | 54689 |
4 | بوينشا | بواسطة | 48838 |
5 | روسيا | روسيا | 48722 |
6 | urnashkan | يقع | 38043 |
7 | كم | كيلومتر | 36962 |
8 | ميكرون | و | 27231 |
9 | كيتشي | صغير | 27203 |
10 | دولت | الدولة | 26888 |
لا يوجد سوى كلمتين رسميتين ، واحدة منها - "و" فقط - غالبًا ما توجد بشكل خاص في النصوص الحقيقية. والباقي بالطبع تم إدراجه في القائمة فقط بسبب تفاصيل العينة الأصلية.
لم يكن هناك سوى مخرج واحد لنا: جمع الكلمات لتحديد طلبات البحث يدويًا لكل لغة. هذا عمل خبير ، تحتاج إلى النظر في القواميس والقواعد ، ثم دفع الكلمات المرشحة في البحث والنظر في النتيجة وتقييم كمية القمامة التي تخرج. بالإضافة إلى ذلك ، يجب أن تستوفي كل كلمة معيارين إلزاميين. أولاً ، يجب أن يكون التردد لغتك. لذلك ، فإن Tatar Һәm "و" مناسب. في الواقع ، هذه الكلمة موجودة في معظم النصوص بلغة التتار ، وسيسمح لنا طلب يحتوي على هذه الكلمة بتلقي معظم المواقع التي تحتوي على نصوص بلغة التتار وبالتالي التقاطها. ثانيًا ، يجب أن تكون هذه الكلمة فريدة ، أي أنها تستخدم فقط في هذه اللغة ، ولكن ليس في أي لغة أخرى. من وجهة النظر هذه ، أم ، للأسف ، "الذباب" ، لأن نفس الكلمة بالضبط في Bashkir.
هناك فارق بسيط آخر. في أبجديات اللغات الوطنية ، هناك العديد من الأحرف "الخاصة" ، أي الحروف غير الموجودة في أبجدية اللغة الروسية ، باستخدام هذه الأحرف (كما يقول اللغويون "grapheme") ، يتم تسجيل الأصوات الخاصة (كما يقول اللغويون ، "phonemes") لهذه اللغات. على سبيل المثال ، تحتوي كلمة Komi-Zyryan tashtöm على مثل هذا الرمز ، بعيدًا عن أكثر الرموز الغريبة التي يمكن أن تكون (يمكن رؤية أمثلة أخرى في قائمة التتار لكلمات "الماء" أعلاه).
والحقيقة هي أنه نظرًا لأن كل هذا الرفاهية الرسومية ليس على لوحة المفاتيح الروسية القياسية ، التي يكتبها الجميع بشكل أساسي ، لذلك لا يدخل المستخدمون الحقيقيون هذه الأحرف بالفعل ، ويستبدلونها بأخرى أخرى متشابهة في التهجئة أو الصوت. يتم ترجمة كلمة tashtöm على أنها tashtem أو tashtom. في Bashkir ، يتم إرسال الحرف "ә" بالحرف "e" أو "a" ، والحرف "ҙ" بالحرف "z". هنا على KDPV فقط يجب كتابة كلمة "menan" في الواقع "menen". باتباع اللغوي A. A. Zaliznyak ، نسمي مثل هذا النظام الإملائي "نظام الكتابة اليومية". حول نفس العمليات (فقط بدون لوحات المفاتيح والبرامج الأخرى) وصف Zaliznyak لهجة Novgorod القديمة المسجلة على حروف لحاء البتولا.
ماذا يعني هذا عمليًا؟ هذا ، من الناحية المثالية ، ليست هناك حاجة فقط إلى الكلمات المميزة الفريدة لهذه اللغة والتردد في هذه اللغة. هناك حاجة أيضًا لمثل هذه الكلمات حتى لا تحتوي على هذه "الأحرف الخاصة". لأنه في الواقع لم يتم كتابة هذه الأحرف من قبل الجميع ، وإذا قمت بإرسال طلب إلى محرك البحث مع الكلمة في الجدول "الصحيح" ، فعندئذٍ سيظهر اكتمال الإجابة على هذا النحو: لن نواجه عددًا كبيرًا من النصوص المكتوبة في النظام المنزلي.
بالإضافة إلى ذلك ، هناك المزيد من الرموز الماكرة ، على سبيل المثال ، "أنا": "عصا ياكوفليف" (في اللغات القوقازية المختلفة تعني إما القوس الحنجري أو ما يسمى الصوت "المسيء"). غالبًا ما يتم استبداله في النظام المنزلي بوحدة ، ولكن يحدث أن يكتبوا أيضًا الرمز "|" ، وهو شريط عمودي ، يُستخدم كعامل بحث "أو" (ابحث عن الصفحات التي تحتوي على أي من الكلمات المرتبطة بعامل التشغيل هذا.).
باختصار ، ليس من السهل. لكننا قمنا بعمل قوائم الكلمات المميزة لمعظم اللغات التي كنا مهتمين بها. وهذا هو الشيء الوحيد الذي لا ننشره علنًا ، لأن مثل هذه الكلمات يمكن أن تكون مفيدة للبحث عن النصوص ، وهذه القائمة من السهل جدًا تخريبها ، على سبيل المثال ، إذا أراد شخص ما استخدامها لإنشاء رسائل بحث غير مرغوب فيها.
بحث
لذا ، لدينا مصطلحات البحث ، نرسلها بدورها إلى Yandex.XML ونحصل على النتائج. هنا أيضا ليس بهذه البساطة. أولاً ، يحد Yandex.XML من شهيتنا إلى 10000 طلب في اليوم. ليس بالقليل؟ نعم ، لكنه يقدم روابط صفحة بصفحة (10 لكل صفحة) ويعتبر الانتقال إلى الصفحة التالية طلبًا منفصلاً ...
بالإضافة إلى ذلك ، ما زلنا نحصل على القمامة عند الإخراج. حتى بالنسبة للعلامات "الجيدة". ماذا لدينا؟ المرايا والمضاعفات. خصوصا الكثير من ويكيبيديا يأخذ. ولماذا يجب أن ننظر في ويكيبيديا إذا كان هدفنا هو جمع جميع النصوص بلغة معينة؟ بعد كل شيء ، يمكن تنزيل ويكيبيديا بنقرة واحدة! ماذا ايضا؟ مقالات علمية لغوية. يكتب بعض اللغويين مقالًا باللغة الروسية ويعطي مثالًا على جملة في بعض الروتوليان ، وهذه الجملة تحتوي على كلمة العلامة الخاصة بنا. هذا ليس جيدًا أيضًا ، لأنه أمامنا بالفعل نص باللغة الروسية. وإلا يمكن أن يكون القاموس. ستكون هناك أيضًا الكلمة التي كنا نبحث عنها ، ولكن لن يكون هناك نص. مفاجأة بالنسبة لنا كانت مواقع الموسيقى. أنها تحتوي على ملفات mp3 من العديد من الأغاني الشعبية أو حقوق النشر بلغة صغيرة. لا توجد نصوص هناك أيضًا ، ولكن هناك عبارات قصيرة مناسبة للطلب - أسماء الأعمال الموسيقية. بالنسبة إلى بعض اللغات ، تكون هذه المواقع كثيرة جدًا لدرجة أنها تسد الناتج بالكامل. قررنا أنه نظرًا لأننا نبحث عن نصوص ، فإن هؤلاء ليسوا عملاءنا أيضًا.
يجب قطع شيء ما. يمكن إدخال الفلتر الأول في مرحلة الاتصال بمحرك البحث. إذا كان لدينا العديد من علامات اللغة ، بعد أن اشتعلت بعض المجال في الأسفل ، يمكننا أن نسأل محرك البحث إذا كانت هناك كلمات أخرى من قائمتنا على نفس الموقع. إذا كان الأمر كذلك ، فمن المحتمل أننا وصلنا إلى نفس الموقع الذي نحتاج إليه. إذا كانت هناك علامة واحدة ، ولكن لم يتم تمثيل الباقي ، فمن المرجح جدًا أن نحمل دمية في أيدينا. هناك ، على سبيل المثال ، الكلمة الخكاسية الرائعة "الجيب" ("مرة أخرى"). يستوفي جميع المعايير لكلمة علامة مدرجة أعلاه. ولكن هنا الشيء. عندما يكتبون باللغة الروسية ، يخطئون أحيانًا ويكتبون "الجيوب الأنفية" بدلاً من "الجيوب الأنفية". سوف يساعد عامل التصفية الخاص بنا على فهم ما إذا كان هناك خطأ مطبعي في النص الروسي ، أو في الواقع نص Khakass. الشيء هو أن هذه طلبات إضافية ، قليلة منها.
ليس كل شيء لا لبس فيه مع قائمة المواقع التي تم العثور على النصوص التي نحتاج إليها. إذا لم نخطط فقط للعثور على هذه المواقع ، ولكن أيضًا لضخها لتعويض الجسم ، فإننا نحتاج إلى معرفة العمق الذي يجب أن يتم عنده الضخ. قمنا بتقسيم جميع المجالات الموجودة إلى ثلاث فئات (كل هذا يمكن العثور عليه أيضًا من خلال طلب استعلامات Yandex الصحيحة).
, ( — ) .
, ( ) .
, . Youtube ( - «» ) stihi.ru ( , , ).
, , VK.com. , , , , ( ), , , -, . , , . .
VK.com . : - , - , vk.com. 2016 , .
. . , . Scrapy , . VK API .
. , . , , . , , , , - . ( — , ngram) . - , , , . , . .
, - . , , , . — ( , ), — . . . - «» . , , , . , , .
, , , .
النتائج
, . . ?
, . , , , . «» . .
- . ? , , - ?
, ( ) .

? — ?

, - , .
?

, , 2012 . لماذا؟ , . , vk.com.
. : , ( , ). ( , , , - , ). ? ?
, - ( 0.7), - . , , , . , , , . , , . , , .
, . ? , , , , .

- "", , , . , : , , , . , , , .
, . , , , , , .
, -, ?

, , : - , , - , , .
الشبكات الاجتماعية
, vk.com. - , - , : , . . .
:

, , , , — . , — . , , . . , .
- ?
, «» :
?

- . , , . , , . , 90- 2000-.
لذلك ، علمنا أن هناك لغات صغيرة لروسيا على الإنترنت. يعيشون على المواقع والشبكات الاجتماعية ، ومنذ عام 2012 ، بشكل رئيسي على الشبكات الاجتماعية. هناك وهناك يضطرون لتحمل المنافسة الشرسة مع اللغة الروسية "المرموقة". لا تعتمد حيوية اللغة على الإنترنت كثيرًا على مدى نطقها لتلك اللغة "في الحياة". الشيء الأكثر أهمية هو ما إذا كان هناك مجتمع شبكة نشط حول هذه اللغة ، يعمل على مواقع الإنترنت المرموقة (Wikipedia ، Vkontakte). إذا حدث ذلك ، فقد حدث "على الأرض" في المنطقة التي يعيش فيها المتحدثون الأصليون لهذه اللغة.
ولكن هل ستبقى اللغات الصغيرة في حالة العولمة ، لا يزال علينا أن نتعلم خلال حياتنا.
كل كود المشروع موجود في المستودع . جميع مجموعات النصوص وقوائم المجالات والمجتمعات متاحة للتنزيل .
لا يسعني إلا أن أوصي المجتمع في vk.com مع الميمات اللطيفة بلغات صغيرة مع القطط .