Langues russes sur Internet


J'ai commencé à écrire ce texte il y a longtemps, donc il n'était pas prévu comme politiquement pertinent. Mais il s'est avéré que c'est en ces jours que les médias sont apparus un guide d'information sur les petites langues (minoritaires) de la Russie. Il est possible que l'étude, que j'écris ci-dessous, clarifie quelque chose à quelqu'un dans ce sens.


Combien de langues y a-t-il en Russie?


Ce n'est pas si facile à réaliser, mais en Russie, ils parlent un nombre impressionnant de langues. De plus, en Russie, ils parlent des langues qui ne sont distribuées nulle part ailleurs. Disons que des millions d'Ukrainiens et d'Ouzbeks vivent en Russie, mais en même temps, il y a des États souverains, l'Ukraine et l'Ouzbékistan, où les langues correspondantes sont officielles. Mais en Russie, ils parlent le bachkir, le tuvan, l'oudmourt et de nombreuses (voire de nombreuses autres) langues qui n'ont leur statut d'État nulle part ailleurs.


Le statut d'État est important. À l'ère de la mondialisation, pour survivre, les langues ont besoin d'un soutien qui affecte positivement la presse écrite, les médias, l'art et, finalement, le désir et la capacité des gens de parler leur langue maternelle.


Et comment ces langues se sont-elles adaptées aux nouvelles réalités numériques? Est-il vrai qu'ils ne sont parlés que dans les villages de montagne reculés? Ou sont-ils toujours un moyen complet de communiquer en ligne? Il y a quelques années, mes collègues et moi avons décidé de le découvrir.


Au début, il s'agissait d'une étude dans le cadre du Centre pour l'étude d'Internet et de la société NES, aujourd'hui disparu (aujourd'hui, il a été transformé avec succès en Club of Internet and Society Lovers ), puis nous avons organisé un projet de recherche dans la magistrature de l' École de linguistique de la Higher School of Economics et, en général, nous avons réussi. Tous les résultats sont présentés sur un site Web spécial, Langues de Russie , mais je vais vous parler des plus intéressants, de ce que nous avons fait et comment (ainsi que de ce qui s'est passé).


Tout d'abord, il a fallu établir combien de langues il y a en général en Russie et quelles langues elles sont. Les linguistes n’avaient pas de liste généralement acceptée: certaines langues ne savent pas si au moins un autre locuteur est vivant, il n’y a pas d’accord sur certaines langues, est-ce vraiment une langue ou est-ce en fait un dialecte d’une autre langue. Et il n'y a pas de critères clairs pour distinguer l'un de l'autre. Il y a une blague: «la langue est un dialecte avec l'armée et la marine», mais avec tout l'esprit de cette déclaration de Weinreich, il y a suffisamment de contre-exemples: le Brésil a une armée et une marine, mais n'a pas sa propre langue (les Brésiliens utilisent le portugais, la langue de leur ancienne métropole), d'ailleurs, Les Américains, propriétaires de l'armée la plus puissante du monde, n'utilisent qu'un dialecte et non leur propre langue. L'Islande n'a pas d'armée ni de flotte (seulement des navires de la garde côtière), mais personne n'empiète sur la particularité de leur langue (bien que personne ne dise qu'il est un parent du norvégien moderne).


En un mot, la tâche n'a pas été facile. Les langues du Daghestan étaient particulièrement difficiles. Il y a tellement de langues (de vraies langues, pas des dialectes! Leurs transporteurs ne se comprennent pas) que vous ne pourrez le comprendre qu'après avoir consulté des spécialistes.


Nous avons également décidé de déplacer les langues des titres d'autres États en dehors de notre liste. En effet, si tout un pays en dehors de la Russie parle une langue, il est fort probable que la ressource d'État soit également utilisée pour soutenir la langue. Il est possible de considérer une langue comme la langue de la Russie, mais il serait incorrect d'évaluer sa présence sur Internet par rapport à d'autres langues qui ne sont pas alimentées par l'étranger: l'ingouche et le kazakh seront dans des catégories de poids complètement différentes. Ainsi, l'Ossétie s'est avérée par-dessus bord notre étude: malgré le fait que la Russie a toute une région titulaire où l'ossétie est parlée, il y a aussi un pays distinct reconnu par la Russie, l'Ossétie du Sud, pour lequel cette langue est officielle. À proprement parler, en Ossétie du Sud et du Nord, ils parlent différents dialectes, le fer et le digor. Mais automatiquement, par ordinateur, il est très difficile de les distinguer. Il vaut donc mieux les considérer comme une langue qui n'appartient pas à la classe des langues de la Russie.


Un autre incident est lié au yiddish. En Russie, nominalement, il existe également une région dans laquelle les locuteurs du yiddish devraient vivre - la région autonome juive. En même temps, nos experts nous ont expliqué qu'il n'y avait presque pas de locuteurs du yiddish dans l'EAO et que tous les textes sur Internet dans cette langue étaient écrits presque exclusivement en Israël et aux États-Unis. Il est donc stupide d'analyser la représentation du yiddish sur Internet comme langue de la Russie. Cela s'ajoute au fait que nous aurions à faire face à un mal de tête associé à une variété d'options d'orthographe. Voici quelques liens pertinents à ce sujet: [ 1 ], [ 2 ], [ 3 ].
Nous avons donc décidé des langues. Il y en avait 96.


Liste complète des langues

Abaza
Avar
agul
Adyghe
Aléoutiennes
alutor
amuzgi-shirinsky
andine
archinsky
ahwahian
Bagvalinsky
Bashkir
bezhtinsky
botlikh
Bouriate
Vepsian
Verkhneurkunsky
Vodsky
gapshiminsky
Ginuhsky
godoberinsky
mari de montagne
Gunzib
Izhora
Ingouche
Itelmen
Kabardino-Circassien
Kadar (peut-être le dialecte Darginsky)
kaitag
Kalmyk
karatinsky
Karachay-Balkar
Carélien
Ket
Kola Sami
Komi-Zyryansky
Komi-Permyak
Koryak
Kubachi-Ashtinsky
kumyk
laksky
Lezgi
Nenets forestiers
pré est mari
Mansi
megeb
moksha-mordovian
muirinsky
Nanai
Nganasan
Negidalsky
nivkhsky
Nogai
Orok
rutulsky
sanji itarin
Nord de l'Altaï
Yukagir Nord (toundra, vadul)
Severodarginsky (y compris Darginsky littéraire)
Selkup
Soyot-Tsatansky
Tabasaran
tanty-sirkhinsky (peut-être la même langue que Verkhneurkunsky)
Tatar
tat (en voie de disparition)
tindin
tofalar
tubalaire
Tuvinien
nenets de la toundra
Udine
Udmurt
Udege
Ulchi
usisha-tsudahar
Khakass
Khanty
Khvarshinsky
Tsakhur
cesian
gitan
chamalinsky
Tchétchène
chiraghi
Tchouvache
Tchouktches
Chulymesky
Shor
Evenki
Même
enetsky
Erzya Mordovian
esquimau
Altaï Sud
Yukagir Sud (Kolyma, Odul)
Yakut


Comment les rechercher maintenant sur le web? Vous pouvez dégonfler tout Internet et essayer de trouver les textes nécessaires dans la collection résultante ... Mais attendez, vous ne pouvez vraiment pas dégonfler tout Internet. Autrement dit, cela est possible si vous êtes une grande entreprise informatique avec une flotte de serveurs appropriée et une équipe de développement. Et si vous avez une petite équipe universitaire à votre disposition, alors il n'y a rien à penser. En revanche, vous n'avez pas besoin de télécharger quoi que ce soit à ce stade, car les moteurs de recherche ont déjà contourné l'ensemble du réseau. Il suffit de demander aux moteurs de recherche les bonnes requêtes. Certes, les moteurs de recherche n'aiment pas les hits automatiques. Mais si vous demandez vraiment, vous pouvez utiliser, par exemple, Yandex.XML, qui a une limite sur le nombre de demandes, mais ce n'est pas la même chose que de travailler avec les résultats de la recherche avec vos mains.


Mots marqueurs


Mais que demander? Les mots sont nécessaires - c'est clair. Les index de recherche sont constitués de mots, vous devez donc sélectionner des mots pour chaque langue que vous recherchez qui se trouveraient dans cette langue particulière et ne correspondraient pas à la composition des lettres avec un mot dans une autre langue. Dans un sens, la recherche des langues russes devrait être plus simple, car presque toutes les langues de notre liste ont des scripts cyrilliques, et c'est un cas relativement rare pour les langues du monde, donc la probabilité de deux mots coïncidant de langues différentes est fortement réduite: il sera possible de confondre seuls les mots des langues de l'espace post-soviétique et les mots de certaines langues d'Océanie ne feront pas de bruit.


Mais où trouver les mots? Si nous nous tournons à nouveau vers les linguistes, ils vous diront qu'il existe une publication ancienne et bien méritée - Gilyarevsky R. S., Grivnin V. S.Le déterminant des langues du monde par la langue écrite (M., 1961 pour la deuxième édition). Chacune des langues décrites (environ 200) a une page, où un modèle contient le nom de la langue, deux courts textes dessus, l'alphabet, ses principales caractéristiques et des informations sur le nombre de porteurs et l'affiliation génétique.


Il semble que le livre pour nos besoins soit complètement inutile, mais à la page 259 il y a une section supplémentaire, «Combinaisons typiques et mots de service de certaines langues». Il semble que c'est ce dont vous avez besoin, mais malheureusement, les mots qui y sont cités sont très courts et dans la composition des lettres coïncident avec les mots de la langue russe. Par exemple, pour Balkar, c'est le mot "bla", qui lors de la recherche produira une quantité monstrueuse de déchets qui ne correspond pas du tout à la langue balkarienne (non seulement bla bla, mais aussi " véhicule aérien sans pilote "), et pour la montagne Mari - "don" ( la recherche sera encore pire). Eh bien, tout de même, les mots de cette section sont plutôt rares. Et par combinaison de lettres dans Yandex, vous ne regarderez pas.


Les linguistes proposeraient donc de le faire. Les informaticiens auraient une solution différente. Pourquoi ne pas prendre Wikipédia (après tout, il y a Wikipédia dans les langues des peuples de Russie), ne pas en faire un livre de fréquences, croiser des dictionnaires, trouver des jetons uniques de cette manière et les utiliser pour des requêtes de recherche? Malheureusement, cela ne fonctionnera pas non plus. Premièrement, Wikipedia n'est pas pour toutes les langues de la Russie. Il n'y a que 22 «vraies» sections Wikipédia, pas de l'incubateur. L'incubateur en ajoute 41 de plus. Voici un incubateur avec Tabasaran Wikipedia (5 articles). Voici un incubateur Nogai (23 articles). De plus, dans certains il n'y a pas de texte du tout, mais l' article sur les Bachkirs . Et ainsi de suite.


Mais Wikipédia réel (sans incubation) ne peut pas être une bonne source. Parce qu'ils ... ne sont pas écrits par des gens! Le plus grand Wikipédia dans les langues des peuples de Russie souffre de ce que les Wikipédiens appellent «l' arachnophilie ». c'est-à-dire le remplissage automatique de la section avec des articles générés par le modèle dans lequel certaines données numériques d'une base de données ou d'un registre ouvert sont insérées. Disons, les Wikipédia bashkir et tatar pour un très faible pourcentage d '«humains», il y a des dizaines de milliers d'articles automatiques sur les rivières et les lacs. Essayez de cliquer sur le lien « article aléatoire » sur la Wikipedia bashkir, combien de fois sur 10 vous obtenez un «article non-eau» (vous pouvez rechercher «rivière» par le mot-clé «yylkha»)? Maintenant, la situation s'est quelque peu améliorée, il y a encore des articles sur les pays et les colonies, mais il y a cinq ans, il y avait des sujets «eau» dans 8 cas sur 10. J'ai cliqué maintenant, il s'est avéré 7: 3 en faveur des fleuves. Et vous?


Tout irait bien, mais les mots fréquents dans ces textes ne sont pas du tout des mots fréquents dans la langue. À quoi ressemble un dictionnaire de fréquence «normal» basé sur des textes d'origine naturelle? Les deux premières dizaines de postes sont occupés par des mots officiels différents, qui sont beaucoup plus courants dans le discours que tout autre significatif. Voici un dictionnaire de fréquences pour la langue russe . Le premier nom (année) y apparaît à la fin du troisième dixième. Et avant cela, tout est complètement - conjonctions, prépositions, pronoms et particules. Et voici le dictionnaire de fréquence du Wikipedia tatar pour 2013:


Non.Formulaire WordTraduction / SignificationOccurrence
1elgala rivière132567
2piscinesla piscine75706
3sousde l'eau54689
4buenchapar48838
5La russieLa russie48722
6urnashkansitué38043
7Kmkilomètre36962
8Һәmet27231
9kechepetit27203
10dәүlәtl'état26888

Il n'y a que deux mots officiels, dont un seul - Һәm «et» - est vraiment particulièrement souvent trouvé dans les textes réels. Le reste, bien sûr, n'a été inclus dans la liste qu'en raison des spécificités de l'échantillon d'origine.


Il n'y avait qu'une seule issue pour nous: collecter des mots pour définir manuellement les requêtes de recherche pour chaque langue. C'est un travail d'expert, vous devez regarder dans les dictionnaires et les grammaires, puis conduire les mots candidats dans la recherche et regarder le résultat et évaluer la quantité de déchets qui sortent. De plus, chaque mot doit répondre à deux critères obligatoires. Premièrement, cela devrait être la fréquence de votre langue. Par conséquent, le tatar Һәm «et» conviendrait. En effet, ce mot se trouve dans la plupart des textes en langue tatare, et une requête qui contiendrait ce mot nous permettrait de recevoir et donc d'attraper la plupart des sites qui ont des textes en langue tatare. Deuxièmement, un tel mot doit être unique, c'est-à-dire utilisé uniquement dans cette langue, mais pas dans aucune autre. De ce point de vue, Um , hélas, «vole», car exactement le même mot est en bachkir.
Il y a encore une nuance. Dans les alphabets des langues nationales, il existe de nombreux caractères "spéciaux", c'est-à-dire des lettres qui ne sont pas dans l'alphabet russe, en utilisant ces caractères (comme disent les linguistes, "graphème"), des sons spéciaux (comme disent les linguistes, "phonèmes") de ces langues sont enregistrés. Par exemple, le mot Komi-Zyryan tashtöm contient un tel symbole, loin du plus exotique de ceux qui peuvent l'être (d'autres exemples peuvent être vus dans la liste tatare des mots «eau» ci-dessus).


Le fait est que, puisque tout ce luxe graphique n'est pas sur le clavier russe standard, sur lequel tout le monde tape, les vrais utilisateurs n'entrent pas réellement ces lettres, les remplaçant par d'autres qui sont similaires en orthographe ou en son. Le mot tashtöm est traduit par tashtem ou tashtom. À Bashkir, la lettre "ә" est transmise comme "e" ou "a", et la lettre "ҙ" comme "z". Ici, sur KDPV, le mot "menan" doit être écrit "menen". Suivant le linguiste A. A. Zaliznyak, nous appelons un tel régime d'orthographe «système d'écriture de tous les jours». À propos des mêmes processus (uniquement sans claviers et autres logiciels) Zaliznyak décrit pour le dialecte Old Novgorod enregistré sur des lettres d'écorce de bouleau.


Qu'est-ce que cela signifie dans la pratique? Que, idéalement, il ne faut pas seulement des mots marqueurs qui sont uniques à cette langue et à la fréquence dans cette langue. De tels mots sont également nécessaires pour qu'ils ne contiennent pas ces «caractères spéciaux». Parce qu'en réalité, ces caractères ne sont pas écrits par tous, et si vous envoyez une demande au moteur de recherche avec le mot dans le calendrier «correct», l'intégralité de la réponse se révélera telle quelle: nous ne rencontrerons pas un grand nombre de textes qui sont écrits dans le système domestique.


En outre, il existe des symboles plus rusés, par exemple, «I»: «baguette de Yakovlev» (dans différentes langues du Caucase, cela signifie soit un arc laryngé, soit le son dit «abusif»). Souvent, dans un système domestique, il est remplacé par une unité, mais il arrive qu'ils écrivent également le symbole "|", une barre verticale, qui est utilisée comme opérateur de recherche "ou" (recherche de pages contenant l'un des mots associés à cet opérateur.).


Bref, ce n'est pas facile. Mais nous avons fait de telles listes de mots marqueurs pour la plupart des langues qui nous intéressaient. Et c'est la seule chose que nous ne publions pas publiquement, car de tels mots peuvent toujours être utiles pour rechercher des textes, et cette liste est très facile à vandaliser, par exemple, si quelqu'un veut les utiliser pour générer du spam de recherche.


Chercher


Donc, nous avons des termes de recherche, nous les envoyons tour à tour à Yandex.XML et nous obtenons les résultats. Ici aussi, ce n'est pas si simple. Tout d'abord, Yandex.XML limite notre appétit à 10 000 demandes par jour. Pas si peu? Oui, mais il distribue les liens page par page (10 par page) et le passage à la page suivante est considéré comme une demande distincte ...


De plus, nous obtenons toujours des ordures à la sortie. Même pour les «bons» marqueurs. Qu'avons-nous? Miroirs et doubles. Surtout, beaucoup de Wikipedia prend. Et pourquoi devrions-nous considérer Wikipédia si notre objectif est de collecter tous les textes dans une certaine langue? Après tout, Wikipedia peut être téléchargé en un clic! Quoi d'autre? Articles scientifiques linguistiques. Un linguiste écrit un article en russe et donne un exemple de phrase en rutulien, et cette phrase contient notre mot marqueur. Ce n'est pas bon non plus, car devant nous se trouve en fait un texte en russe. Ou bien ce pourrait être un dictionnaire. Il y aura aussi le mot que nous cherchions, mais il n'y aura pas de texte. Une surprise pour nous a été les sites de musique. Ils contiennent des mp3 de nombreuses chansons folk ou copyright dans une petite langue. Il n'y a pas de texte non plus, mais il y a des phrases courtes adaptées à la demande - les noms des œuvres musicales. Pour certaines langues, ces sites sont si nombreux qu'ils obstruent la totalité de la sortie. Nous avons décidé que puisque nous recherchons des textes, ce ne sont pas nos clients non plus.


Il faut couper quelque chose. Le premier filtre peut être saisi au stade de la prise de contact avec le moteur de recherche. Si nous avons plusieurs marqueurs pour la langue, après avoir attrapé un domaine en bas, nous pouvons demander au moteur de recherche s'il y a d'autres mots de notre liste sur le même site. Si c'est le cas, il est probable que nous soyons arrivés sur le site dont nous avons besoin. Si un marqueur est là, mais que les autres ne sont pas représentés, alors nous sommes très susceptibles de tenir un mannequin entre nos mains. Il y a, par exemple, le merveilleux mot Khakass "sinus" ("encore"). Il répond à tous les critères d'un mot marqueur énumérés ci-dessus. Mais voici le truc. Quand ils écrivent en russe, ils font parfois des erreurs et tapent «sinus» au lieu de «sinus» (nez). Notre filtre vous aidera à comprendre si une faute de frappe se trouve dans le texte russe, ou bien dans le texte Khakass. Le fait est que ce sont des demandes supplémentaires, dont il y a si peu.


Tout n'est pas sans ambiguïté avec la liste des sites sur lesquels les textes dont nous avons besoin ont été trouvés. Si nous prévoyons non seulement de trouver ces sites, mais aussi de les pomper pour constituer le corpus, nous devons alors connaître la profondeur à laquelle le pompage doit alors être effectué. Nous avons divisé tous les domaines trouvés en trois catégories (tout cela peut également être découvert en demandant les bonnes requêtes Yandex).
, ( — ) .


, ( ) .


, . Youtube ( - «» ) stihi.ru ( , , ).


, , VK.com. , , , , ( ), , , -, . , , . .



VK.com . : - , - , vk.com. 2016 , .


. . , . Scrapy , . VK API .


. , . , , . , , , , - . ( — , ngram) . - , , , . , . .


, - . , , , . — ( , ), — . . . - «» . , , , . , , .
, , , .


Résultats


, . . ?


, . , , , . «» . .
- . ? , , - ?



, ( ) .



? — ?



, - , .


?



, , 2012 . Pourquoi? , . , vk.com.


. : , ( , ). ( , , , - , ). ? ?


, - ( 0.7), - . , , , . , , , . , , . , , .


, . ? , , , , .



- "", , , . , : , , , . , , , .


, . , , , , , .


, -, ?



, , : - , , - , , .


Réseaux sociaux


, vk.com. - , - , : , . . .


:


Géographie


, , , , — . , — . , , . . , .


- ?


  • : 19-31;
  • : ;
  • , «» -;
  • , .

, «» :


  • ;
  • .

?



- . , , . , , . , 90- 2000-.


Ainsi, nous avons appris qu'il existe de petites langues de la Russie sur Internet. Ils vivent sur des sites et sur les réseaux sociaux, et depuis 2012, principalement sur les réseaux sociaux. Là et là, ils sont obligés de résister à une concurrence féroce avec la «prestigieuse» langue russe. La vitalité d'une langue sur Internet ne dépend pas beaucoup de la façon dont elle parle cette langue «dans la vie». La chose la plus importante est de savoir s'il a développé une communauté de réseau active autour de cette langue, opérant sur des sites Internet prestigieux (Wikipedia, Vkontakte). Si cela s'est produit, cela s'est produit "sur le terrain" dans la région où vivent les locuteurs natifs de cette langue.


Mais les petites langues survivront-elles dans une situation de mondialisation, nous devons encore apprendre au cours de notre vie.


Tout le code du projet se trouve dans le référentiel . Toutes les collections de textes et les listes de domaines et de communautés sont disponibles en téléchargement .


Et je ne peux que recommander la communauté sur vk.com avec des mèmes mignons dans de petites langues avec des chats .

Source: https://habr.com/ru/post/fr408411/


All Articles