Línguas russas na Internet


Comecei a escrever este texto há muito tempo, por isso não foi planejado como politicamente relevante. Porém, foi nesses dias que a mídia apareceu um guia informativo relacionado às pequenas línguas (minoritárias) da Rússia. É possível que o estudo, sobre o qual escrevo abaixo, esclareça algo para alguém nesse sentido.


Quantas línguas existem na Rússia?


Isso não é tão fácil de entender, mas na Rússia eles falam um número impressionante de idiomas. Além disso, na Rússia, eles falam idiomas que não são distribuídos em nenhum outro lugar. Digamos, milhões de ucranianos e uzbeques vivem na Rússia, mas ao mesmo tempo existem estados soberanos na Ucrânia e no Uzbequistão, onde os idiomas correspondentes são oficiais. Mas na Rússia falam bashkir, tuvan, udmurt e muitas (de fato muitas) outras línguas que não têm o status de estado em nenhum outro lugar.


O status do estado é importante. Na era da globalização, para sobreviver, os idiomas precisam de suporte que afete positivamente a mídia impressa, a mídia, a arte e, finalmente, o desejo e a capacidade das pessoas de falar sua língua nativa.


E como essas linguagens se adaptaram às novas realidades digitais? É verdade que eles são falados apenas em aldeias remotas das montanhas? Ou eles ainda são uma maneira completa de se comunicar online? Alguns anos atrás, meus colegas e eu decidimos descobrir.


Inicialmente, este era um estudo no âmbito do agora extinto Centro para o Estudo da Internet e da Sociedade NES (agora foi transformado com sucesso no Clube dos Amantes da Internet e da Sociedade ), depois organizamos um projeto de pesquisa na escola de pós- graduação da Escola de Linguística da Escola Superior de Economia e, em geral, obtivemos sucesso. Todos os resultados são apresentados em um site especial, Languages ​​of Russia , mas vou falar sobre o mais interessante, sobre o que fizemos e como (e o que aconteceu).


Antes de tudo, era necessário estabelecer quantas línguas em geral existem na Rússia e quais são elas. Os lingüistas não tinham uma lista geralmente aceita: não se sabe sobre alguns idiomas se pelo menos um outro falante está vivo, sobre alguns não há acordo se esse é realmente um idioma ou, na verdade, é um dialeto de outro idioma. E não há critérios claros para distinguir um do outro. Há uma piada: “a língua é um dialeto do exército e da marinha”, mas com toda a inteligência dessa declaração de Weinreich, há contra-exemplos suficientes: o Brasil tem exército e marinha, mas não possui linguagem própria (os brasileiros usam o português, o idioma de sua antiga metrópole), além disso, Os americanos, donos do exército mais poderoso do mundo, usam apenas um dialeto e não sua própria língua. A Islândia não possui um exército ou uma frota (apenas navios da guarda costeira), mas ninguém invade a peculiaridade de sua língua (embora ninguém argumente que ele é parente do norueguês moderno).


Em uma palavra, a tarefa não foi fácil. De particular dificuldade foram as línguas do Daguestão. Existem tantas línguas (línguas reais, não dialetos! Suas operadoras não se entendem) que você só pode descobrir depois de consultar especialistas.


Também decidimos mover os idiomas dos títulos de outros estados para fora da nossa lista. De fato, se um país inteiro fora da Rússia fala algum idioma, provavelmente o recurso estatal também é usado para apoiar o idioma. É possível considerar um idioma como o da Rússia, mas seria incorreto avaliar sua presença na Internet em comparação com outros idiomas que não são abastecidos no exterior: Ingush e Cazaque estarão em categorias de peso completamente diferentes. Portanto, a Ossétia acabou por exagerar no nosso estudo: apesar de na Rússia existir toda uma região titular em que a Ossétia é falada, também há um país separado reconhecido pela Rússia, a Ossétia do Sul, cujo idioma é oficial. A rigor, na Ossétia do Sul e do Norte, eles falam diferentes dialetos, Ferro e Digor. Mas automaticamente, computador, distinguir entre eles é muito difícil. Portanto, é melhor considerá-los como um idioma que não pertence à classe de idiomas da Rússia.


Outro incidente está relacionado ao iídiche. Na Rússia, nominalmente, também há uma região na qual os falantes de ídiche devem viver - a Região Autônoma Judaica. Ao mesmo tempo, nossos especialistas nos explicaram que quase não havia falantes de ídiche no EAO, e todos os textos na Internet nesse idioma foram escritos quase exclusivamente em Israel e nos Estados Unidos. Portanto, analisar a representação do ídiche na Internet como língua da Rússia é estúpido. Isso se soma ao fato de que enfrentaríamos uma dor de cabeça associada a uma variedade de opções de ortografia. Aqui estão alguns links relevantes sobre isso: [ 1 ], [ 2 ], [ 3 ].
Então, decidimos sobre os idiomas. Havia 96 deles.


Lista completa de idiomas

Abaza
Avar
agul
Adyghe
Aleutian
alutor
amuzgi-shirinsky
andino
archinsky
ahwahian
Bagvalinsky
Bashkir
bezhtinsky
botlikh
Buryat
Vepsian
Verkhneurkunsky
Vodsky
gapshiminsky
ginuhsky
godoberinsky
mari da montanha
Gunzib
Izhora
Ingush
Itelmen
Kabardino-Circassian
Kadar (possivelmente o dialeto de Darginsky)
kaitag
Kalmyk
karatinsky
Karachay-Balkar
Karelian
Ket
Kola Sami
Komi-Zyryansky
Komi-Permyak
Koryak
Kubachi-Ashtinsky
kumyk
laksky
Lezgi
Forest Nenets
mari do leste do prado
Mansi
megeb
moksha-mordovian
muirinsky
Nanai
Nganasan
negidalsky
nivkhsky
Nogai
Orok
rutulsky
sanji itarin
North Altai
North Yukagir (tundra, vadul)
Severodarginsky (incl. Darginsky literário)
Selkup
Soyot-Tsatansky
Tabasaran
tanty-sirkhinsky (possivelmente o mesmo idioma que Verkhneurkunsky)
Tártaro
tat (em perigo)
tindin
tofalar
tubalar
Tuviniano
tundra nenets
Udine
Udmurt
Udege
Ulchi
usisha-tsudahar
Khakass
Khanty
Khvarshinsky
Tsakhur
cesiano
cigano
chamalinsky
Checheno
chiraghi
Chuvash
Chukchi
Chulymsky
Shor
Evenki
Mesmo
enetsky
Erzya Mordovian
esquimó
Altai do Sul
Yukagir do Sul (Kolyma, Odul)
Yakut


Como agora procurá-los na web? Você pode esvaziar toda a Internet e tentar encontrar os textos necessários na coleção resultante ... Mas espere, você realmente não pode esvaziar toda a Internet. Ou seja, é possível se você é uma grande empresa de TI com uma frota de servidores apropriada e uma equipe de desenvolvimento. E se você tem uma pequena equipe universitária à sua disposição, não há nada para pensar. Por outro lado, você não precisa baixar nada neste estágio, porque os mecanismos de pesquisa já ultrapassaram toda a rede. Só é necessário perguntar aos mecanismos de pesquisa as consultas corretas. É verdade que os mecanismos de pesquisa não gostam de hits automáticos. Mas se você realmente perguntar, poderá usar, por exemplo, o Yandex.XML, que tem um limite no número de solicitações, mas ainda assim não é o mesmo que trabalhar com os resultados da pesquisa com as mãos.


Palavras marcadoras


Mas o que perguntar? São necessárias palavras - isso é claro. Os índices de pesquisa são formados a partir de palavras; portanto, é necessário selecionar as palavras para cada idioma que você procura, que seriam encontradas nesse idioma específico e não corresponderiam à composição das letras com nenhuma palavra em outro idioma. Em certo sentido, a busca por idiomas russos deve ser mais simples, porque quase todos os idiomas da nossa lista têm scripts cirílicos, e esse é um caso relativamente raro para idiomas do mundo; portanto, a probabilidade de duas palavras coincidirem em idiomas diferentes é bastante reduzida: será possível confundir apenas palavras de idiomas do espaço pós-soviético e palavras de alguns idiomas da Oceania não criarão ruído.


Mas onde conseguir as palavras? Se nos voltarmos novamente aos linguistas, eles dirão que há uma publicação antiga e bem merecida - Gilyarevsky R. S., Grivnin V. S. O determinante das línguas do mundo pela linguagem escrita (M., 1961 para a segunda edição). Cada um dos idiomas descritos (cerca de 200) possui uma página, onde um modelo contém o nome do idioma, dois textos curtos, o alfabeto, suas principais características e informações sobre o número de portadores e afiliação genética.


Parece que o livro para nossos propósitos é completamente inútil, mas na página 259 há uma seção adicional, “Combinações típicas e palavras de serviço de alguns idiomas”. Parece que é disso que você precisa, mas, infelizmente, as palavras que são citadas são muito curtas e na composição das letras coincidem com as do idioma russo. Por exemplo, para Balkar, é a palavra "blá", que, ao pesquisar, gera uma quantidade monstruosa de lixo que não corresponde à linguagem Balkar (não apenas blá-blá, mas também " veículo aéreo não tripulado ") e para a montanha Mari - "don" ( a pesquisa será ainda pior). Bem, mesmo assim, as palavras nesta seção são uma raridade. E pela combinação de letras no Yandex você não procurará.


Então, os linguistas se propunham a fazê-lo. Os cientistas da computação teriam uma solução diferente. Por que não usar a Wikipedia (afinal, existe a Wikipedia nos idiomas dos povos da Rússia), criar um livro de frequências, cruzar dicionários, encontrar tokens exclusivos dessa maneira e usá-los para consultas de pesquisa? Infelizmente, isso também não funcionará. Em primeiro lugar, a Wikipedia não é para todos os idiomas da Rússia. Existem apenas 22 seções "reais" da Wikipedia, não de uma incubadora. A incubadora adiciona mais 41. Mas geralmente é um máximo de várias dezenas de textos muito curtos, ou seja, eles não produzirão resultados estatisticamente significativos. Aqui está uma incubadora com a Wikipedia Tabasaran (5 artigos). Aqui está uma incubadora Nogai (23 artigos). Além disso, em alguns não há texto, mas o artigo sobre os Bashkirs . E assim por diante


Mas a Wikipedia real (sem incubação) não pode servir como uma boa fonte. Porque eles ... não são escritos por pessoas! A maior Wikipedia das línguas dos povos da Rússia sofre com o que os wikipedistas chamam de " aracnofilia ". isto é, preenchimento automático da seção com artigos gerados pelo modelo no qual alguns dados numéricos de um banco de dados ou registro aberto são inseridos. Por exemplo, na Wikipedia bashkir e tártaro, para uma porcentagem muito pequena de "humanos", existem dezenas de milhares de artigos automáticos sobre rios e lagos. Tente clicar no link " artigo aleatório " na Wikipedia Bashkir, quantas vezes em 10 você acessa um "artigo que não seja sobre a água" (você pode procurar "rio" pela palavra-chave "yylkha")? Agora a situação melhorou um pouco, ainda há artigos sobre países e assentamentos, mas cinco anos atrás havia tópicos de “água” em 8 dos 10 casos. Cliquei agora, resultando em 7: 3 a favor dos rios. E você?


Tudo ficaria bem, mas as palavras de frequência em tais textos não são palavras de frequência no idioma. Como é um dicionário de frequência "normal" com base em textos de origem natural? As primeiras dezenas de posições são ocupadas por diferentes palavras oficiais, que são muitas vezes mais comuns no discurso do que quaisquer outras significativas. Aqui está um dicionário de frequência para o idioma russo . O primeiro substantivo (ano) aparece lá no final do terceiro dez. E antes disso, tudo é completamente - conjunções, preposições, pronomes e partículas. E aqui está o dicionário de frequências da Wikipedia tártaro para 2013:


Não.Forma da palavraTradução / SignificadoOcorrência
1elgao rio132567
2piscinasa piscina75706
3sousagua54689
4buenchapor48838
5RússiaRússia48722
6urnashkanlocalizado38043
7Kmquilômetro36962
8Һәme27231
9kechepequeno27203
10dәүlәto estado26888

Existem apenas duas palavras oficiais, das quais apenas uma - “ m “e” - é realmente encontrada especialmente em textos reais. O restante, é claro, foi incluído na lista apenas por causa das especificidades da amostra original.


Só havia uma saída: coletar palavras para definir manualmente as consultas de pesquisa para cada idioma. Este é um trabalho especializado, você precisa procurar em dicionários e gramáticas, depois direcionar as palavras candidatas para a pesquisa, analisar o resultado e avaliar a quantidade de lixo que sai. Além disso, cada palavra deve atender a dois critérios obrigatórios. Em primeiro lugar, deve ser a frequência do seu idioma. Portanto, o tártaro andm “e” caberia. De fato, essa palavra está na maioria dos textos no idioma tártaro, e uma solicitação que contenha essa palavra nos permitirá receber e, assim, capturar a maioria dos sites que possuem textos no idioma tártaro. Em segundo lugar, essa palavra deve ser única, ou seja, ser usada apenas nesse idioma, mas não em nenhum outro. Deste ponto de vista, Hum , infelizmente, "voa", porque exatamente a mesma palavra está em bashkir.
Há mais uma nuance. Nos alfabetos das línguas nacionais, existem muitos caracteres "especiais", ou seja, letras que não estão no alfabeto russo, usando esses caracteres (como dizem os linguistas, "grafema"), sons especiais (como dizem os linguistas, "fonemas") dessas línguas. Por exemplo, a palavra komi-zyryan tashtöm contém esse símbolo, longe do mais exótico dentre os que podem ser (outros exemplos podem ser vistos na lista tártara de palavras "água" acima).


O fato é que, como todo esse luxo gráfico não está no teclado russo padrão, no qual todo mundo basicamente digita, os usuários reais não inserem essas letras, substituindo-as por outras que são semelhantes em ortografia ou som. A palavra tashtöm é traduzida como tashtem ou tashtom. Em bashkir, a letra "ә" é transmitida como "e" ou "a" e a letra "ҙ" como "z". Aqui no KDPV, apenas a palavra "menan" deve ser escrita "menen". Seguindo o linguista A. A. Zaliznyak, chamamos esse regime de ortografia de "sistema de escrita cotidiano". Sobre os mesmos processos (apenas sem teclados e outros softwares) que Zaliznyak descreveu para o dialeto Old Novgorod gravado em letras de casca de bétula.


O que isso significa na prática? Idealmente, não são necessárias apenas palavras marcadoras exclusivas desse idioma e frequência nesse idioma. Essas palavras também são necessárias para que não contenham esses "caracteres especiais". Como, na realidade, esses caracteres não são escritos por todos e, se você enviar uma solicitação ao mecanismo de pesquisa com a palavra na programação "correta", a conclusão da resposta será a seguinte: não encontraremos um grande número de textos escritos no sistema doméstico.


Além disso, existem mais símbolos astutos, por exemplo, "I": "varinha de Yakovlev" (em diferentes idiomas caucasianos, significa um arco laríngeo ou o chamado som "abusivo"). Muitas vezes, em um sistema doméstico, ele é substituído por uma unidade, mas acontece que eles também escrevem o símbolo “|”, uma barra vertical, usada como operador de pesquisa “ou” (pesquise páginas que contenham qualquer uma das palavras associadas a esse operador).


Em suma, não é fácil. Mas fizemos essas listas de palavras marcadoras para a maioria dos idiomas nos interessamos. E essa é a única coisa que não publicamos publicamente, porque essas palavras ainda podem ser úteis para pesquisar textos, e é muito fácil vandalizar essa lista, por exemplo, se alguém quiser usá-las para gerar spam de pesquisa.


Pesquisar


Portanto, temos termos de pesquisa, enviamos-os para o Yandex.XML e obtemos os resultados. Aqui também não é tão simples. Em primeiro lugar, o Yandex.XML limita nosso apetite a 10.000 solicitações por dia. Não é tão pouco? Sim, mas ele fornece links página por página (10 por página) e a transição para a próxima página é considerada uma solicitação separada ...


Além disso, ainda temos lixo na saída. Mesmo para marcadores "bons". O que nós temos? Espelhos e duplos. Especialmente muita Wikipedia leva. E por que devemos considerar a Wikipedia se nosso objetivo é coletar todos os textos em um determinado idioma? Afinal, a Wikipedia pode ser baixada com um clique! O que mais? Artigos científicos linguísticos. Algum linguista escreve um artigo em russo e dá um exemplo de uma frase em algum rutuliano, e essa frase contém nossa palavra marcador. Isso também não é bom, porque diante de nós é realmente um texto em russo. Ou então poderia ser um dicionário. Também haverá a palavra que estávamos procurando, mas não haverá texto. Uma surpresa para nós foram os sites de música. Eles contêm mp3s de várias músicas folclóricas ou de direitos autorais em um idioma pequeno. Também não há textos, mas existem frases curtas adequadas para o pedido - os nomes das obras musicais. Para alguns idiomas, esses sites são tão numerosos que obstruem toda a saída. Decidimos que, como estamos procurando textos, esses também não são nossos clientes.


Algo deve ser cortado. O primeiro filtro pode ser inserido no estágio de contato com o mecanismo de pesquisa. Se tivermos vários marcadores para o idioma, depois de capturar algum domínio no final, podemos perguntar ao mecanismo de pesquisa se há outras palavras da nossa lista no mesmo site. Nesse caso, é provável que tenhamos chegado ao próprio local de que precisamos. Se houver um marcador, mas o restante não estiver representado, é altamente provável que tenhamos um manequim em nossas mãos. Existe, por exemplo, a maravilhosa palavra Khakass "sinus" ("novamente"). Ele atende a todos os critérios para uma palavra de marcador listada acima. Mas aqui está a coisa. Quando escrevem em russo, às vezes cometem erros e digitam "seio" em vez de "seio" (nariz). Nosso filtro ajudará a entender se um erro de digitação está no texto em russo ou mesmo no texto em Khakass. O fato é que esses são pedidos adicionais, dos quais existem tão poucos.


Nem tudo é inequívoco com a lista de sites em que os textos de que precisamos foram encontrados. Se planejamos não apenas encontrar esses locais, mas também bombeá-los para formar o corpus, precisamos saber a profundidade em que o bombeamento deve ser feito. Dividimos todos os domínios encontrados em três categorias (tudo isso também pode ser descoberto com as consultas Yandex corretas).
, ( — ) .


, ( ) .


, . Youtube ( - «» ) stihi.ru ( , , ).


, , VK.com. , , , , ( ), , , -, . , , . .



VK.com . : - , - , vk.com. 2016 , .


. . , . Scrapy , . VK API .


. , . , , . , , , , - . ( — , ngram) . - , , , . , . .


, - . , , , . — ( , ), — . . . - «» . , , , . , , .
, , , .


Resultados


, . . ?


, . , , , . «» . .
- . ? , , - ?



, ( ) .



? — ?



, - , .


?



, , 2012 . Porque , . , vk.com.


. : , ( , ). ( , , , - , ). ? ?


, - ( 0.7), - . , , , . , , , . , , . , , .


, . ? , , , , .



- "", , , . , : , , , . , , , .


, . , , , , , .


, -, ?



, , : - , , - , , .



, vk.com. - , - , : , . . .


:



, , , , — . , — . , , . . , .


- ?


  • : 19-31;
  • : ;
  • , «» -;
  • , .

, «» :


  • ;
  • .

?



- . , , . , , . , 90- 2000-.


Então, aprendemos que existem pequenos idiomas da Rússia na Internet. Eles moram em sites e redes sociais e, desde 2012, principalmente em redes sociais. Lá e lá, eles são forçados a resistir à concorrência feroz com a "prestigiada" língua russa. A vitalidade de um idioma na Internet não depende muito do quanto ele fala esse idioma "na vida". O mais importante é se existe uma comunidade de rede ativa em torno desse idioma, operando em sites de prestígio da Internet (Wikipedia, Vkontakte). Se aconteceu, aconteceu "no chão" na região onde vivem falantes nativos dessa língua.


Mas, se as pequenas línguas sobreviverem em uma situação de globalização, ainda precisamos aprender durante nossas vidas.


Todo o código do projeto está no repositório . Todas as coleções de texto e listas de domínios e comunidades estão disponíveis para download .


E não posso deixar de recomendar a comunidade no vk.com com memes fofos em pequenos idiomas com gatos .

Source: https://habr.com/ru/post/pt408411/


All Articles