我很早以前就开始写这篇文章,因此它在政治上没有计划性的意义。 但事实证明,正是在这些日子里,媒体出现了与俄罗斯的小(少数民族)语言有关的信息指南 。 我可能在下面写的这项研究可能会从某种意义上向某人澄清一些事情。
俄罗斯有几种语言?
这不是那么容易实现,但是在俄罗斯,他们会讲多种语言。 此外,在俄罗斯,他们说的是不会在其他任何地方分发的语言。 说,俄罗斯有数以百万计的乌克兰人和乌兹别克人居住,但同时有主权国家乌克兰和乌兹别克斯坦,其中相应的语言是官方语言。 但是在俄罗斯,他们说巴什基尔语,图文语,乌德穆尔特语和许多(实际上是许多)其他在其他任何地方都没有州身分的语言。
国家地位很重要。 在全球化时代,为了生存,语言需要能对印刷,媒体,艺术产生积极影响的支持,并最终影响人们说母语的愿望和能力。
这些语言如何适应新的数字现实? 只能在偏远的山区村庄讲这些话是真的吗? 还是他们仍然是在线交流的完整方式? 几年前,我和我的同事决定找出答案。
最初,这是在现已不复存在的互联网研究中心和NES协会 (现已成功转变为互联网和社会爱好者俱乐部 )的框架内进行的研究 ,然后我们在高等经济学院语言学院的治安官权下组织了一项研究项目,并且总体上取得了成功。 所有结果都在一个特殊的网站“俄罗斯语言”中介绍 ,但我将向您介绍最有趣的内容,包括我们的工作方式以及工作方式(以及发生的事情)。
首先,有必要确定俄罗斯总体上有多少种语言以及它们是什么语言。 语言学家没有任何公认的清单:对于某些语言,尚不清楚至少有其他说话者还活着,对于某些语言没有共识,这到底是一种语言,还是实际上是另一种语言的方言。 并且没有明确的标准来区分彼此。 开个玩笑:“语言是与陆军和海军的方言”,但是在魏因里希的这句话中,所有的反例都有:巴西有陆军和海军,但没有自己的语言(巴西人使用葡萄牙语,是前大都会的语言),而且,美国人是世界上最强大的军队的拥有者,他们仅使用方言,而不使用他们自己的语言。 冰岛没有军队或舰队(只有海岸警卫队),但是没有人会侵犯其语言的独特性(尽管没有人认为他是现代挪威人的亲戚)。
总之,这项任务并不容易。 达吉斯坦的语言特别困难。 语言种类繁多(真实语言,而非方言!他们的运营商无法相互理解),只有在咨询专家后才能弄清楚。
我们还决定将其他州的标题语言移出列表。 的确,如果俄罗斯以外的整个国家都说某种语言,那么很有可能国家资源也被用来支持这种语言。 可以将这种语言视为俄罗斯的语言,但是与没有从国外获得支持的其他语言相比,评估它在互联网上的存在是不正确的:Ingush和哈萨克人的体重类别将完全不同。 因此,奥塞梯变成了我们的研究重点:尽管在俄罗斯有一个整个称呼地区都使用奥塞梯的事实,但还有一个俄罗斯认可的独立国家南奥塞梯,该语言是官方的。 严格来说,在南奥塞梯和北奥塞梯,他们说不同的方言,铁和Digor。 但是自动地,计算机,以区分它们是非常困难的。 因此,最好将它们视为不属于俄罗斯语言类别的一种语言。
另一事件与意第绪语有关。 名义上在俄罗斯,还有一个意第绪语使用者应该居住的地区-犹太自治区。 同时,我们的专家向我们解释说,EAO中几乎没有意第绪语,互联网上所有使用该语言的文本几乎都是在以色列和美国书写的。 因此,分析俄语中意第绪语的表示是愚蠢的。 此外,我们将面对与各种拼写选项相关的头痛问题。 以下是一些与此相关的链接:[ 1 ],[ 2 ],[ 3 ]。
因此,我们决定了语言。 其中有96个。
语言完整清单阿巴扎
阿瓦尔
敏捷
阿迪格
阿留申
主持人
阿穆齐·希林斯基
安第斯山脉
Archinsky
阿瓦黑
巴格瓦林斯基
巴什基尔
Bezhtinsky
botlikh
布里亚特
Vepsian
Verkhneurkunsky
伏兹基
格什明斯基
金努斯基
戈多别林斯基
山玛丽
贡齐卜
伊佐拉
因古什
伊特尔门
卡巴迪诺-切尔克斯人
Kadar(可能是Darginsky方言)
凯塔格
卡尔梅克
卡拉丁斯基
卡拉恰伊-巴尔卡尔
卡累利阿人
凯特
科拉萨米
科米·齐里扬斯基
科米·珀米亚克(Komi-Permyak)
高丽雅
库巴奇·阿什丁斯基
库米克
拉斯基
列兹吉
森林涅涅茨人
草地东玛丽
曼西
麦格布
Moksha-Mordovian
缪林斯基
七井
ana山
Negidalsky
涅夫斯基
野井井
奥罗克
鲁图尔斯基
Sanji Itarin
北阿尔泰
北尤卡吉尔(苔原,瓦杜尔)
Severodarginsky(包括文学Darginsky)
Selkup
索坦·坦斯坦斯基
塔巴萨兰
tanty-sirkhinsky(可能与Verkhneurkunsky使用的语言相同)
塔塔尔族
达(濒临灭绝)
丁丁
Tofalar
输卵管
图维尼安
苔原涅涅茨
乌丁
乌德穆特
乌代格
乌尔基
Usisha-tsudahar
卡卡斯
汉蒂
赫瓦尔申斯基
察克
切斯人
吉普赛人
查马林斯基
车臣
Chiraghi
楚瓦什
楚科奇
丘林斯基
索尔
Evenki
偶数
涅茨基
埃尔兹亚·莫尔多维亚(Erzya Mordovian)
爱斯基摩人
南阿尔泰
南尤卡吉尔(奥尤尔科利马)
雅库特
现在如何在网上寻找它们? 您可以缩小整个Internet的范围,并尝试在结果集合中找到必要的文字。但是,等一下,您确实无法缩小整个Internet。 也就是说,如果您是一家拥有适当服务器团队和开发团队的大型IT公司,则有可能。 而且,如果您有一支小型的大学团队可供使用,那么您就没什么可考虑的了。 另一方面,您无需在此阶段下载任何内容,因为搜索引擎已经绕过了整个网络。 只需要问搜索引擎正确的查询。 没错,搜索引擎不喜欢自动匹配。 但是,如果您确实提出要求,则可以使用例如Yandex.XML,它对请求的数量有限制,但这仍然不同于用手处理搜索结果。
标记词
但是要问什么呢? 需要言语-这很清楚。 搜索索引由单词组成,因此您需要为要查找的每种语言选择可以在该特定语言中找到的单词,并且这些单词的组成与任何其他语言的单词都不匹配。 从某种意义上讲,搜索俄语应该更简单,因为我们列表中的几乎所有语言都具有西里尔字母,并且这在世界语言中是一种相对罕见的情况,因此可以大大减少两个单词同时使用不同语言的可能性:这可能会造成混淆只有来自后苏联空间的语言的单词和来自大洋洲某些语言的单词不会产生噪音。
但是在哪里得到这些话呢? 如果我们再次求助于语言学家,他们会告诉您,有一本古老而当之无愧的出版物-Gilyarevsky R. S.,Grivnin V.S。世界上由书面语言决定的语言 (M.,第二版,1961)。 所描述的每种语言(约200种)都有一个页面,其中一个模板包含该语言的名称,其上的两个短文本,字母,其主要特征以及有关携带者数量和遗传隶属关系的信息。
看来对于我们而言,这本书完全没有用,但是在第259页上,还有一个附加部分,“某些语言的典型组合和服务词”。 看来这就是您所需要的,但是不幸的是,那里引用的单词很短,并且字母构成与俄语单词相吻合。 例如,对于Balkar,它是单词“ blah”,在搜索时会产生大量垃圾,这些垃圾根本与Balkar语言不符(不仅是blah blah,而且是“ 无人飞行器 ”),而对于山里Mari来说就是“ don”(搜索将更加糟糕)。 好吧,尽管如此,本节中的文字还是很少见的。 通过Yandex中的字母组合,您将不会看到。
因此,语言学家会建议这样做。 计算机科学家将有不同的解决方案。 为什么不采用Wikipedia(毕竟,在俄罗斯人民的语言中也有Wikipedia),从中制作频率手册,交叉字典,以这种方式查找唯一标记并将其用于搜索查询? 不幸的是,这也不起作用。 首先,维基百科并非适用于俄罗斯的所有语言。 维基百科中只有22个“真实的”部分,而不是孵化器中的内容。孵化器中又增加了41个部分,但通常最多只能包含几十个非常简短的文本,也就是说,它们不会产生具有统计意义的结果。 这是Tabasaran Wikipedia的孵化器 (共5条)。 这是一个Nogai孵化器 (共23条)。 而且,在某些地方根本没有文字,但是那里有关于Bashkirs的文章 。 依此类推。
但是,真正的(非孵化)维基百科不能作为一个很好的来源。 因为他们...不是人写的! 用俄罗斯人民的语言编写的最大的Wikipedia遭受了Wikipedians所称的“ 蜘蛛嗜血症” 。 也就是说,用模板生成的文章自动填充该部分,并在其中插入来自开放数据库或注册表的一些数值数据。 可以说,巴什基尔语和塔塔尔语Wikipedia中“人类”的比例很小,有成千上万条关于河流和湖泊的自动文章。 尝试单击Bashkir Wikipedia上的“ random article ”链接,您有10次访问“非水上物品”的次数(您可以通过关键字“ yylkha”搜索“ river”)? 现在情况有所改善,仍然有关于国家和定居点的文章,但是五年前,在10个案例中有8个涉及“水”主题。我现在点击,结果以7:3赞成河流。 那你呢
一切都会好起来的,但此类文本中的频率词根本不是该语言中的频率词。 基于自然起源的文本,“正常”频率词典的外观如何? 前几十个职位被不同的官方用语占据,这在语言上比任何重要的用语要普遍得多。 这是俄语的频率词典 。 第一个名词(年份)出现在第三个名词的结尾。 在此之前,一切都是完全的-连词,介词,代词和质词。 这是2013年塔塔尔族维基百科的频率词典:
不行 | 字形 | 翻译/意义 | 发生次数 |
---|
1个 | 埃尔加 | 河 | 132567 |
2 | 水池 | 游泳池 | 75706 |
3 | us | 水 | 54689 |
4 | 布恩查 | 由 | 48838 |
5 | 俄罗斯 | 俄罗斯 | 48722 |
6 | 乌纳什坎 | 位于 | 38043 |
7 | 千米 | 公里 | 36962 |
8 | Һәm | 和 | 27231 |
9 | 凯奇 | 小 | 27203 |
10 | dәүlәt | 国家 | 26888 |
官方词只有两个,其中只有一个-Һәm “和”-实际上在真实文本中特别常见。 当然,其余的仅由于原始样本的详细信息而包含在列表中。
对于我们而言,只有一种出路:收集单词以手动定义每种语言的搜索查询。 这是一项专家工作,您需要查看字典和语法,然后将候选单词带入搜索中,查看结果并评估会产生多少垃圾。 此外,每个单词必须满足两个强制性标准。 首先,应该是您的语言使用的频率。 因此, TatarҺәm “和”将适合。 确实,这个词在大多数以塔塔尔语写成的文本中都可以找到,而包含该词的请求将使我们能够接收并从而捕获大多数以塔塔尔语写成的站点。 其次,这样的词必须是唯一的,即只能以这种语言使用,而不能以任何其他语言使用。 从这个角度来看, U ,“,“苍蝇”,因为巴什基尔语中的词完全相同。
还有一点细微差别。 在本国语言的字母中,有许多“特殊”字符,即使用这些字符(如语言学家所说的“字素”)的俄语语言字母表中没有的字母,并记录了这些语言的特殊声音(如语言学家所说的“音素”)。 例如,科米—赛尔扬(Komi-Zyryan)单词tashtöm包含这样的符号,与可能出现的最奇特的符号相去甚远(其他示例可以在上面的“水”单词的塔塔尔列表中看到)。
事实是,由于所有这些图形奢侈都不在每个人都可以在其上键入的标准俄语键盘上,因此,实际用户实际上不会输入这些字母,而是用其他拼写或发音相似的字母代替它们。 tashtöm一词被翻译为tashtem或tashtom。 在巴什基尔语中,字母“ as”被传输为“ e”或“ a”,字母“ҙ”被传输为“ z”。 在KDPV上,“ menan”一词实际上应写为“ menen”。 继语言学家A. A. Zaliznyak之后,我们将这种拼写体制称为“日常写作系统”。 大约相同的过程(仅在没有键盘和其他软件的情况下)Zaliznyak针对白桦树皮字母上记录的诺夫哥罗德方言进行了描述。
在实践中这意味着什么? 理想地,不仅需要该语言唯一的标记词,而且不需要该语言的频率。 还需要这样的单词,以便它们不包含这些“特殊字符”。 因为实际上这些字符并不是所有人都写的,并且如果您向搜索引擎发送带有“正确”时间表中的单词的请求,那么答案的完整性将是一般的:我们不会遇到在家用系统中编写的大量文本。
此外,还有更多狡猾的符号,例如“ I”:“ Yakovlev的魔杖”(在不同的白种人语言中,它意味着喉弓或所谓的“辱骂”声音)。 通常在家用系统中,它会被替换为一个单位,但是碰巧他们也会写一个符号“ |”,即竖线,用作搜索运算符“或”(搜索包含与此运算符相关的任何单词的页面)。
简而言之,这并不容易。 但是我们为我们感兴趣的大多数语言制作了这样的标记词列表。 这是我们唯一不公开发布的内容,因为这样的单词对于搜索文本仍然很有用,而且该列表很容易遭到破坏,例如,如果有人想要使用它们来生成搜索垃圾邮件。
搜寻
因此,我们有了搜索词,然后将它们依次发送到Yandex.XML,然后得到结果。 这里也不是那么简单。 首先,Yandex.XML将我们的需求限制为每天10,000个请求。 没那么多吗? 是的,但是他逐页给出链接(每页10个),转换到下一页被视为一个单独的请求...
另外,我们仍然在输出中得到垃圾。 即使是“好”标记。 我们有什么? 镜子和双打。 尤其是很多维基百科。 如果我们的目标是收集某种语言的所有文本,那为什么还要考虑Wikipedia? 毕竟,可以一键下载Wikipedia! 还有什么 语言科学文章。 一些语言学家用俄语写了一篇文章,并用一些俄语写了一个句子的例子,这个句子包含了我们的标记词。 这也不是一件好事,因为在我们面前实际上是俄文。 否则可能是字典。 我们还会在寻找这个词,但是没有文字。 音乐网站给我们一个惊喜。 它们包含以小语言播放的大量民谣或版权歌曲的mp3。 那里也没有文字,但是有一些适合要求的短句-音乐作品的名称。 对于某些语言,这些站点太多了,以至于阻塞了整个输出。 我们决定,由于我们正在寻找文本,因此它们也不是我们的客户。
必须切断某些东西。 可以在联系搜索引擎的阶段输入第一个过滤器。 如果我们有几种语言标记,然后在某个领域找到了底线,我们可以询问搜索引擎在同一站点上列表中是否还有其他单词。 如果是这样,那么很可能我们已经到达了所需的站点。 如果有一个标记,但其他标记未显示,则我们很有可能将假人握在手中。 例如,有一个很棒的Khakass单词“ sinus”(再次)。 它符合上面列出的标记词的所有条件。 但是,这就是事情。 当他们用俄语写作时,有时会犯错误并输入“ sinus”而不是“ sinuses”(鼻子)。 我们的过滤器将帮助您了解俄语文字或Khakass文字中是否有错字。 问题是这些是额外的请求,其中的请求很少。
并非所有内容都与找到我们需要的文字的网站列表一致。 如果我们不仅打算找到这些部位,而且还打算将它们抽出以组成语料库,那么我们需要知道随后应抽入的深度。 我们将发现的所有域分为三类(也可以通过询问正确的Yandex查询来发现所有域)。
, ( — ) .
, ( ) .
, . Youtube ( - «» ) stihi.ru ( , , ).
, , VK.com. , , , , ( ), , , -, . , , . .
VK.com . : - , - , vk.com. 2016 , .
. . , . Scrapy , . VK API .
. , . , , . , , , , - . ( — , ngram) . - , , , . , . .
, - . , , , . — ( , ), — . . . - «» . , , , . , , .
, , , .
结果
, . . ?
, . , , , . «» . .
- . ? , , - ?
, ( ) .

? — ?

, - , .
?

, , 2012 . 怎么了 , . , vk.com.
. : , ( , ). ( , , , - , ). ? ?
, - ( 0.7), - . , , , . , , , . , , . , , .
, . ? , , , , .

- "", , , . , : , , , . , , , .
, . , , , , , .
, -, ?

, , : - , , - , , .
社交网络
, vk.com. - , - , : , . . .
:

, , , , — . , — . , , . . , .
- ?
, «» :
?

- . , , . , , . , 90- 2000-.
因此,我们了解到互联网上有俄罗斯的小语言。 他们生活在网站和社交网络上,自2012年以来,主要生活在社交网络上。 他们在那里和那里都被迫承受与“著名”俄语的激烈竞争。 互联网上一种语言的生命力在很大程度上不取决于它在“生活中”说多少种语言。 最重要的是,是否已经围绕着这种语言开发了一个活跃的网络社区,并在著名的互联网站点(Wikipedia,Vkontakte)上运行。 如果发生这种情况,那么它将在母语为母语的地区“实地”发生。
但是,小语言能否在全球化的情况下生存,我们仍然必须一生学习。
所有项目代码都在存储库中 。 所有文本集合以及域和社区列表都可以下载 。
我不得不在vk.com上推荐该社区,上面有可爱的小模因和猫咪 。