提高英语:重塑字幕

1.简介




-Tatyana Leonidovna,我们可以看这部带字幕的电影吗?
-不,少年啄木鸟,我们会训练您的听觉感知力,因此如果没有他们,您将可以观看电影!使用字幕时,您只会阅读文字而不会收听。
-Tatyana Leonidovna,但没有字幕,我们听不懂一半以上!
-但是这些是你的问题。

2000年代初,与圣彼得堡一所法国特殊学校的老师进行了对话。



2.怎么了?


电视节目和电影非常适合提高英语。您已经知道语法,拥有大量单词。与母语人士保持免费对话还为时过早,而且进行测试和练习已经很无聊了。您开始观看电影和电视节目。

你看着自己,你看着。似乎一切都清楚了,但是这里开始了两个英雄的快速对话,从中您仅能理解介词。好的,打开潜艇。他们解决了问题-您开始了解正在发生的事情。

但是,在观看了带有低音炮的多个视频后,人们经常注意到两件事。
  • . , , . , , . , — « » .
  • 由于影片中的某些部分包含难以理解的文字,因此仍然完全无法理解“我不能危害公司的成功”吗?什么不好意思 危害?好的,谷歌,我将暂停电影,然后您会说什么意思。
    有些人愿意同时观看带有两种语言字幕的电影-英语和俄语。很快,您已经成为两种语言超低音扬声器高速阅读的绝对冠军,但对听觉感知和语言思维的发展却毫无帮助。


没有低音炮,什么都无法理解,但是有了低音炮,听觉上的进步就受到了阻碍,……仍然令人难以理解。

3.现在呢?




在“南方公园”的此屏幕上,您可以看到7个字。几乎每个学习英语的人都熟悉其中的6个。即使它们发音迅速且带有重音,它们也可以被识别和理解。剩下一个词(很有可能)会出现问题。疲倦这个词很累,很疲倦。

  • 这个词不是很常见。您将无法听到它的机会很大。
  • 直接在屏幕上显示翻译会很好。否则,您将不得不分心并用字典翻译,或者只是打分并进一步看。


其余的单词可以扔掉。他们几乎为每个人所熟悉,并且绝对不需要在屏幕上显示。如果将这种逻辑应用于其余场景,我们将获得潜艇,其中只会出现困难的单词,其余的我们将不得不聆听和理解。

事实证明,这个想法根本不是新的。快速搜寻表明,至少有几位博主以类似的想法撰写了文章,但愿意手动修改字幕。我们极客将以编程方式自动调整低音炮!

4.制造一辆自行车


任务是在需要翻译的文本中搜索复杂的单词。

主要思想是您可以分析许多英文文本,计算有关单词使用的统计信息,并了解某些单词的使用频率比其他单词少。这些罕见的词属于“复合词”的概念-它们很罕见,因此您不知道它们的翻译和拼写。

下班后我已经把所有这些作为爱好(顺便说一下,这是一篇关于这一切的开始的文章)。所有这些都导致了Bamboo Ninja项目,该项目使您可以分析英语书籍,在其中查找复杂的单词,插入译文并取回书籍。字幕也是文本,因此,我将从那里获取创意并将其应用到字幕中。

我们打开潜艇,将它们分成几部分,然后分成单独的单词,然后开始分析。对于每个单词,我们都需要解决二进制分类问题-将单词传递到在输出处返回1或0的算法中-单词对于英语学习者来说是简单的还是复杂的。分类器基于对来自各种来源的大约40 GB文本数据进行分析而获得的统计数据来做出决策(通常,从不同的来源中收集数据确实很值得:肠胃聊天记录,新闻,歌词),但是我太懒了,主要使用课本。稍后再讲)。

然后,对数据库进行一定程度的大惊小怪,编写代码,您将获得类似于以下内容的子代码


5.我们骑一辆内置的自行车


我在程序中运行了3-4个子程序,估算了分析仪发布的指标值。我试图看电影和发生的事情。向网站的朋友,熟人和访客显示。

为了评估结果,我对机器学习任务使用了两个经典指标:
  • 精度 -正确分类单词的能力
  • 完整性(召回)-查找所有需要翻译的单词的能力

事实证明,度量值倾向于在胶片之间跳跃。在某些胶片上,丰满度和准确度显示出期望值的85%-90%,在其他胶片上则约为55%。反复思考这个问题,我找到了原因-在过去的300年中,我从艺术品书中收集了大部分数据用于统计分析,并且其中的某些单词比现代英语更常见。例如,刺刀(bayonet)一词在当时比现在更普遍,但是我们的分类器认为这个词并不罕见。

尽管我来自英国的朋友科林笑了很久,说“我的肉刺刀”(牛肉刺刀)一词现在在军队中很常见,但我们不会考虑这种情况。

我决定回溯到几个月前使用的旧版分类器。它是在夏天仅使用500本大书建造的,但是样本中的书却更加多样化:哈利·波特,《冰与火之歌》,程序员的技术文档,心理学,医学书籍等等。事实证明,分类数据量较小但种类更多的分类器比仅基于英语小说的分类器要好一个数量级。单词识别算法开始犯错误的频率越来越少。

获得的结果通常可以达到目标,但是该算法仍会生成适合于具有丰富英语使用经验的人的潜艇。您需要具备一定的识别耳朵语音和几千个基本单词的有形词汇的能力。在这种情况下,这些字幕将有助于提高英语水平。

我正式化了我在服务中的所有经验,并将其固定在我的爱好站点上,为那些想要在不离开收银台的情况下测试此东西的人添加了一个小型的订阅库

6. Outro


将看电视节目变成一种教育过程,而不是愚蠢的屏幕阅读,似乎是一项值得的任务。改进算法的运算将有益地度过更多的夜晚。

谢谢大家!优秀的电影和英语水平。

Source: https://habr.com/ru/post/zh-CN390677/


All Articles