三星的新免费在线神经网络文本分析课程

借助翻译,我们习惯性地使用Internet搜索,与聊天机器人进行通信,以任何语言阅读文档。 告诉机器人吸尘器开始用声音清洁吗? 没什么特别的...对于许多人来说,智能手机上的语音助手已进入日常生活。 未来,计算机已经阅读了有关足球的多余注释,从而相应地改变了天气新闻的语气,已经到来了。

一切如何运作? 如何成为NLP的专家(代表自然语言处理,请不要将其与神经语言编程相混淆:))?

那些问这样的问题的哈布罗夫斯克居民,我们邀请您参加最近开设的俄罗斯三星研究在线课程。 在猫的细节下...

“神经网络和文本处理”课程的作者

今年6月, 我们写了关于第一个在线课程“ 神经网络和计算机视觉 ”的发布。 事实证明它是成功的:已经有2万多名听众,好评如潮,我们甚至在9月获得了“新作者最佳课程”提名的Stepik大奖!



从第一年开始已经过去了5个月,我们并没有闲着! 凭借同事们的成功经验和启发,另一组作者-莫斯科三星人工智能中心的开发人员,机器学习专家Roman Suvorov,Anastasia Yanina和Alexey Silvestrov,在Nikolai Kapyrin的持续编辑支持下,掌握了巨大的工作量,并于10月15日在频道“俄罗斯三星研究开放教育»Stepik平台推出了第二门课程-“ 神经网络和文字处理”

该课程为期7周。 如果您每周平均花费3-5个小时观看视频讲座,回答问题并完成实际任务,那么您将了解现代搜索引擎,聊天机器人和文本生成器的内幕。 团队付出了很多努力,以确保仅通过一门课程的学生就可以自信地在初级开发人员或任何没有与NLP合作的特定经验的技术专家的水平上浏览技术,但是现在必须处理它。

那么我们课程的显着优势是什么?

  • 它是由三星人工智能中心开发的,该中心拥有该领域的商业项目。
  • 有一种理论和实践-您将了解如何创建神经网络以在PyTorch上处理文本,实现最相关的体系结构并学习如何使它们适应您的需求
  • 与计算机视觉的第一年一样,最好的毕业生也被邀请参加俄罗斯三星研究院的采访!

在下面的信息图中,我们简要反映了新课程的内容和当前的定量特征:

该课程的毕业生将获得证书。 在这种情况下,可能有两个选择:

  • 普通证书,您可以通过解决课程主要部分中的所有问题获得分数;
  • 荣誉证书:为此,您将需要解决所有得分最高的问题,按照课程的理论进行学习(那里的任务与面试中为员工设定的任务相似),并解决Kaggle的最终问题。

老师和课程开发人员



罗曼·苏沃洛夫(Roman Suvorov)
莫斯科三星人工智能中心高级工程师
自2011年以来在数据分析,机器学习和自然语言处理方面。

“ 2013年,神经网络吸引了我的注意力,此后一直没有松懈,尽管我并没有忘记经典方法”

阿纳斯塔西娅·亚尼娜(Anastasia Yanina)
莫斯科三星人工智能工程师中心

“自2015年以来,我一直从事数据分析和NLP。 毕业于莫斯科物理技术学院(FIVT)和ShAD,现在我在PhysTech教授机器学习“

阿列克谢·西尔维斯托夫(Alexey Silvestrov)
莫斯科三星人工智能中心高级工程师
“他在2009年至2012年期间从事经典NLP的学习,后来在2015年至2017年-DL NLP的学习,后来转而通过神经网络生成音乐和图像。 莫斯科国立大学VMiK毕业生。”

尼古拉·卡皮琳
在线课程的制作人,人工智能教育计划的策展人,三星俄罗斯研究中心
“我计划在Habr上写一篇有关技术和方法问题的文章,我们在一年中开设两门在线课程时就解决了这些问题”

课程计划


1.简介

在本模块中,作为第一个近似值,我们了解到当今机器学习的文本处理手段是什么,今天只有通过机器学习方法才能解决语言学的难题和任务。

  1. 大家好! 告诉我们你自己!
  2. 一般而言:自然语言和文字
  3. 自然语言处理的特征
  4. 一般而言:语言分析
  5. 一般而言:特征提取
  6. 应用的文字处理任务和总计

2.矢量文本模型和长文本分类

数学开始。 稀疏的向量模型,令牌,共同信息...这是什么? 我们将介绍将文本中包含的多维多面结构转换为数字的方法,以便ML算法可以开始工作。

  1. 矢量文本模型和TF-IDF
  2. 创建一个用于处理文本的神经网络
  3. 理论目标:矢量文本模型
  4. 研讨会:新闻文本分类

3.处理文本的基本神经网络方法

我们是否使用完全连接的神经网络? 什么是“文本卷积”操作? 这似乎是对矩阵的运算? 答案在该模块中,我们将在这里学习首次成功的尝试,以教神经网络使用文本的含义。

  1. 使用神经网络处理文本的通用算法
  2. 单词的分布语义和向量表示
  3. 研讨会:PyTorch的食品食谱和Word2Vec
  4. 理论问题:神经网络进行文本处理的基础知识
  5. 用于文字处理的神经网络模型的主要类型
  6. 卷积神经网络的文字处理
  7. 研讨会:使用卷积神经网络进行POS标记
  8. 理论问题:文字处理中的卷积神经网络

4.语言模型和文本生成

深入研究神经网络。 文本可以是任意长度,但是只有递归神经网络允许算法生成没有特殊技巧的文本。 我们试图教网络阅读,现在我们将给它写作的机会。

  1. 递归神经网络
  2. 语言建模
  3. 研讨会:使用RNN生成名称和口号
  4. 聚集注意机制
  5. 变压器与自我关注
  6. 讲习班:使用Transformer建模语言
  7. 理论问题:语言模型和变形金刚

5.序列转换:1对1和N对M

但是,如果输入是文本,而输出需要文本,该怎么办? 对于翻译人员来说,这是一项工作,据我们所知,对于上下文而言,翻译是最重要的。 如果您必须将一个文本数组转换为另一文本数组,或将其转换为多个文本数组,那么此模块将为您提供所需的一切!

  1. 认识短文本的扁平结构
  2. 研讨会:食谱识别
  3. 研讨会:作为NER的方面情感分析
  4. 序列转换(seq2seq)
  5. 讲习班:使用堆栈溢出生成代码段
  6. 理论问题

6.转移学习,模型适应

您是否有一个很棒的项目,但是没有超级英雄计算资源? 然后使用现成的神经网络,并对其进行进一步培训以解决您的特定问题! 您需要知道一些名称和一些训练技巧,重点在于。

  1. 情境化表示和知识转移
  2. 讲习班:pytorch变压器或如何运行BERT
  3. 讲习班:BERT用于问答搜索
  4. 理论问题

7. Kaggle的决赛比赛和总结

通过将光标移到“开始训练”按钮附近,您已经看到了伪字符的多维链如何展开以及概念之间机器的注意力如何流动? 然后在我们的决赛中展示自己!

  1. 还有什么要读,如何发展
  2. Kaggle竞赛:问题和基本解决方案概述

学生要求


该课程是为那些精通机器学习领域的学生设计的。

您需要什么开始课程?

  1. 具有神经网络的基础知识
  2. 具有数理统计领域的基础知识
  3. 准备使用Python编程

我们可以说“ 神经网络和文本处理 ”课程是计算机视觉第一门课程的延续,因为它依赖于我们已经提供的有关神经网络的基本知识。

也许您已经对NLP有所了解-它不仅涉及文本编辑;还涉及文本编辑。 创建聊天机器人,重述文本,对情感进行分类,回答Wikipedia问题是不再需要研究的简单任务。 完成本课程后,您将可以使用这些任务。 但是,最重要的是,我们将教您在现代NLP领域中提出正确的问题,以及您自己找到答案还是外部神经网络-有区别。 接下来是什么? 由您决定。

你和我们在一起吗

然后欢迎参加在线课程

Source: https://habr.com/ru/post/zh-CN476468/


All Articles