机器学习的局限性

哈Ha! 我向您介绍Matthew Stewart撰写的文章“机器学习的局限性”

阅读本文的大多数人可能熟悉机器学习以及用于基于数据进行分类或预测结果的相应算法。 但是,重要的是要了解机器学习并不是所有问题的解决方案。 考虑到机器学习的有用性,可能很难接受有时这不是解决问题的最佳方法。


机器学习是人工智能的一个分支,在过去十年中,它彻底改变了世界。 信息爆炸导致收集了大量数据,特别是Facebook和Google等大公司。 如此大量的数据,再加上处理器能力的快速发展和计算机并行化,使得接收和研究大量数据变得相对容易。

如今,机器学习和人工智能的夸张无处不在。 考虑到这一领域的巨大潜力,这也许是正确的。 在过去的几年中,人工智能咨询机构的数量有所增加,据Indeed称,2015年至2018年期间,与人工智能相关的工作数量已增加了100%。

截至2018年12月,《福布斯》发现47%的企业在其业务流程中至少具有一种使用AI的能力,而德勤报告称,集成了AI和基于云的AI开发服务的企业软件的渗透率将达到大约分别为87%和83%。 这些数字令人印象深刻-如果您打算在不久的将来改变职业,那么AI似乎是一个不错的领域。

一切看起来都很美吧? 公司很高兴,消费者显然也很高兴,否则公司不会使用AI。

太好了,而且我还是机器学习和人工智能的忠实拥护者。 但是,有时根本不需要使用机器学习,这毫无意义,有时有时实施会带来困难。

限制1-道德


很容易理解为什么机器学习会对世界产生如此深远的影响,但是尚不清楚的是它的功能到底是什么,更重要的是,它的局限性是什么。 如您所知,尤瓦尔·诺亚·哈拉里(Yuval Noah Harari)创造了“达特主义”一词,该术语指的是提议的新文明阶段,当我们对算法和数据的信任程度超过我们自己的判断和逻辑时,我们便进入了这一阶段。

尽管这个想法似乎很荒谬,但请记住,您上一次去度假并遵循GPS指示时,不是您自己对地图的判断-您是否对GPS等级提出质疑? 人们实际上是开车进入湖泊,因为他们盲目地遵循了GPS的指示。

信任数据和算法的想法比我们想象的要好,也有弊。 显然,我们将从这些算法中受益,否则我们将不会首先使用它们。 这些算法使我们能够利用可用数据做出明智的判断,从而使流程自动化。 但是,有时这意味着要使用具有道德后果的算法来代替他人的工作。 另外,如果发生问题,我们应该责怪谁?

今天最常讨论的案例是自动驾驶汽车:如果发生致命碰撞,我们如何确定车辆的反应? 将来,我们是否有机会为我们的自动驾驶汽车选择符合道德的购买框架?

如果我的自动驾驶汽车在路上杀死了某人,应该责怪谁?

尽管这些都是引人入胜的问题,但它们并不是本文的主要目的。 但是,很明显,机器学习无法告诉我们任何关于我们应该采用什么规范性价值的信息,即在这种情况下我们应该如何采取行动。

限制2-确定性问题


这是我个人必须处理的限制。 我的专业领域是环境科学,它在很大程度上依赖于计算机建模和IoT传感器/设备的使用。

机器学习对传感器非常有效,当与其他测量环境变量(例如温度,压力和湿度)的传感器连接时,机器学习可用于校准和调整传感器。 来自这些传感器的信号之间的相关性可用于开发自校准程序,这是我在大气化学研究中的热门话题。

但是,在计算机建模方面,事情变得更加有趣。

运行模拟全球天气,地球排放并将这些排放转移的计算机模型在计算上非常昂贵。 实际上,这在计算上是如此困难,以至于即使在超级计算机上工作时,研究级的建模也可能需要数周的时间。

MM5和WRF是很好的例子,它们是用于天气预报的数值天气预报模型,可为您提供早间新闻的天气预报。 我想知道天气预报员整天做什么吗? 运行并学习这些模型。

使用天气模型很好,但是现在我们有了机器学习,可以代替它来获取天气预报吗? 我们能否使用来自卫星,气象站的数据并使用基本的预测算法来确定明天是否会下雨?

答案令人惊讶地是。 如果我们有关于某个区域周围的气压,空气中的湿度水平,风速的信息,以及有关相邻点及其自身变量的信息,则可以训练例如神经网络。 但是要花多少钱呢?

使用具有数千个输入的神经网络,您可以确定明天波士顿是否会下雨。 但是,使用神经网络会跳过天气系统的整个物理过程。

机器学习是随机的,而不是确定性的。
神经网络无法理解牛顿第二定律,或者密度不能为负数-没有物理限制。

但是,这不能长期限制。 已经有许多研究人员正在考虑将物理约束添加到神经网络和其他算法中,以便将其用于诸如此类的目的。

限制3-数据


这是最明显的限制。 如果馈送的模型不佳,只会产生不好的结果。 造成这种情况的原因有两个:缺乏数据和缺乏可靠的数据。 如果您没有遇到此类问题,则可以安全地在“ 大数据书电报”频道上研究大量数据的处理方式,该频道会发布有关大数据的各种书籍和资源。

资料不足


许多机器学习算法在开始产生有用的结果之前需要大量数据。 神经网络就是一个很好的例子。 神经网络是需要大量训练数据的吃数据的机器。 体系结构越大,产生可行结果所需的数据就越多。 重用数据不是一个好主意,拥有更多数据总是可取的。
如果可以获取数据,请使用它。

缺乏好的数据


尽管有外观,但这与上面写的不一样。 想象一下,您认为可以通过生成一万个伪数据点放置在神经网络上来作弊。 插入此内容会发生什么?

他将自己学习,然后当您在新的数据集上对其进行测试时,他将无法很好地工作。 您有数据,但是质量更好。
正如缺少良好的功能会导致算法性能下降一样,缺少良好的真实数据也会限制模型的功能。 没有公司会引入比人为错误更糟糕的机器学习模型。

类似地,在一种情况下应用对数据集训练的模型可能不一定同样适用于第二种情况。 到目前为止,我发现的最好的例子是预测乳腺癌。

乳腺X射线摄影数据库有很多图像,但是它们有一个严重的问题,这在最近几年引起了严重的问题-几乎所有的X射线都是从白人女性身上拍摄的。 这似乎没什么大不了,但是事实上,事实表明,黑人妇女由于多种因素而死于乳腺癌的可能性增加42%,其中可能包括检测和获得护理的差异。 因此,在这种情况下,主要针对白人女性学习算法会对黑人女性产生不利影响。

在这种特殊情况下,训练数据库中需要更多黑人患者的X射线图像,更多的迹象与42%的概率增加相关,并且由于沿相应轴的数据集分层,该算法更加公平。

限制4-滥用


关于前面讨论的第二个限制,我们假设这是“学术研究中的机器学习危机”,这是当人们盲目地使用机器学习来尝试分析本质上是确定性的或随机的系统时。

由于第二个限制中讨论的原因,机器学习在确定性系统中的应用将是成功的,但是这种算法不会研究两个变量之间的关系,并且不会知道何时违反物理定律。 我们只是给系统一些输入和输出,并告诉她研究这种关系-就像有人从字典中逐字翻译一样,该算法似乎只是对基本物理学的肤浅理解。

对于随机(随机)系统,一切都不太明显。 随机系统的机器学习危机以两种方式表现出来:

  • P黑客
  • 分析范围

黑客攻击


当某人访问可能包含数百,数千甚至数百万个变量的大数据时,很容易找到具有统计意义的结果(假设大多数科学研究所需的统计意义水平为p <0.05)。 这通常导致检测到通常使用p-hacking获得的虚假相关性(查看大量数据,直到发现相关性显示统计上显着的结果)。 这些不是真正的相关性,而仅仅是对测量中噪声的响应。

这导致了这样一个事实,即单个研究人员通过大数据集“发现”了具有统计学意义的相关性,并将其伪装成真实的相关性。 有时这是一个无辜的错误(在这种情况下,科学家应该作更好的准备),但在其他情况下,这样做是为了增加研究人员发表的论文数量-即使在科学界,竞争也很激烈,人们将竭尽所能改善自己的指标。

分析范围


与统计建模相比,机器学习的分析范围存在显着差异-统计建模本质上是确定的,而机器学习本质上是研究。

我们可以将确认性分析和模型视为某人获得博士学位时的行为。 或在研究中。 想象一下,您正在与顾问合作,并试图为研究任何实际系统开发理论基础。 该系统具有一组会影响的预定义属性,在仔细设计实验并开发假设之后,您可以运行测试以确定假设的有效性。

另一方面,研究分析缺乏与确认分析相关的许多品质。 实际上,在真正大量的数据和信息的情况下,由于海量的数据而完全破坏了支持方法。 换句话说,在数以百万计的符号存在的情况下,根本不可能准确地陈述可检验假设的最终集合。

因此,并且再次概括地说,机器学习算法和方法最适合用于具有大量数据和计算复杂功能的研究预测建模和分类。 有人会争辩说它们可以用于“小”数据,但是当经典的多维统计方法提供更多信息时,为什么要使用它们呢?

机器学习是一个在很大程度上解决与信息技术,计算机科学等相关的问题的领域,它既可以是理论问题,也可以是应用问题。 因此,它与物理,数学,概率和统计学等领域有关,但是机器学习实际上代表了一个本身的领域,这个领域没有其他学科提出的问题。 机器学习的专家和实践者提出的许多解决方案都错得很惨,但是他们却尽了自己的职责。

局限性5-可解释性


可解释性是机器学习的主要问题之一。 如果AI咨询公司认为该模型未得到解释,则可以停止尝试仅使用传统统计方法的公司。 如果您不能说服客户您了解算法是如何做出的,那么他将多么信任您和您的经验?

如果从业务角度解释结果,则业务经理更有可能接受机器学习建议。

如果无法解释这些模型,那么它们将变得无能为力,并且人类解释的过程遵循的规则远远超出了技术掌握范围。 因此,可解释性是机器学习方法在实践中必须达到的最高质量。

尤其是,物理学领域中发展中的科学(基因组学,蛋白质组学,代谢组学等)正因其对大型和非常规数据库的依赖而成为机器学习研究人员的主要目标。 但是,尽管取得了明显的成功,但他们仍缺乏对方法的解释。

结论


正如我希望的那样,我在本文中已明确解释,存在局限性,至少在目前,这些局限性阻碍了人类所有问题的解决。 神经网络永远无法告诉我们如何成为一个好人,并且至少还不了解牛顿的运动定律或爱因斯坦的相对论。

还有一些基于机器学习的基础理论(称为计算学习理论)的基本约束,它们主要是统计约束。 我们还讨论了与分析范围和p-hacking的危险有关的问题,这些问题可能导致错误的结论。
结果的可解释性也存在问题,可能会对无法说服客户和投资者其方法准确可靠的公司产生不利影响。

机器学习和人工智能将继续给行业带来革命性的变化,并且只会在未来几年变得越来越普遍。 尽管我建议您充分利用机器学习和AI的优势,但我也建议您牢记所用工具的局限性-毕竟没有完美的工具。

Source: https://habr.com/ru/post/zh-CN462365/


All Articles