什么是自动化机器学习(AutoML)和
它会带走数据科学家吗?
自从出现诸如Google AutoML之类的自动机器学习工具(AutoML)以来,专家们一直在讨论它们是否准备好进行完整的公司集成和应用。 AutoML工具说明指出,任何人都可以担当“数据科学家”的角色,能够创建准备用于工业用途的机器学习模型,而无需传统上必要的技术背景。
尽管可以肯定的是,自动化机器学习过程正在改变企业执行数据分析任务的方式,但该技术尚未准备就绪,无法让数据专家失业。 该技术的主要主张之一是,与一组数据研究人员创建的等效模型相比,自动创建的模型具有相似的质量并且可以尽快生成。
尽管AutoML模型的创建速度更快,但是只有在其寻找的问题持续且反复出现的情况下,它们才有效。 在这些条件下,大多数AutoML模型都可以很好地工作并达到一致的质量。 但是数据问题越复杂,就需要更多的专业干预来了解AutoML系统已经启动了什么并将其转化为有用的东西。 要了解其中一些限制,让我们更详细地看一下AutoML流程。
AutoML工具通过使用现有信息来尽一切可能简化数据处理。 该过程包括三个主要阶段:
第一阶段包括信息的“提取”,这有助于提高生成的模型的生产率,从而创建更多的研究信息。 这需要花费大量时间,因为数据分析专家需要手动识别数据元素之间的关系,并开发出将信息呈现为机器可用于训练的其他数据字段的方式,并决定数据的完整性以建立模型。
这是重要的一步,因为这些附加数据通常意味着不合适的模型和出色的模型之间的差异。 AutoML被编程为使用有限范围的数据发现方法,通常以满足“平均”数据问题的方式使用,从而限制了模型的最终性能,因为它无法使用特定的SME(中小型企业)的知识,这对于成功和失败至关重要。数据专家可以在他的工作中使用的。
许多数据问题始于花费大量精力来选择要在算法中表示的数据。 传输系统中所有的数据可能会导致模型与参数不匹配,因为数据通常包含许多不同的,经常相互冲突的信号,必须分别针对和建模。
当欺诈在不同的地理区域,付款渠道等具有非常不同的欺诈类型时,尤其如此。 尝试手动发现这些模式并设计适当的数据集以确保准确检测的尝试仍然很大程度上不是自动化的。 由于这种事件的巨大复杂性,目前无法使用多功能自动化方法来解决此问题。
下一阶段是模型的生成。 使用上一阶段的数据来创建和训练具有不同配置的模型。 这非常重要,因为几乎不可能对每个问题使用默认配置并获得最佳结果。
在这一点上,AutoML系统比数据专家更具优势,因为它们可以在很短的时间内创建大量的测试模型。 当简单的模型(例如逻辑回归或决策树)可能更适合并受益于超参数优化时,大多数AutoML系统都努力做到通用并且仅生成深度神经网络,这对于许多任务可能是多余的。
最后阶段是质量性能测试,并选择最佳性能的产品。 在此阶段需要一些体力劳动,尤其是因为用户为任务选择正确的模型非常重要。 具有欺诈风险模型来识别100%的欺诈案件,但却使每个授权都受到质疑,这是没有用的。
在当前的手动过程中,数据专家与SME一起了解数据并开发有效的描述性数据功能。 通用AutoML缺少SME与数据专家之间的重要链接。 如前所述,该过程尝试从工具可以在数据中检测到的内容中自动生成这些模型,这可能是不合适的,从而导致模型效率低下。 在设计将来的AutoML系统时,必须考虑到此限制和其他限制,才能根据专家制定的标准创建高质量的模型。
AutoML的未来
AutoML不断发展,目前主要的AutoML供应商(Google和Microsoft)已经取得了重大进步。 这些发展主要集中在提高生成现成模型的速度上,而不是在如何改进技术以解决更复杂的问题(例如,检测欺诈和网络入侵)上,AutoML可以比数据专家走得更远。
随着AutoML解决方案的不断发展和扩展,可以使更复杂的手动过程自动化。 现代AutoML系统可以很好地处理图像和语音,因为AutoML具有内置的业务知识,可以很好地完成这些任务。 未来的AutoML系统将为企业用户提供输入知识的机会,以帮助机器自动创建非常准确的模型。
最重要的是,复杂的数据流水线将变得越来越有序,并且添加了大量用于优化的各种算法将进一步扩展使用公民数据的科学家可以解决的可能问题。
尽管许多数据处理任务将实现自动化,但它将使科学家能够执行业务的自定义任务; 进一步刺激创新,使企业能够专注于创收和业务增长的更重要领域。