建立安全的AI:规范,可靠性和保修

本文的作者中包括DeepMind公司的人工智能安全团队(安全团队)的员工。

制造火箭很难。 每个组件都需要仔细研究和测试,而安全性和可靠性是核心。 火箭科学家和工程师齐心协力设计所有系统:从导航到控制,引擎和底盘。 一旦所有部件组装完毕并检查了系统,然后我们才能将宇航员放到船上,并确信一切都会好起来。

如果人工智能(AI)是火箭 ,那么总有一天我们都将获得入场券。 而且,就像火箭一样,安全性是创建人工智能系统的重要组成部分。 要确保安全性,需要从头进行仔细的系统设计,以确保各个组件可以按预期方式协同工作,同时创建所有工具以监视系统调试后的成功运行。

在较高层次上,DeepMind的安全性研究着重于可靠系统的设计,同时识别和缓解可能的短期和长期风险。 人工智能的技术安全是一个相对较新但发展迅速的领域,其内容从高理论水平到实证研究和具体研究不等。 该博客的目的是为该领域的发展做出贡献,并鼓励就技术思想进行实质性对话,从而增进我们对AI安全性的集体理解。

在第一篇文章中,我们将讨论AI技术安全的三个领域: 规格可靠性保修 。 未来的文章通常将对应于此处概述的边界。 尽管我们的观点不可避免地会随着时间而改变,但我们认为这三个领域涵盖了足够广泛的范围,可以为当前和未来的研究提供有用的分类。


AI安全的三个问题领域。 每个块都列出了一些相关的问题和方法。 这三个区域不是孤立的,而是相互影响的。 特别是,特定的安全问题可能包括多个阻止问题。

规格:定义系统任务


规范确保AI系统的行为与操作员的真实意图一致


也许您知道迈达斯国王的神话和金色的触感。 在其中一种选择中,希腊国王狄俄尼索斯(Dionysus)向麦达斯许诺了他希望得到的任何报酬,以感谢国王尽力向狄俄尼索斯的朋友表示盛情和怜悯。 然后迈达斯问他碰到的一切都变成了金子 。 他从新的力量中洋溢着喜悦:橡树枝,石头和花园里的玫瑰-他的触摸使一切变成了金子。 但是他很快发现了自己的欲望的愚蠢:甚至食物和饮料在他的手中也变成了金子。 在这个故事的某些版本中,甚至他的女儿也成了福气的受害者,原来福气是祸。

这个故事说明了规格问题:如何正确表达我们的愿望? 规范应确保AI系统努力按照创建者的真实意愿进行操作,并且不会调整到定义不明确甚至不正确的目标。 正式区分了三种类型的规范:

  • 理想规范 (“ 愿望 ”),与理想AI系统的假设(但难以表述)描述相对应,完全符合操作员的需求;
  • 项目规范 (“ 蓝图 ”),我们实际用于创建AI系统的相应规范,例如特定的奖励函数,以最大程度地编程强化学习系统;
  • 确定的规范 (“ 行为 ”),它最能描述系统的实际行为 。 例如,在观察系统行为后,通过反向工程确定奖励函数(反向强化学习)。 这种奖励功能和规范通常与操作员编程的奖励功能和规范不同,这是因为AI系统不是理想的优化器,或者由于使用设计规范会产生其他无法预料的后果。

理想规范与已识别规范之间存在差异时,即AI系统无法满足我们的要求时,就会出现规范问题 。 从AI的技术安全性角度研究问题意味着:如何设计更基本的目标功能以及如何帮助代理商确定目标是否未定义? 如果问题导致理想规范和设计规范之间不匹配,则它们将归入“设计”子类别;如果问题在设计与已确定的规范之间,则将其归入“紧急”子类别。

例如,在我们的科学文章AI Safety Gridworlds (与本文相比,在其中给出了规格和可靠性问题的其他定义),我们为代理商提供了优化的奖励函数,但随后我们通过“安全绩效函数”评估其实际绩效,对代理商隐藏的 这样的系统对指示的差异进行建模:安全功能是理想规范,被错误地表述为奖励功能(设计规范),然后由代理创建实现,该规范通过其结果策略隐式披露,从而实现。


从OpenAI 在野外的错误奖励功能中 :强化学习代理发现了随机的策略以获得更多的积分。

再举一个例子,考虑一下我们由OpenAI的同事分析过的CoastRunners游戏(请参见上面的“有缺陷的野生动物奖励功能”中的动画)。 对于我们大多数人来说,游戏的目标是快速完成比赛并超越其他玩家-这是我们的理想规格。 但是,很难将此目标转换为确切的奖励功能,因此CoastRunners奖励沿路线达到目标的玩家(设计规范)。 训练特工进行强化训练会导致令人惊奇的行为:特工控制船围成一圈,以捕获重新出现的目标,反复坠毁并着火,而不是结束比赛。 根据这种行为,我们得出结论(确定的规范),即游戏中瞬时奖励和完整圈子奖励之间的平衡被打破。 还有更多类似的示例 ,其中AI系统在其客观规范中发现了漏洞。

可靠性:设计抵制违规的系统


可靠性确保AI系统在发生干扰时继续安全运行


在AI系统运行的实际条件下,始终存在一定程度的风险,不可预测性和波动性。 人工智能系统必须能够抵抗意外事件和会损坏或操纵这些系统的敌对攻击。 人工智能系统的可靠性研究旨在确保我们的代理无论出现在何种情况下,都处于安全范围之内。 这可以通过避免风险( 预防 )或自我稳定和平稳降级( 恢复 )来实现。 由分布转移敌对输入 (对抗输入)和不安全探索 (不安全探索)引起的安全性问题可以归类为可靠性问题。

为了说明解决分配转移问题的方法,请考虑一个家用清洁机器人,该机器人通常清洁不带宠物的房间。 然后,机器人与宠物一起被送入房屋-清洁过程中人工智能与之碰撞。 以前从未见过猫和狗的机器人会用肥皂洗净,这将导致不良后果( Amodei和Olah等人,2016年 )。 这是可靠性问题的一个示例,当测试过程中的数据分布与训练过程中的分布不同时,可能会出现可靠性问题。


来自AI Safety Gridworlds的工作。 代理学会了避免熔岩,但是当在新的情况下进行测试时,当熔岩的位置发生变化时,他无法概括知识,而是直接进入熔岩

恶意输入是分配转移的一种特殊情况,在这种情况下,输入数据经过特殊设计以欺骗AI系统。


叠加在普通图像上的敌对条目会使分类器将树懒识别为赛车。 这两个图像在每个像素中的最大差异为0.0078。 第一个被分类为三指树懒,概率超过99%。 第二个-像赛车一样,概率超过99%

不安全的研究可以通过一个系统来证明,该系统试图在不影响研究过程中安全性的前提下最大化其性能和目标,因为它可以在环境中学习和检查。 例如,机器人清洁器将湿拖把插入电源插座,研究最佳清洁策略( García和Fernández,2015年Amodei和Olah等人,2016年 )。

保证:监视和控制系统活动


保证使我们有信心在操作过程中能够理解和控制AI系统


尽管经过深思熟虑的安全预防措施可以消除许多风险,但是从一开始就很难做所有事情。 调试AI系统后,我们需要用于对其进行持续监视和配置的工具。 我们的最后一个类别,保证,从两个角度解决了这些问题: 监视和执行。

监视包括使用人工检查(摘要统计信息)和使用自动检查(分析大量日志)检查系统分析和预测其行为的所有方法。 另一方面, 提交涉及控制机制的发展和对系统行为的限制。 诸如可解释性不连续性之类的问题分别属于控制和提交的子类别。

人工智能系统的外观或处理数据的方式与我们都不相似。 这产生了可解释性问题。 精心设计的测量工具和协议可让您评估人工智能系统做出的决策的质量( Doshi-Velez和Kim,2017年 )。 例如,理想情况下,医学人工智能系统将做出诊断以及对如何得出此结论的解释-以便医生可以从头到尾检查推理过程( De Fauw et al。,2018 )。 此外,为了了解更复杂的人工智能系统,我们甚至可以使用自动方法来构建基于心理机器理论的行为模型( Rabinowitz等,2018 )。


ToMNet检测代理的两个亚种并预测其行为(来自“机器心理理论”

最后,我们希望能够在必要时禁用AI系统。 这是一个不连续性问题。 设计一个可靠的开关非常困难:例如,因为具有奖励最大化的AI系统通常有强烈的动机来防止这种情况发生( Hadfield-Menell等人,2017年 ); 而且由于此类中断(尤其是频繁中断)最终会改变原先的任务,从而迫使AI系统从经验中得出错误的结论( Orseau和Armstrong,2016年 )。


中断的问题:人为干预(例如,按停止按钮)可以更改任务。 在该图中,该中断向Markov决策过程添加了一个过渡(红色),从而更改了原始任务(黑色)。 参见Orseau和Armstrong,2016年

展望未来


我们正在建立该技术的基础,该技术将在将来用于许多重要的应用程序。 应该牢记的是,在技术普及后,启动系统时对安全性不重要的一些解决方案可能会变成这样。 尽管有时为了方便起见将这些模块集成到系统中,但是如果不进行完整的重构,将很难解决已出现的问题。

可以举出计算机科学史上的两个例子:这是空指针(Tony Hoar 称其为“十亿美元的错误”) ,以及使用C语言的gets()过程。如果早期的编程语言在设计时就考虑到安全性,则进展会变慢,但很可能这将对现代信息安全产生非常积极的影响。

现在,经过仔细考虑并计划了一切,我们可以避免类似的问题和漏洞。 我们希望本文中的问题分类将为此类方法规划提供有用的基础。 我们努力确保将来的AI系统不仅能以“希望安全”的原则运行,而且能真正可靠且可验证的安全,因为我们是这样建立的!

我们期待与更广泛的AI研究社区密切合作,在这些领域继续取得令人振奋的进展,并鼓励来自各个领域的人们考虑为AI安全研究做出贡献。

资源资源


要阅读该主题,以下是其他一些文章,程序和分类法的选择,这些文章,程序和分类法已帮助我们汇编了分类或提供了关于AI技术安全性问题的有用替代视图:

Source: https://habr.com/ru/post/zh-CN425387/


All Articles