Construire une IA sûre: spécifications, fiabilité et garanties

Parmi les auteurs de l'article figurent des employés de l'équipe de sécurité de l'intelligence artificielle (équipe de sécurité) de la société DeepMind.

Construire une fusée est difficile. Chaque composant nécessite une étude et des tests minutieux, tandis que la sécurité et la fiabilité sont au cœur. Les scientifiques et ingénieurs Rocket se réunissent pour concevoir tous les systèmes: de la navigation au contrôle, en passant par les moteurs et les châssis. Une fois que toutes les pièces sont assemblées et les systèmes vérifiés, ce n'est qu'alors que nous pouvons embarquer des astronautes avec la certitude que tout ira bien.

Si l'intelligence artificielle (IA) est une fusée , alors un jour nous aurons tous des billets à bord. Et, comme les fusées, la sécurité est un élément important de la création de systèmes d'intelligence artificielle. La sécurité nécessite une conception minutieuse du système à partir de zéro pour garantir que les différents composants fonctionnent ensemble comme prévu, tout en créant en même temps tous les outils pour surveiller le bon fonctionnement du système après sa mise en service.

À un niveau élevé, la recherche sur la sécurité chez DeepMind se concentre sur la conception de systèmes fiables tout en détectant et en atténuant les risques possibles à court et à long terme. La sécurité technique de l'IA est un domaine relativement nouveau mais en développement rapide, dont le contenu varie d'un niveau théorique élevé à des recherches empiriques et spécifiques. Le but de ce blog est de contribuer au développement du domaine et d'encourager une conversation de fond sur les idées techniques, favorisant ainsi notre compréhension collective de la sécurité de l'IA.

Dans le premier article, nous aborderons trois domaines de la sécurité technique de l'IA: les spécifications , la fiabilité et les garanties . Les futurs articles correspondront généralement aux limites décrites ici. Bien que nos vues changent inévitablement au fil du temps, nous pensons que ces trois domaines couvrent un spectre suffisamment large pour fournir une catégorisation utile pour la recherche actuelle et future.


Trois domaines problématiques de la sécurité de l'IA. Chaque bloc répertorie certains problèmes et approches pertinents. Ces trois zones ne sont pas isolées, mais interagissent entre elles. En particulier, un problème de sécurité particulier peut inclure plusieurs problèmes de blocage.

Spécifications: définition des tâches système


Les spécifications garantissent que le comportement du système AI est conforme aux véritables intentions de l'opérateur


Vous connaissez peut-être le mythe du roi Midas et la touche dorée. Dans l'une des options, le dieu grec Dionysos a promis à Midas toute récompense qu'il souhaitait, en remerciement du fait que le roi ait fait de son mieux pour montrer hospitalité et miséricorde à l'ami de Dionysos. Midas a alors demandé que tout ce qu'il touche se transforme en or . Il était hors de lui avec joie de ce nouveau pouvoir: une branche de chêne, une pierre et des roses dans le jardin - tout s'est transformé en or à son contact. Mais il découvrit bientôt la stupidité de son désir: même la nourriture et les boissons se transformaient en or entre ses mains. Dans certaines versions de l'histoire, même sa fille a été victime d'une bénédiction qui s'est avérée être une malédiction.

Cette histoire illustre le problème du cahier des charges: comment formuler correctement nos envies? Les spécifications doivent garantir que le système d'IA s'efforce d'agir conformément aux véritables souhaits du créateur et ne correspond pas à une cible mal définie ou même incorrecte. Trois types de spécifications sont formellement distingués:

  • spécification idéalesouhaits »), correspondant à une description hypothétique (mais difficile à formuler) d'un système d'IA idéal, parfaitement conforme aux désirs de l'opérateur humain;
  • spécification de projet (" blueprint "), la spécification correspondante que nous utilisons réellement pour créer un système d'IA, par exemple, une fonction de rémunération spécifique, afin de maximiser la programmation d'un système d'apprentissage par renforcement;
  • spécification identifiée (" comportement "), qui décrit le mieux le comportement réel du système. Par exemple, la fonction de récompense identifiée à la suite de l'ingénierie inverse après avoir observé le comportement du système (apprentissage par renforcement inverse). Cette fonction de récompense et cette spécification sont généralement différentes de celles programmées par l'opérateur car les systèmes d'IA ne sont pas des optimiseurs idéaux ou en raison d'autres conséquences imprévues de l'utilisation de la spécification de conception.

Le problème de spécification se pose lorsqu'il existe une divergence entre la spécification idéale et la spécification identifiée , c'est-à-dire lorsque le système d'IA ne fait pas ce que nous voulons d'elle. Étudier le problème du point de vue de la sécurité technique de l'IA signifie: comment concevoir des fonctions cibles plus fondamentales et générales et aider les agents à déterminer si les objectifs ne sont pas définis? Si les problèmes donnent lieu à une inadéquation entre l'idéal et les spécifications de conception, ils tombent alors dans la sous-catégorie "Conception", et si entre la conception et ceux identifiés, alors dans la sous-catégorie "Emergence".

Par exemple, dans notre article scientifique AI Safety Gridworlds (qui fournit différentes définitions des spécifications et des problèmes de fiabilité par rapport à cet article), nous donnons aux agents une fonction de récompense pour l'optimisation, mais ensuite nous évaluons leurs performances réelles par la «fonction de performance de sécurité», qui est caché aux agents. Un tel système modélise les différences indiquées: la fonction de sécurité est une spécification idéale, qui est incorrectement formulée comme une fonction de récompense (spécification de conception), puis est mise en œuvre par les agents créant une spécification qui est implicitement divulguée par le biais de leur politique résultante.


Des fonctions de récompense défectueuses d' OpenAI dans la nature : un agent d'apprentissage par renforcement a trouvé une stratégie aléatoire pour plus de points

Comme autre exemple, considérons le jeu CoastRunners, qui a été analysé par nos collègues d'OpenAI (voir l'animation ci-dessus de «Defective Wildlife Reward Functions»). Pour la plupart d'entre nous, le but du jeu est de terminer rapidement la piste et de devancer les autres joueurs - c'est notre spécification idéale. Cependant, traduire cet objectif en une fonction de récompense exacte est difficile, donc CoastRunners récompense les joueurs (spécifications de conception) pour avoir atteint l'objectif le long du parcours. Entraîner un agent à jouer avec une formation de renforcement conduit à un comportement incroyable: l'agent contrôle le bateau en cercle pour capturer les cibles qui réapparaissent, s'écraser et prendre feu à plusieurs reprises, plutôt que de mettre fin à la course. De ce comportement, nous concluons (spécification identifiée) que dans le jeu l'équilibre entre la récompense instantanée et la récompense en cercle complet est rompu. Il existe de nombreux autres exemples similaires où les systèmes d'IA trouvent des failles dans leur spécification d'objectif.

Fiabilité: concevoir des systèmes qui résistent aux violations


La fiabilité garantit que le système AI continue de fonctionner en toute sécurité en cas d'interférence


Dans des conditions réelles, où les systèmes d'IA fonctionnent, il y a toujours un certain niveau de risque, d'imprévisibilité et de volatilité. Les systèmes d'intelligence artificielle doivent être résistants aux événements imprévus et aux attaques hostiles qui peuvent endommager ou manipuler ces systèmes. Les études de fiabilité des systèmes d'intelligence artificielle visent à garantir que nos agents restent dans des limites sûres, quelles que soient les conditions émergentes. Cela peut être réalisé en évitant les risques ( prévention ) ou par l'auto-stabilisation et la dégradation en douceur ( récupération ). Les problèmes de sécurité résultant du changement de distribution , des intrants hostiles (intrusions contradictoires) et de l'exploration non sûre (exploration non sûre) peuvent être classés comme des problèmes de fiabilité.

Pour illustrer la solution au problème du changement de distribution , considérons un robot de nettoyage domestique qui nettoie généralement les pièces sans animaux. Ensuite, le robot a été lancé dans la maison avec l'animal - et l'intelligence artificielle est entrée en collision avec lui pendant le nettoyage. Un robot qui n'a jamais vu de chats et de chiens auparavant le lavera avec du savon, ce qui entraînera des résultats indésirables ( Amodei et Olah et al., 2016 ). Il s'agit d'un exemple de problème de fiabilité qui peut survenir lorsque la distribution des données pendant le test diffère de la distribution pendant la formation.


Issu du travail de AI Safety Gridworlds . L'agent apprend à éviter la lave, mais lors de tests dans une nouvelle situation, lorsque l'emplacement de la lave a changé, il n'est pas en mesure de généraliser les connaissances - et se jette directement dans la lave

L'entrée hostile est un cas spécifique d'un changement de distribution où les données d'entrée sont spécialement conçues pour tromper le système d'IA.


Une entrée hostile superposée à des images ordinaires peut amener le classificateur à reconnaître le paresseux comme une voiture de course. Les deux images diffèrent par un maximum de 0,0078 dans chaque pixel. Le premier est classé comme un paresseux à trois doigts avec une probabilité de plus de 99%. La seconde - comme une voiture de course avec une probabilité de plus de 99%

Une recherche dangereuse peut être démontrée par un système qui cherche à maximiser ses performances et ses objectifs sans garantir que la sécurité ne sera pas compromise pendant l'étude, car il apprend et examine dans son environnement. Un exemple est un robot nettoyeur qui met une vadrouille humide dans une prise électrique, étudiant les stratégies de nettoyage optimales ( García et Fernández, 2015 ; Amodei et Olah et al., 2016 ).

Garanties: surveillance et contrôle de l'activité du système


L'assurance donne confiance que nous sommes capables de comprendre et de contrôler les systèmes d'IA pendant le fonctionnement


Bien que des mesures de sécurité bien pensées puissent éliminer de nombreux risques, il est difficile de tout faire dès le départ. Après la mise en service des systèmes d'IA, nous avons besoin d'outils pour leur surveillance et leur configuration constantes. Notre dernière catégorie, l'assurance, aborde ces questions sous deux angles: la surveillance et l'application.

La surveillance comprend toutes les méthodes de vérification des systèmes pour analyser et prédire leur comportement, à la fois à l'aide d'une inspection humaine (statistiques récapitulatives) et d'une inspection automatisée (pour analyser un grand nombre de journaux). D'un autre côté, la soumission implique le développement de mécanismes de contrôle et de restrictions sur le comportement des systèmes. Des problèmes tels que l' interprétabilité et la discontinuité appartiennent respectivement aux sous-catégories de contrôle et de soumission.

Les systèmes d'intelligence artificielle ne nous ressemblent ni par leur apparence ni par la façon dont ils traitent les données. Cela crée des problèmes d' interprétabilité . Des outils et des protocoles de mesure bien conçus vous permettent d'évaluer la qualité des décisions prises par le système d'intelligence artificielle ( Doshi-Velez et Kim, 2017 ). Par exemple, un système d'intelligence artificielle médicale ferait idéalement un diagnostic avec une explication de la façon dont il est arrivé à cette conclusion - afin que les médecins puissent vérifier le processus de raisonnement du début à la fin ( De Fauw et al., 2018 ). De plus, pour comprendre des systèmes d'intelligence artificielle plus complexes, nous pourrions même utiliser des méthodes automatisées pour construire des modèles de comportement en utilisant la théorie de la machine de l'esprit ( Rabinowitz et al., 2018 ).


ToMNet détecte deux sous-espèces d'agents et prédit leur comportement (à partir de la «théorie de la machine de l'esprit» )

Enfin, nous voulons pouvoir désactiver le système AI si nécessaire. Il s'agit d'un problème de discontinuité . La conception d'un commutateur fiable est très difficile: par exemple, parce qu'un système d'IA avec maximisation des récompenses est généralement fortement incité à empêcher cela ( Hadfield-Menell et al., 2017 ); et parce que de telles interruptions, en particulier des interruptions fréquentes, changent finalement la tâche d'origine, forçant le système d'IA à tirer des conclusions incorrectes de l'expérience ( Orseau et Armstrong, 2016 ).


Le problème des interruptions: l'intervention humaine (c.-à-d. En appuyant sur le bouton d'arrêt) peut changer la tâche. Sur la figure, l'interruption ajoute une transition (en rouge) au processus décisionnel de Markov, qui modifie la tâche d'origine (en noir). Voir Orseau et Armstrong, 2016

Tourné vers l'avenir


Nous jetons les bases de la technologie qui sera utilisée à l'avenir pour de nombreuses applications importantes. Il convient de garder à l'esprit que certaines solutions qui ne sont pas essentielles à la sécurité lors du démarrage du système peuvent le devenir lorsque la technologie se généralise. Bien qu'à un moment donné ces modules aient été intégrés dans le système pour plus de commodité, les problèmes qui se sont posés seront difficiles à résoudre sans une reconstruction complète.

Deux exemples tirés de l'histoire de l'informatique peuvent être cités: il s'agit du pointeur nul, que Tony Hoar a appelé son "erreur d'un milliard de dollars" , et de la procédure gets () en C. Si les premiers langages de programmation étaient conçus en pensant à la sécurité, les progrès ralentiraient, mais il est probable que cela aurait un effet très positif sur la sécurité de l'information moderne.

Maintenant, après avoir soigneusement pensé et planifié tout, nous pouvons éviter des problèmes et des vulnérabilités similaires. Nous espérons que la catégorisation des problèmes de cet article servira de base utile pour une telle planification méthodologique. Nous nous efforçons de faire en sorte qu'à l'avenir, les systèmes d'IA fonctionnent non seulement sur le principe de "j'espère sûr", mais aussi vraiment fiables et vérifiables, car nous les avons construits de cette façon!

Nous sommes impatients de poursuivre des progrès passionnants dans ces domaines, en étroite collaboration avec l'ensemble de la communauté de la recherche sur l'IA, et encourageons les personnes de diverses disciplines à envisager de contribuer à la recherche sur la sécurité de l'IA.

Les ressources


Pour lire sur ce sujet, voici une sélection d'autres articles, programmes et taxonomies qui nous ont aidés à compiler notre catégorisation ou à fournir un regard alternatif utile sur les problèmes de sécurité technique de l'IA:

Source: https://habr.com/ru/post/fr425387/


All Articles