🎈 ⌚️ ✴️ Suggestions de vulnérabilités et de protection des modèles d'apprentissage automatique 👃🏿 🔛 👨🏼‍⚕️

Récemment, des experts se penchent de plus en plus sur la question de la sécurité des modèles d'apprentissage automatique et proposent diverses méthodes de protection. Il est temps d'étudier en détail les vulnérabilités et défenses potentielles dans le contexte des systèmes de modélisation traditionnels populaires, tels que les modèles linéaires et arborescents, formés sur des ensembles de données statiques. Bien que l'auteur de cet article ne soit pas un expert en sécurité, il suit attentivement des sujets tels que le débogage, les explications, l'équité, l'interprétabilité et la confidentialité dans l'apprentissage automatique.

Dans cet article, nous présentons plusieurs vecteurs probables d'attaques sur un système d'apprentissage automatique typique dans une organisation typique, proposons des solutions de protection provisoires et examinons certains problèmes courants et les pratiques les plus prometteuses.

1. Attaques de corruption de données

La distorsion des données signifie que quelqu'un modifie systématiquement les données d'entraînement pour manipuler les prédictions de votre modèle (de telles attaques sont également appelées attaques «causales»). Pour déformer des données, un attaquant doit avoir accès à tout ou partie de vos données d'entraînement. Et en l'absence d'un contrôle approprié dans de nombreuses entreprises, différents employés, consultants et entrepreneurs peuvent avoir un tel accès. Un accès non autorisé à tout ou partie des données d'entraînement peut également être obtenu par un attaquant en dehors du périmètre de sécurité.

Une attaque directe contre les données corrompues peut inclure la modification des étiquettes des ensembles de données. Ainsi, quelle que soit l'utilisation commerciale de votre modèle, un attaquant peut gérer ses prévisions, par exemple, en changeant les étiquettes afin que votre modèle puisse apprendre à accorder des prêts importants, des remises importantes ou à établir de petites primes d'assurance pour les attaquants. Obliger un modèle à faire de fausses prédictions dans l'intérêt d'un attaquant est parfois qualifié de violation de l '"intégrité" du modèle.

Un attaquant peut également utiliser la corruption de données pour entraîner votre modèle dans le but de discriminer délibérément un groupe de personnes, en les privant d'un prêt important, de remises importantes ou de primes d'assurance basses auxquelles ils ont droit. À la base, cette attaque est similaire à DDoS. Obliger un modèle à faire de fausses prédictions afin de nuire à autrui est parfois qualifié de violation de l '«accessibilité» du modèle.

Bien qu'il puisse sembler qu'il soit plus facile de déformer les données que de modifier les valeurs dans les lignes existantes d'un ensemble de données, vous pouvez également introduire des distorsions en ajoutant des colonnes apparemment inoffensives ou supplémentaires à l'ensemble de données. Les valeurs modifiées dans ces colonnes peuvent alors entraîner la modification des prévisions du modèle.

Voyons maintenant quelques solutions de protection et expert (médico-légales) possibles en cas de corruption de données:

Analyse d'impact différenciée . De nombreuses banques effectuent déjà une analyse d' impact différentiel pour des prêts équitables afin de déterminer si leur modèle est discriminé par différentes catégories de personnes. Cependant, de nombreuses autres organisations ne sont pas encore arrivées à ce jour. Il existe plusieurs excellents outils open source pour détecter la discrimination et effectuer une analyse d'impact différentiel. Par exemple, Aequitas, Themis et AIF360 .
Modèles équitables ou privés . Des modèles tels que l'apprentissage des représentations justes (LFR) et l'agrégation privée des ensembles d'enseignants (PATE) ont tendance à accorder moins d'attention aux propriétés démographiques individuelles lors de la génération de prévisions. De plus, ces modèles peuvent être moins sensibles aux attaques discriminatoires afin de fausser les données.
Rejet sur impact négatif (RONI) . RONI est une méthode de suppression des lignes de données d'un ensemble de données qui réduit la précision des prédictions. Pour plus d'informations sur RONI, reportez-vous à la Section 8, Sécurité de l'apprentissage automatique .
Analyse résiduelle . Recherchez des modèles étranges et perceptibles dans les résidus de vos prévisions de modèle, en particulier ceux liés aux employés, consultants ou entrepreneurs.
Auto-réflexion . Évaluez les modèles de vos employés, consultants et sous-traitants pour identifier les prévisions anormalement favorables.

Une analyse d'impact différenciée, une analyse résiduelle et une auto-réflexion peuvent être réalisées pendant la formation et dans le cadre du suivi en temps réel des modèles.

2. Attaques par filigrane

Un filigrane est un terme emprunté à la littérature sur la sécurité de l'apprentissage en profondeur, qui se réfère souvent à l'ajout de pixels spéciaux à l'image pour obtenir le résultat souhaité de votre modèle. Il est tout à fait possible de faire de même avec les données des clients ou des transactions.

Considérez un scénario dans lequel un employé, un consultant, un entrepreneur ou un attaquant de l'extérieur a accès au code pour la production-utilisation de votre modèle qui fait des prévisions en temps réel. Une telle personne peut modifier le code pour reconnaître une combinaison étrange ou improbable de valeurs de variable d'entrée pour obtenir le résultat de prédiction souhaité. Tout comme la corruption de données, les attaques par filigrane peuvent être utilisées pour violer l'intégrité ou l'accessibilité de votre modèle. Par exemple, afin de violer l'intégrité, un attaquant peut insérer une "charge utile" dans le code d'évaluation pour l'utilisation en production du modèle, à la suite de quoi il reconnaît une combinaison de 0 ans à l'adresse 99, ce qui conduira à des prévisions positives pour l'attaquant. Et pour bloquer la disponibilité du modèle, il peut insérer une règle de discrimination artificielle dans le code d'évaluation, ce qui ne permettra pas au modèle de donner des résultats positifs pour un certain groupe de personnes.

Les approches protectrices et expertes des attaques utilisant des filigranes peuvent inclure:

Détection d'anomalie . Autocoders est un modèle de détection de fraude qui peut identifier les entrées complexes et étranges, ou pas comme les autres données. Les auto-encodeurs peuvent potentiellement détecter les filigranes utilisés pour déclencher des mécanismes malveillants.
Limitations de l'intégrité des données . De nombreuses bases de données ne permettent pas de combinaisons étranges ou irréalistes de variables d'entrée, ce qui pourrait potentiellement empêcher les attaques de filigrane. Le même effet peut fonctionner pour les contraintes d'intégrité des flux de données qui sont reçus en temps réel.
Analyse d'exposition différenciée : voir section 1 .
Contrôle de version . Le code d'évaluation de l'application de production du modèle doit être versionné et contrôlé, comme tout autre produit logiciel critique.

La détection d'anomalies, les limites d'intégrité des données et l'analyse d'impact différentiel peuvent être utilisées pendant la formation et dans le cadre de la surveillance du modèle en temps réel.

3. Inversion des modèles de substitution

Habituellement, «inversion» est appelée obtenir des informations non autorisées à partir d'un modèle, plutôt que d'y placer des informations. En outre, l'inversion peut être un exemple d'une «attaque de reconnaissance en ingénierie inverse». Si un attaquant est en mesure d'obtenir de nombreuses prédictions à partir de l'API de votre modèle ou d'un autre point de terminaison (site Web, application, etc.), il peut former son propre modèle de substitution . Autrement dit, il s'agit d'une simulation de votre modèle prédictif! Théoriquement, un attaquant peut entraîner un modèle de substitution entre les données d'entrée utilisées pour générer les prévisions reçues et les prévisions elles-mêmes. Selon le nombre de prédictions pouvant être reçues, le modèle de substitution peut devenir une simulation assez précise de votre modèle. Après avoir entraîné le modèle de substitution, l'attaquant disposera d'un «bac à sable» à partir duquel il pourra planifier une impersonnalisation (c'est-à-dire une «imitation») ou une attaque avec un exemple concurrentiel sur l'intégrité de votre modèle, ou gagner le potentiel de commencer à récupérer certains aspects de vos données d'entraînement confidentielles. Les modèles de substitution peuvent également être formés à l'aide de sources de données externes qui sont en quelque sorte cohérentes avec vos prévisions, comme, par exemple, ProPublica l'a fait avec le modèle de récidive de l'auteur COMPAS.

Pour protéger votre modèle contre l'inversion à l'aide d'un modèle de substitution, vous pouvez compter sur de telles approches:

Accès autorisé . Demandez une authentification supplémentaire (par exemple, à deux facteurs) pour obtenir une prévision.
Prédictions des gaz Limitez un grand nombre de prévisions rapides d'utilisateurs individuels; envisager la possibilité d'augmenter artificiellement les délais de prédiction.
Modèles de substitution «blanc» (chapeau blanc) . En tant qu'exercice de piratage blanc, essayez ce qui suit: entraînez vos propres modèles de substitution entre vos prévisions d'entrée et de modèle pour une application de production, et observez attentivement les aspects suivants:
- limites d'exactitude de divers types de modèles de substitution «blancs»; essayez de comprendre dans quelle mesure le modèle de substitution peut réellement être utilisé pour obtenir des données indésirables sur votre modèle.
- types de tendances de données qui peuvent être apprises à partir de votre modèle de substitution «blanc», par exemple, les tendances linéaires représentées par des coefficients de modèle linéaire.
- types de segments ou distributions démographiques qui peuvent être étudiés en analysant le nombre de personnes affectées à certains nœuds de l'arbre de décision de substitution «blanc».
- les règles qui peuvent être tirées de l'arbre de décision de substitution «blanc», par exemple, comment représenter avec précision une personne qui recevra une prévision positive.

4. Attaques de rivalité

En théorie, un pirate informatique dédié peut apprendre - par exemple, essais et erreurs (c.-à-d. «Intelligence» ou «analyse de sensibilité») - inverser un modèle de substitution ou une ingénierie sociale, comment jouer avec votre modèle pour obtenir le résultat de prédiction souhaité ou éviter les effets indésirables prévisions. Tenter d'atteindre ces objectifs à l'aide d'une chaîne de données spécialement conçue est appelé une attaque contradictoire. (parfois une attaque pour enquêter sur l'intégrité). Un attaquant peut utiliser une attaque contradictoire pour obtenir un prêt important ou une prime d'assurance faible, ou pour éviter un refus de libération conditionnelle avec une évaluation élevée du risque criminel. Certaines personnes appellent l'utilisation d'exemples concurrentiels pour exclure un résultat indésirable d'une prévision comme «évasion».

Essayez les méthodes décrites ci-dessous pour défendre ou détecter une attaque avec un exemple concurrentiel:

Analyse d'activation . L'analyse d'activation nécessite que vos modèles prédictifs disposent de mécanismes internes comparatifs, par exemple, l'activation moyenne des neurones dans votre réseau neuronal ou la proportion d'observations liées à chaque nœud terminal de votre forêt aléatoire. Ensuite, vous comparez ces informations avec le comportement du modèle avec des flux de données entrants réels. Comme l’a dit un de mes collègues: « C’est la même chose que de voir un nœud final dans une forêt aléatoire qui correspond à 0,1% des données de formation, mais convient à 75% des lignes de score par heure .»
Détection d'anomalie . voir section 2 .
Accès autorisé . voir section 3 .
Modèles comparatifs . Lors de l'évaluation de nouvelles données, en plus d'un modèle plus complexe, utilisez un modèle comparatif à haute transparence. Les modèles interprétés sont plus difficiles à déchiffrer car leurs mécanismes sont transparents. Lors de l'évaluation de nouvelles données, comparez le nouveau modèle avec un modèle transparent fiable ou un modèle formé sur des données vérifiées et sur un processus de confiance. Si la différence entre le modèle plus complexe et opaque et le modèle interprété (ou vérifié) est trop grande, revenez aux prévisions du modèle conservateur ou traitez la ligne de données manuellement. Enregistrez cet incident, il pourrait s'agir d'une attaque avec un exemple compétitif.
Prévision des gaz : voir section 3 .
Analyse de sensibilité "blanche" . Utilisez l'analyse de sensibilité pour mener vos propres attaques de recherche afin de comprendre quelles valeurs variables (ou combinaisons d'entre elles) peuvent provoquer de grandes fluctuations dans les prévisions. Recherchez ces valeurs ou combinaisons de valeurs lors de l'évaluation de nouvelles données. Pour effectuer une analyse de recherche «blanche», vous pouvez utiliser le package open source cleverhans .
Modèles de substitution blancs: voir section 3 .

L'analyse d'activation ou des modèles comparatifs peuvent être utilisés pendant la formation et dans le cadre du suivi en temps réel des modèles.

5. Impersonnalisation

Un pirate intentionnel peut découvrir - encore une fois, par essais et erreurs, par inversion avec un modèle de substitution ou une ingénierie sociale - qui saisissent des données ou des personnes spécifiques obtiennent le résultat de prédiction souhaité. Un attaquant peut alors se faire passer pour cette personne pour bénéficier des prévisions. Les attaques par impersonnalisation sont parfois appelées attaques «simulées» et, du point de vue du modèle, cela rappelle le vol d'identité. Comme dans le cas d'un exemple d'attaque concurrentielle, avec l'impersonnalisation, les données d'entrée sont modifiées artificiellement en fonction de votre modèle. Mais, contrairement à la même attaque avec un exemple concurrentiel, dans lequel une combinaison potentiellement aléatoire de valeurs peut être utilisée pour tromper, en impersonnalisation, pour obtenir les prévisions associées à ce type d'objet, des informations associées à un autre objet modélisé (par exemple, un client condamné , employé, transaction financière, patient, produit, etc.). Supposons qu'un attaquant puisse découvrir de quelles caractéristiques de votre modèle dépend la fourniture de remises ou d'avantages importants. Ensuite, il peut falsifier les informations que vous utilisez pour obtenir une telle remise. Un attaquant peut partager sa stratégie avec d'autres, ce qui peut entraîner des pertes importantes pour votre entreprise.

Si vous utilisez un modèle à deux étapes, méfiez-vous d'une attaque «allergique»: un attaquant peut simuler une chaîne de données d'entrée ordinaires pour la première étape de votre modèle afin d'attaquer sa deuxième étape.

Les approches protectrices et expertes pour les attaques avec impersonnalisation peuvent inclure:

Analyse d'activation. voir section 4 .
Accès autorisé. voir section 3 .
Vérifiez les doublons. À l'étape de la notation, suivez le nombre d'enregistrements similaires pour lesquels votre modèle est disponible. Cela peut être fait dans un espace dimensionnel réduit en utilisant des autocodeurs, une mise à l'échelle multidimensionnelle (MDS) ou des méthodes de réduction dimensionnelle similaires. S'il y a trop de lignes similaires dans une période de temps donnée, prenez des mesures correctives.
Fonctions de notification des menaces. Enregistrez la fonction num_similar_queries dans votre pipeline, qui peut être inutile immédiatement après la formation ou la mise en œuvre de votre modèle, mais peut être utilisée lors de l'évaluation (ou lors d'une nouvelle formation) pour notifier le modèle ou le pipeline des menaces. Par exemple, si au moment de l'évaluation, la valeur de num_similar_queries supérieure à zéro, la demande d'évaluation peut être envoyée pour analyse manuelle. À l'avenir, lorsque vous num_similar_queries le modèle, vous pourrez lui apprendre à produire des résultats de prédiction négatifs pour les lignes d'entrée avec un num_similar_queries élevé de num_similar_queries .

L'analyse d'activation, la vérification des doublons et la notification des menaces potentielles peuvent être utilisées pendant la formation et dans la surveillance des modèles en temps réel.

6. Problèmes courants

Certaines utilisations courantes de l'apprentissage automatique posent également des problèmes de sécurité plus généraux.

Boîtes noires et complexité inutile . Bien que les progrès récents des modèles interprétés et des explications des modèles permettent d'utiliser des classificateurs et des régresseurs non linéaires précis et transparents, de nombreux processus d'apprentissage automatique continuent de se concentrer sur les modèles de boîte noire. Ils ne sont qu'un type de complexité souvent inutile dans le flux de travail standard de l'apprentissage automatique commercial. D'autres exemples de complexité potentiellement nuisible peuvent être des spécifications trop exotiques ou un grand nombre de dépendances de package. Cela peut être un problème pour au moins deux raisons:

Un pirate persistant et motivé peut en savoir plus sur votre système de simulation de boîte noire trop complexe que vous ou votre équipe (en particulier sur le marché actuel en surchauffe et en évolution rapide pour «analyser» les données). Pour cela, un attaquant peut utiliser de nombreuses nouvelles méthodes d'explication indépendantes du modèle et une analyse de sensibilité classique, à part de nombreux autres outils de piratage plus courants. Ce déséquilibre des connaissances peut potentiellement être utilisé pour mener à bien les attaques décrites dans les sections 1 à 5, ou pour d'autres types d'attaques encore inconnus.
L'apprentissage automatique dans les environnements de recherche et développement dépend fortement d'un écosystème diversifié de progiciels open source. Certains de ces forfaits comptent de nombreux participants et utilisateurs, d'autres sont hautement spécialisés et sont nécessaires à un petit cercle de chercheurs et de praticiens. Il est connu que de nombreux packages sont pris en charge par de brillants statisticiens et chercheurs en apprentissage automatique qui se concentrent sur les mathématiques ou les algorithmes, plutôt que sur le génie logiciel et certainement pas sur la sécurité. Il existe de nombreux cas où le pipeline d'apprentissage automatique dépend de dizaines, voire de centaines de packages externes, dont chacun peut être piraté pour masquer une «charge utile» malveillante.

Systèmes et modèles distribués . Heureusement ou malheureusement, nous vivons à une époque de mégadonnées. De nombreuses organisations utilisent aujourd'hui des systèmes distribués de traitement de données et d'apprentissage automatique. L'informatique distribuée peut être une cible importante pour les attaques de l'intérieur ou de l'extérieur. Les données ne peuvent être déformées que sur un ou plusieurs nœuds de travail d'un grand système de stockage ou de traitement de données distribué. La porte arrière pour les filigranes peut être codée en un modèle d'un grand ensemble. Au lieu de déboguer un simple ensemble de données ou un modèle, les praticiens devraient maintenant étudier des données ou des modèles dispersés dans de grands clusters informatiques.

Attaques par déni de service distribué (DDoS) . Si un service de modélisation prédictive joue un rôle clé dans les activités de votre organisation, assurez-vous de prendre en compte au moins les attaques DDoS distribuées les plus populaires lorsque les attaquants attaquent un service prédictif avec un nombre incroyablement élevé de demandes afin de retarder ou d'arrêter la production de prévisions pour les utilisateurs légitimes.

7. Décisions générales

Vous pouvez utiliser plusieurs méthodes courantes, anciennes et nouvelles, les plus efficaces pour réduire les vulnérabilités des systèmes de sécurité et augmenter l'équité, la contrôlabilité, la transparence et la confiance dans les systèmes d'apprentissage automatique.

Prévision d'accès autorisé et de régulation de fréquence (étranglement) . Les fonctionnalités de sécurité standard, telles que l'ajustement supplémentaire de la fréquence d'authentification et de prédiction, peuvent être très efficaces pour bloquer un certain nombre de vecteurs d'attaque décrits dans les sections 1-5.

Modèles comparatifs . En tant que modèle comparatif pour déterminer si des manipulations ont été effectuées avec la prévision, vous pouvez utiliser l'ancien pipeline de modélisation éprouvé ou un autre outil de prévision interprété avec une grande transparence. La manipulation comprend la corruption de données, des attaques de filigrane ou des exemples concurrents. Si la différence entre la prévision de votre modèle testé et la prévision d'un modèle plus complexe et opaque est trop grande, notez ces cas. Envoyez-les à des analystes ou prenez d'autres mesures pour analyser ou corriger la situation. De sérieuses précautions doivent être prises pour garantir que votre référence et votre convoyeur restent en sécurité et inchangés par rapport à leur état d'origine et fiable.

Modèles interprétés, équitables ou privés . Actuellement, il existe des méthodes (par exemple, le GBM monotone (M-GBM), les listes de règles bayésiennes évolutives (SBRL) , les explications du réseau neuronal (XNN) ) qui fournissent à la fois précision et interprétabilité. Ces modèles précis et interprétables sont plus faciles à documenter et à déboguer que les boîtes noires classiques d'apprentissage automatique. Les nouveaux types de modèles équitables et privés (par exemple, LFR, PATE) peuvent également être formés à la façon de prêter moins d'attention aux caractéristiques démographiques visibles de l'extérieur qui sont disponibles pour l'observation, en utilisant l'ingénierie sociale lors d'une attaque avec un exemple concurrentiel, ou impersonnalisation. Envisagez-vous de créer un nouveau processus d'apprentissage automatique à l'avenir? Envisagez de le construire sur la base de modèles privés ou équitables interprétés moins risqués. Ils sont plus faciles à déboguer et potentiellement résistants aux modifications des caractéristiques des objets individuels.

Débogage d'un modèle pour la sécurité . Un nouveau domaine de débogage des modèles est consacré à la détection des erreurs dans les mécanismes et prévisions des modèles d'apprentissage automatique et à leur correction. Les outils de débogage, tels que les modèles de substitution, l'analyse résiduelle et l'analyse de sensibilité, peuvent être utilisés dans les essais blancs pour identifier vos vulnérabilités, ou dans les exercices analytiques pour identifier les attaques potentielles qui peuvent ou peuvent se produire.

Documentation du modèle et méthodes d'explication . La documentation modèle est une stratégie de réduction des risques utilisée dans le secteur bancaire depuis des décennies. Il vous permet d'enregistrer et de transférer des connaissances sur les systèmes de modélisation complexes à mesure que la composition des propriétaires de modèles change. La documentation est traditionnellement utilisée pour les modèles linéaires de haute transparence. Mais avec l'avènement d'outils d'explication puissants et précis (tels que l' arborescence SHAP et les attributs dérivés des fonctions locales pour les réseaux de neurones), les flux de travail préexistants des modèles de boîte noire peuvent être au moins un peu expliqués, débogués et documentés. De toute évidence, la documentation devrait maintenant inclure tous les objectifs de sécurité, y compris les vulnérabilités connues, corrigées ou attendues.

Surveillez et gérez les modèles directement pour des raisons de sécurité . Les praticiens sérieux comprennent que la plupart des modèles sont formés sur des "instantanés" statiques de la réalité sous la forme d'ensembles de données, et qu'en temps réel la précision des prévisions diminue, car l'état actuel des choses s'éloigne des informations collectées précédemment. Aujourd'hui, la surveillance de la plupart des modèles vise à identifier un tel biais dans la distribution des variables d'entrée, qui, à terme, entraînera une diminution de la précision. La surveillance du modèle doit être conçue pour suivre les attaques décrites dans les sections 1 à 5 et toutes les autres menaces potentielles qui apparaissent lors du débogage de votre modèle. Bien que cela ne soit pas toujours directement lié à la sécurité, les modèles doivent également être évalués en temps réel pour des effets différenciés. Avec la documentation du modèle, tous les artefacts de modélisation, le code source et les métadonnées associées doivent être gérés, versionnés et vérifiés pour la sécurité, ainsi que les actifs commerciaux précieux qu'ils sont.

Fonctions de notification des menaces . Des fonctions, des règles et des étapes de traitement préliminaire ou ultérieur peuvent être incluses dans vos modèles ou processus équipés de moyens de notification des menaces possibles: par exemple, le nombre de lignes similaires dans le modèle; si la ligne actuelle représente un employé, un entrepreneur ou un consultant; Les valeurs de la ligne actuelle sont-elles similaires à celles obtenues avec des attaques blanches avec un exemple compétitif? Ces fonctions peuvent être nécessaires ou non lors de la première formation du modèle. Mais économiser de l'espace pour eux peut un jour être très utile pour évaluer de nouvelles données ou pour recycler ultérieurement le modèle.

Détection d'anomalies du système . Entraînez le métamode à détecter les anomalies sur la base d'un autocodeur sur les statistiques opérationnelles de l'ensemble de votre système de modélisation prédictive (nombre de prévisions pour une certaine période de temps, retards, CPU, mémoire et chargement de disque, nombre d'utilisateurs simultanés, etc.), puis surveillez attentivement ce métamodèle pour anomalies. Une anomalie peut dire si quelque chose ne va pas. Des enquêtes de suivi ou des mécanismes spéciaux seront nécessaires pour suivre avec précision la cause du problème.

8. Références et informations pour une lecture plus approfondie

Une grande quantité de littérature académique moderne sur la sécurité de l'apprentissage automatique se concentre sur l'apprentissage adaptatif, l'apprentissage profond et le chiffrement. Cependant, jusqu'à présent, l'auteur ne connaît pas les pratiquants qui feraient réellement tout cela. Par conséquent, en plus d'articles et de publications récemment publiés, nous présentons des articles des années 1990 et du début des années 2000 sur les violations de réseau, la détection de virus, le filtrage du spam et des sujets connexes, qui étaient également des sources utiles. Si vous souhaitez en savoir plus sur le sujet fascinant de la protection des modèles d'apprentissage automatique, voici les principaux liens - du passé et du présent - qui ont été utilisés pour rédiger l'article.

Bareno, Marco et al.Sécurité de l'apprentissage machine. Machine Learning 81.2 (2010): 121-148. URL https://people.eecs.berkeley.edu/ _~ adj / publications / paper-files / SecML-MLJ2010.pdf
Kumar, Agites. "Attaques de sécurité: une analyse des modèles d'apprentissage automatique." DZone (2018). URL https://dzone.com/articles/security-attacks-analysis-of-machine-learning-mode
Lorica, Ben et Lucidis, Mike. «Vous avez créé une application d'apprentissage automatique. Maintenant, assurez-vous que c'est sûr. " Idées O'Reilly (2019). URL https://www.oreilly.com/ideas/you-created-a-machine-learning-application-now-make-sure-its-secure
Paperno, Nicholas. "Carte des maraudeurs de la sécurité et de la confidentialité dans l'apprentissage automatique: un examen des tendances de recherche actuelles et futures en matière de sécurité et de confidentialité de l'apprentissage automatique." Actes du 11e atelier ACM sur l'intelligence artificielle et la sécurité. ACM (2018). URL https://arxiv.org/pdf/1811.01134.pdf

Conclusion

Ceux qui se soucient de la science et de la pratique de l'apprentissage automatique s'inquiètent du fait que la menace de piratage avec l'apprentissage automatique, couplée aux menaces croissantes de violation de la confidentialité et de discrimination algorithmique, peut augmenter le scepticisme public et politique croissant concernant l'apprentissage automatique et l'intelligence artificielle. Nous devons tous nous souvenir des moments difficiles de l'IA dans un passé récent. Les vulnérabilités de sécurité, les atteintes à la vie privée et la discrimination algorithmique pourraient potentiellement être combinées, conduisant à une réduction du financement de la recherche en formation informatique ou à des mesures draconiennes pour réglementer ce domaine. Poursuivons la discussion et la résolution de ces questions importantes afin de prévenir une crise et non d'en perturber les conséquences.

Suggestions de vulnérabilités et de protection des modèles d'apprentissage automatique