Bonjour, Habr! Je vous présente la traduction de l'article
«Les limites de l'apprentissage automatique» de Matthew Stewart.
La plupart des personnes qui lisent cet article connaissent probablement l'apprentissage automatique et les algorithmes correspondants utilisés pour classer ou prédire les résultats en fonction des données. Cependant, il est important de comprendre que l'apprentissage automatique n'est pas la solution à tous les problèmes. Étant donné l'utilité de l'apprentissage automatique, il peut être difficile d'accepter que parfois ce n'est pas la meilleure solution au problème.

L'apprentissage automatique est une branche de l'intelligence artificielle qui a révolutionné le monde tel que nous le connaissons au cours de la dernière décennie. L'explosion de l'information a conduit à la collecte d'énormes quantités de données, en particulier par de grandes entreprises telles que Facebook et Google. Cette quantité de données, combinée au développement rapide de la puissance du processeur et de la parallélisation des ordinateurs, rend relativement facile la réception et l'étude d'énormes quantités de données.
De nos jours, l'hyperbole de l'apprentissage automatique et de l'intelligence artificielle est omniprésente. C'est peut-être exact, étant donné que le potentiel de ce domaine est énorme. Au cours des dernières années, le nombre d'agences de conseil en IA a augmenté et, selon En effet, le nombre d'emplois liés à l'IA a augmenté de 100% entre 2015 et 2018.
En décembre 2018, Forbes a constaté que 47% des entreprises avaient au moins une capacité à utiliser l'IA dans leur processus métier, et le rapport Deloitte indique que le taux de pénétration des logiciels d'entreprise avec IA intégrée et services de développement d'IA basés sur le cloud atteindra environ 87 et 83 pour cent respectivement. Ces chiffres sont impressionnants - si vous prévoyez de changer de carrière dans un proche avenir, l'IA semble être un bon domaine.
Tout semble magnifique, non? Les entreprises sont heureuses, et les consommateurs sont apparemment heureux aussi, sinon les entreprises n'utiliseraient pas l'IA.
C'est génial, et je suis également un grand fan de l'apprentissage automatique et de l'intelligence artificielle. Cependant, il y a des moments où l'utilisation de l'apprentissage automatique n'est tout simplement pas nécessaire, cela n'a aucun sens, et parfois lorsque la mise en œuvre peut entraîner des difficultés.
Limite 1 - Ethique
Il est facile de comprendre pourquoi l'apprentissage automatique a eu un impact si profond sur le monde, mais ce qui est moins clair, c'est quelles sont exactement ses capacités et, plus important encore, quelles sont ses limites. Yuval Noah Harari, comme vous le savez, a inventé le terme «datisme», qui fait référence à la nouvelle étape proposée de la civilisation, dans laquelle nous entrons lorsque nous faisons plus confiance aux algorithmes et aux données qu'à notre propre jugement et logique.
Bien que cette idée puisse sembler ridicule, souvenez-vous de la dernière fois où vous êtes allé en vacances et avez suivi les instructions GPS, et non vos propres jugements sur la carte - remettez-vous en question les évaluations GPS? Les gens ont littéralement conduit dans les lacs parce qu'ils ont aveuglément suivi les instructions de leur GPS.
L'idée de faire plus confiance aux données et aux algorithmes que nous le pensons a ses avantages et ses inconvénients. Évidemment, nous bénéficions de ces algorithmes, sinon nous ne les utiliserions pas en premier lieu. Ces algorithmes nous permettent d'automatiser les processus en faisant des jugements éclairés en utilisant les données disponibles. Parfois, cependant, cela signifie remplacer le travail de quelqu'un d'autre par un algorithme qui a des conséquences éthiques. De plus, qui blâmons-nous en cas de problème?
Le cas le plus fréquemment discuté aujourd'hui est celui des voitures autonomes: comment décider de la réaction du véhicule en cas de collision mortelle? Aurons-nous la possibilité à l'avenir de choisir le cadre éthique pour l'achat que notre voiture autonome suivrait?
Qui est à blâmer si ma voiture autonome tue quelqu'un sur la route?Bien que toutes ces questions soient fascinantes, elles ne sont pas le but principal de cet article. Cependant, il est évident que l'apprentissage automatique ne peut rien nous dire sur les valeurs normatives que nous devons adopter, c'est-à-dire comment nous devons agir dans cette situation.
Limite 2 - Problèmes déterministes
C'est une limitation à laquelle j'ai personnellement dû faire face. Mon domaine d'expertise est la science environnementale, qui s'appuie fortement sur la modélisation informatique et l'utilisation de capteurs / dispositifs IoT.
L'apprentissage automatique est incroyablement efficace pour les capteurs et peut être utilisé pour calibrer et ajuster les capteurs lorsqu'il est connecté à d'autres capteurs qui mesurent les variables environnementales telles que la température, la pression et l'humidité. Les corrélations entre les signaux de ces capteurs peuvent être utilisées pour développer des procédures d'auto-étalonnage, et c'est un sujet brûlant dans mes recherches en chimie atmosphérique.
Cependant, les choses deviennent un peu plus intéressantes en matière de modélisation informatique.
L'exécution de modèles informatiques qui simulent la météo mondiale, les émissions de la planète et le transfert de ces émissions sont très coûteux en calcul. En fait, il est si difficile à calculer que la modélisation au niveau de la recherche peut prendre plusieurs semaines même lorsque l'on travaille sur un supercalculateur.
De bons exemples en sont MM5 et WRF, qui sont des modèles numériques de prévision météorologique qui sont utilisés pour la recherche climatique et pour vous fournir des prévisions météorologiques dans les nouvelles du matin. Je me demande ce que les météorologues font toute la journée? Exécutez et apprenez ces modèles.
Travailler avec des modèles météorologiques est bien, mais maintenant que nous avons un apprentissage automatique, pouvons-nous l'utiliser à la place pour obtenir nos prévisions météorologiques? Peut-on utiliser les données des satellites, des stations météorologiques et utiliser un algorithme de prévision élémentaire pour déterminer s'il pleuvra demain?
La réponse est, étonnamment, oui. Si nous avons des informations sur la pression atmosphérique autour d'une certaine région, les niveaux d'humidité dans l'air, la vitesse du vent et des informations sur les points voisins et leurs propres variables, alors il devient possible de former, par exemple, un réseau de neurones. Mais à quel prix?
L'utilisation d'un réseau de neurones avec des milliers d'entrées vous permet de déterminer s'il pleuvra demain à Boston. Cependant, l'utilisation d'un réseau de neurones ignore toute la physique du système météorologique.
L'apprentissage automatique est stochastique et non déterministe.
Un réseau de neurones ne comprend pas la deuxième loi de Newton, ou cette densité ne peut pas être négative - il n'y a pas de limitations physiques.Cependant, cela ne peut pas être une limitation pendant longtemps. Il existe déjà un certain nombre de chercheurs qui envisagent d'ajouter des contraintes physiques aux réseaux de neurones et à d'autres algorithmes afin qu'ils puissent être utilisés à des fins telles que celle-ci.
Limitation 3 - Données
C'est la limitation la plus évidente. Si vous alimentez mal le modèle, il ne donnera que de mauvais résultats. Il y a deux raisons à cela: le manque de données et le manque de données fiables. Si vous ne rencontrez pas de tels problèmes, vous pouvez étudier en toute sécurité le traitement de grandes quantités de données sur le canal
Big Data Books Telegram, où divers livres et ressources sur le Big Data sont publiés.
Manque de données
De nombreux algorithmes d'apprentissage automatique nécessitent de grandes quantités de données avant de commencer à produire des résultats utiles. Un bon exemple de cela est un réseau de neurones. Les réseaux de neurones sont des machines consommatrices de données qui nécessitent beaucoup de données d'entraînement. Plus l'architecture est grande, plus il faut de données pour produire des résultats viables. La réutilisation des données est une mauvaise idée, il est toujours préférable d'avoir plus de données.
Si vous pouvez obtenir les données, utilisez-les.
Manque de bonnes données
Malgré l'apparence, ce n'est pas le même que celui écrit ci-dessus. Imaginez que vous pensez pouvoir tricher en générant dix mille faux points de données à placer sur un réseau neuronal. Que se passe-t-il lorsque vous insérez cela?
Il apprendra par lui-même, puis lorsque vous viendrez le tester sur un nouvel ensemble de données, il ne fonctionnera pas bien. Vous aviez les données, mais la qualité est meilleure.
Tout comme un manque de bonnes fonctionnalités peut entraîner de mauvaises performances de votre algorithme, un manque de bonnes données véridiques peut également limiter les capacités de votre modèle. Aucune entreprise ne va introduire un modèle d'apprentissage automatique qui fonctionne pire qu'une erreur humaine.
De même, l'application d'un modèle formé sur un ensemble de données dans une situation ne s'applique pas nécessairement aussi bien à la seconde situation. Le meilleur exemple de cela que j'ai trouvé jusqu'à présent est de prédire le cancer du sein.
Les bases de données de mammographie contiennent de nombreuses images, mais elles ont un problème grave qui a causé des problèmes importants ces dernières années - presque toutes les radiographies ont été prises de femmes blanches. Cela peut ne pas sembler être un gros problème, mais en fait, il a été démontré que les femmes noires sont 42% plus susceptibles de mourir d'un cancer du sein en raison d'un large éventail de facteurs, qui peuvent inclure des différences de détection et d'accès aux soins. Ainsi, l'apprentissage de l'algorithme principalement pour les femmes blanches dans ce cas affecte négativement les femmes noires.
Dans ce cas particulier, davantage d'images radiographiques de patients noirs sont nécessaires dans la base de données de formation, plus de signes sont liés à l'augmentation de 42% de la probabilité, et l'algorithme est plus juste en raison de la stratification de l'ensemble de données le long des axes correspondants.
Limite 4 - Mauvais usage
En ce qui concerne la deuxième limitation discutée précédemment, il est supposé qu'il s'agit d'une «crise d'apprentissage automatique dans la recherche universitaire» lorsque les gens utilisent aveuglément l'apprentissage automatique pour essayer d'analyser des systèmes de nature déterministe ou stochastique.
Pour les raisons discutées dans la deuxième limitation, l'application de l'apprentissage automatique dans les systèmes déterministes réussira, mais un algorithme qui n'étudie pas la relation entre deux variables et ne saura pas quand il viole les lois physiques. Nous venons de donner quelques entrées et sorties au système et lui avons dit d'étudier la relation - tout comme quelqu'un traduit mot pour mot à partir d'un dictionnaire, l'algorithme semblera être juste une compréhension superficielle de la physique de base.
Pour les systèmes stochastiques (aléatoires), tout est un peu moins évident. La crise du machine learning pour les systèmes aléatoires se manifeste de deux manières:
- P-piratage
- Portée de l'analyse
p-piratage
Lorsqu'une personne a accès aux mégadonnées, qui peuvent avoir des centaines, des milliers, voire des millions de variables, il est facile de trouver un résultat statistiquement significatif (étant donné que le niveau de signification statistique requis pour la plupart des études scientifiques est de p <0,05). Cela conduit souvent à la détection de fausses corrélations qui sont généralement obtenues à l'aide de p-hacking (en parcourant des montagnes de données jusqu'à ce qu'une corrélation soit trouvée montrant des résultats statistiquement significatifs). Ce ne sont pas de vraies corrélations, mais simplement une réponse au bruit dans les mesures.
Cela a conduit au fait que des chercheurs individuels «ont capturé» des corrélations statistiquement significatives à travers de grands ensembles de données et les ont déguisés en véritables corrélations. Parfois, c'est une erreur innocente (dans ce cas, le scientifique devrait être mieux préparé), mais dans d'autres cas, cela est fait pour augmenter le nombre d'articles publiés par le chercheur - même dans le monde de la communauté scientifique, la concurrence est forte et les gens feront tout pour améliorer leurs mesures.
Portée de l'analyse
Il existe des différences significatives dans la portée de l'analyse pour l'apprentissage automatique par rapport à la modélisation statistique - la modélisation statistique est par nature confirmante et l'apprentissage automatique est essentiellement de la recherche.
Nous pouvons considérer l'analyse et les modèles de confirmation comme ce que fait une personne lorsqu'elle reçoit un doctorat. ou en recherche. Imaginez que vous travaillez avec un conseiller et que vous essayez de développer une base théorique pour étudier tout système réel. Ce système possède un ensemble d'attributs prédéfinis qu'il affecte, et après avoir soigneusement conçu des expériences et développé des hypothèses, vous pouvez exécuter des tests pour déterminer la validité de vos hypothèses.
L'analyse de recherche, en revanche, manque d'un certain nombre de qualités associées à l'analyse de confirmation. En fait, dans le cas d'énormes quantités de données et d'informations, les approches de support sont complètement détruites en raison de l'énorme quantité de données. En d'autres termes, il est tout simplement impossible d'énoncer avec précision l'ensemble final d'hypothèses testables en présence de millions de signes.
Par conséquent, et, encore une fois, en termes généraux, les algorithmes et les approches d'apprentissage automatique conviennent le mieux à la recherche sur la modélisation prédictive et la classification avec d'énormes quantités de données et des fonctions complexes sur le plan du calcul. Certains diront qu'ils peuvent être utilisés pour de «petites» données, mais pourquoi le faire alors que les méthodes statistiques multidimensionnelles classiques sont beaucoup plus informatives?
L'apprentissage automatique est un domaine qui résout en grande partie les problèmes liés aux technologies de l'information, à l'informatique, etc., il peut s'agir à la fois de problèmes théoriques et appliqués. En tant que tel, il est associé à des domaines tels que la physique, les mathématiques, les probabilités et les statistiques, mais l'apprentissage automatique représente en fait un domaine en soi, un domaine qui n'est pas chargé de problèmes soulevés dans d'autres disciplines. De nombreuses solutions proposées par les experts et les praticiens de l'apprentissage automatique sont douloureusement erronées, mais elles font leur travail.
Limite 5 - Interprétabilité
L'interprétabilité est l'un des principaux problèmes de l'apprentissage automatique. Un cabinet de conseil en IA essayant de joindre un cabinet qui n'utilise que des méthodes statistiques traditionnelles peut être arrêté s'il ne voit pas le modèle tel qu'il est interprété. Si vous ne pouvez pas convaincre votre client que vous comprenez comment l'algorithme est arrivé à la décision qu'il a prise, est-il probable qu'il vous fera confiance et fera confiance à votre expérience?
Un chef d'entreprise est plus susceptible d'accepter des recommandations d'apprentissage automatique si les résultats sont expliqués dans une perspective commerciale.
Ces modèles en tant que tels peuvent être rendus impuissants s'ils ne peuvent pas être interprétés, et le processus d'interprétation humaine suit des règles qui vont bien au-delà de la maîtrise technique. Pour cette raison, l'interprétabilité est une qualité primordiale que les méthodes d'apprentissage automatique doivent atteindre si elles sont appliquées dans la pratique.
En particulier, les sciences en développement dans le domaine de la physique (génomique, protéomique, métabolomique, etc.) sont devenues l'objectif principal des chercheurs en apprentissage automatique, précisément en raison de leur dépendance à l'égard de bases de données volumineuses et non triviales. Cependant, ils souffrent d'un manque d'interprétation de leurs méthodes, malgré leur succès apparent.
Conclusion
Comme je l'espère, j'ai clairement expliqué dans cet article qu'il y a des limites qui, au moins pour le moment, entravent la solution de tous les problèmes de l'humanité. Un réseau de neurones ne peut jamais nous dire comment être une bonne personne, et du moins ne pas encore comprendre les lois du mouvement de Newton ou la théorie de la relativité d'Einstein.
Il existe également des contraintes fondamentales basées sur la théorie sous-jacente de l'apprentissage automatique, appelée théorie de l'apprentissage informatique, qui sont principalement des contraintes statistiques. Nous avons également discuté de questions liées à la portée de l'analyse et aux dangers du piratage informatique, qui peuvent conduire à de fausses conclusions.
Il y a également des problèmes d'interprétabilité des résultats, qui peuvent nuire aux entreprises qui ne peuvent pas convaincre les clients et les investisseurs que leurs méthodes sont précises et fiables.
L'apprentissage automatique et l'intelligence artificielle continueront de révolutionner l'industrie et ne deviendront de plus en plus courants dans les années à venir. Bien que je vous recommande d'utiliser pleinement l'apprentissage automatique et l'IA, je vous recommande également de garder à l'esprit les limites des outils que vous utilisez - après tout, il n'y a rien d'idéal.