Qu'est-ce que l'apprentissage automatique automatisé (AutoML)

Qu'est-ce que l'apprentissage automatique automatisé (AutoML) et
Est-ce que cela va éloigner les Data Scientists?


Depuis le début de l'émergence d'outils automatisés d'apprentissage automatique (AutoML), tels que Google AutoML, les experts se demandent s'ils sont prêts pour une intégration et une application d'entreprise complètes. La description de l'outil AutoML stipule que n'importe qui peut jouer le rôle d'un «scientifique des données», capable de créer des modèles d'apprentissage automatique prêts pour une utilisation industrielle sans le bagage technique traditionnellement nécessaire.



Bien qu'il soit certainement vrai que les processus d'apprentissage automatique automatisés changent la façon dont les entreprises peuvent effectuer des tâches d'analyse de données, la technologie n'est pas encore prête à laisser les spécialistes des données au chômage. L'une des principales revendications de la technologie est que les modèles créés automatiquement ont une qualité similaire et sont produits dès que possible par rapport au modèle équivalent créé par un groupe de chercheurs de données.


Bien que les modèles AutoML soient plus rapides à créer, ils ne sont efficaces que si le problème qu'ils recherchent est constant et récurrent. La plupart des modèles AutoML fonctionnent bien et atteignent une qualité constante dans ces conditions; mais plus le problème des données est complexe, plus l'intervention d'un spécialiste est nécessaire pour comprendre ce que le système AutoML a lancé et en faire quelque chose d'utile. Pour comprendre certaines de ces limitations, examinons le processus AutoML plus en détail.



Les outils AutoML simplifient le traitement des données en faisant tout leur possible en utilisant les informations existantes. Le processus comprend trois étapes principales:


La première étape comprend l '«extraction» d'informations, ce qui contribue à augmenter la productivité des modèles générés, créant des informations supplémentaires pour l'étude. Cela prend beaucoup de temps, car un spécialiste de l'analyse des données doit identifier manuellement les relations entre les éléments de données et développer des moyens de présenter les informations sous forme de champs de données supplémentaires que la machine peut utiliser pour la formation, ainsi que décider de l'exhaustivité des données pour construire un modèle. .


Il s'agit d'une étape importante, car ces données supplémentaires font très souvent la différence entre un modèle inapproprié et un excellent modèle. AutoML est programmé pour utiliser une gamme limitée de méthodes de découverte de données, généralement de manière à satisfaire le problème de données «moyen», limitant les performances finales du modèle, car il ne peut pas utiliser les connaissances d'une PME spécifique (petite et moyenne entreprise), ce qui peut être important pour le succès et qu'un spécialiste des données peut utiliser dans son travail.


De nombreux problèmes de données commencent par un effort mental important pour sélectionner les données à représenter dans l'algorithme. Le transfert de toutes les données que vous avez dans le système peut conduire à un modèle qui ne correspond pas aux paramètres, car les données contiennent généralement de nombreux signaux différents, souvent conflictuels, qui doivent être ciblés et modélisés individuellement.


Cela est particulièrement vrai en ce qui concerne la fraude, lorsque différentes régions géographiques, différents canaux de paiement, etc. ont des types de fraude très différents. Les tentatives de découverte manuelle de ces modèles et de conception des ensembles de données appropriés pour garantir une détection précise ne sont pas encore largement automatisées. L'utilisation d'une approche automatisée polyvalente de ce problème est actuellement impossible en raison de l'énorme complexité d'un tel événement.


La prochaine étape est la génération de modèles. Des modèles avec différentes configurations sont créés et formés à l'aide des données de l'étape précédente. Ceci est très important car il est presque impossible d'utiliser la configuration par défaut pour chaque problème et d'obtenir les meilleurs résultats.


À ce stade, les systèmes AutoML ont un avantage sur les experts en données car ils peuvent créer un grand nombre de modèles de test en très peu de temps. La plupart des systèmes AutoML s'efforcent d'être universels et ne produisent que des réseaux de neurones profonds, qui peuvent être redondants pour de nombreuses tâches, lorsqu'un modèle simple, comme la régression logistique ou les arbres de décision, peut être plus approprié et bénéficier d'une optimisation hyperparamétrique.


La dernière étape est un test de performance de masse et le choix du meilleur interprète. C'est à ce stade qu'un travail manuel est nécessaire, notamment parce qu'il est extrêmement important que l'utilisateur sélectionne le bon modèle pour la tâche. Il est inutile d'avoir un modèle de risque de fraude qui identifie 100% des cas de fraude, mais remet en cause chaque autorisation.


Dans le processus manuel actuel, les spécialistes des données travaillent avec les PME pour comprendre les données et développer des fonctions de données descriptives efficaces. Ce lien important entre les PME et le spécialiste des données manque dans AutoML général. Comme décrit précédemment, le processus tente de générer automatiquement ces modèles à partir de ce que l'outil peut détecter dans les données, ce qui peut être inapproprié, résultant en des modèles inefficaces. Les futurs systèmes AutoML doivent être conçus en tenant compte de cette limitation et d'autres pour créer des modèles de haute qualité conformément aux normes développées par les experts.


L'avenir d'AutoML


AutoML continue d'évoluer et les principaux fournisseurs actuels d'AutoML (Google et Microsoft) ont apporté des améliorations significatives. Ces développements se sont principalement concentrés sur l'augmentation de la vitesse de génération de modèles prêts à l'emploi, et non sur la manière d'améliorer la technologie pour résoudre des problèmes plus complexes (par exemple, détecter la fraude et les intrusions sur le réseau), où AutoML peut aller plus loin qu'un spécialiste des données.


Alors que les solutions AutoML continuent d'évoluer et de se développer, des processus manuels plus complexes peuvent être automatisés. Les systèmes AutoML modernes fonctionnent très bien avec les images et la parole, car AutoML possède une connaissance métier intégrée pour effectuer ces tâches si bien. Les futurs systèmes AutoML auront la possibilité pour les utilisateurs professionnels de saisir leurs connaissances pour aider la machine à créer automatiquement des modèles très précis.


En plus de cela, les pipelines de données complexes deviendront de plus en plus ordonnés, et l'ajout d'un grand nombre d'algorithmes divers pour l'optimisation élargira encore les problèmes possibles que les scientifiques travaillant avec des données citoyennes peuvent résoudre.


Bien que de nombreuses tâches de traitement des données deviendront automatisées, elles permettront aux scientifiques d'effectuer des tâches personnalisées pour l'entreprise; stimuler davantage l'innovation et permettre aux entreprises de se concentrer sur les domaines les plus importants de la génération de revenus et de la croissance des entreprises.

Source: https://habr.com/ru/post/fr449260/


All Articles