Nous utilisons les données dans la pratique

Il existe souvent un écart entre l'algorithme d'apprentissage automatique idéal dans le vide et son application sur des données réelles. Il semble prendre un article: il y a un algorithme, il y a convergence pour des données de tel ou tel type - prenez-le et appliquez-le. Mais pour une raison quelconque, il s'avÚre que vos données ne sont pas suffisantes pour la formation, et elles diffÚrent du modÚle de l'article, car les vraies ne sont pas synthétiques.

La chose habituelle pour justifier l'algorithme est de faire des hypothÚses sur la pureté des données et leur distribution, que vous ne trouverez pas dans la vie réelle. Par exemple, l'auteur d'un article expérimente des photographies de célébrités adultes, et tout est remarquablement reconnaissable et classé avec lui, et dans notre exemple réel, il y a aussi des enfants et des personnages de dessins animés, et tout tombe soudainement en panne. Mais il y a des gens qui peuvent y faire face, à tel point que l'écart entre la théorie et la pratique cesse de paraßtre imprenable, et cela vaut la peine de montrer comment on trouve immédiatement ceux qui veulent le surmonter.



Nous avons dĂ©jĂ  vu de tels cas sur HighLoad ++, mais lĂ , il y avait des rapports sĂ©parĂ©s, d'ailleurs, proches des tĂąches d'assurer le travail Ă  des charges Ă©levĂ©es. Par consĂ©quent, nous voulons maintenant assembler une confĂ©rence distincte pour ceux qui rĂ©solvent des problĂšmes pratiques en utilisant des mĂ©thodes d'apprentissage automatique. Et l'approche de sa planification est trĂšs simple - nous voulons organiser une confĂ©rence sur l'apprentissage automatique et l'analyse des donnĂ©es que nous aimerions nous-mĂȘmes .

Je suis d'accord, cela semble naïf, mais n'est-ce pas «comme pour vous» n'est pas la meilleure motivation? De plus, nous avons une grande expérience dans l'organisation de conférences et il semble que nous ayons une bonne idée de son efficacité. Bien sûr, vous pouvez avoir votre propre opinion, donc je vais vous dire exactement et comment nous prévoyons de discuter à UseData Conf le 16 septembre .

Ontiko et moi tenons des confĂ©rences d'ingĂ©nierie oĂč les pratiquants jouent du premier violon. Pour toutes les confĂ©rences: HighLoad ++ (les trois instances), Moscow Python Conf ++, PHP Russia et bien d'autres, nous trouvons des gens qui font quelque chose d'utile en utilisant des technologies liĂ©es au thĂšme de la confĂ©rence et sont prĂȘts Ă  le partager.

Au cours des derniĂšres annĂ©es, j'ai aidĂ© des orateurs Ă  prĂ©parer des discours, j'ai donc la compĂ©tence pour poser les bonnes questions. De maniĂšre Ă  faire remonter Ă  la surface ce qui ne peut ĂȘtre appris que par le locuteur. Pour que le rapport ne contienne pas seulement une recette (nous avons pris des vidĂ©os de camĂ©ras la semaine derniĂšre, les avons formĂ©es sur un rĂ©seau de bout en bout et tout fonctionne), mais tous les points clĂ©s qui ont conduit au rĂ©sultat final. Si vous savez ce que vous avez essayĂ©, ce qui s’est passĂ©, ce qui n’a pas marchĂ©, et par consĂ©quent cela s’est avĂ©rĂ© rĂ©soudre le problĂšme, alors vous pouvez tirer vos propres conclusions et envisager une telle solution ou non.

Il n'y a aucune conférence d'apprentissage automatique qui serait construite sur ce principe en ce moment. Il y a de grandes conférences trop académiques au cours desquelles les praticiens constituent une fraction relativement petite de tous les rapports et sont adjacents aux résultats purement scientifiques et au matériel de formation pour les débutants. En outre, il existe toute une série de conférences sur l'intelligence artificielle. Habituellement, ils ont trop de battage médiatique et trop peu de choses qui fonctionnent vraiment, nous essayons de les contourner.

Il est facile de les distinguer les uns des autres: si cela se fait en Python, alors c'est de l'apprentissage automatique, et si sur PowerPoint c'est de l'intelligence artificielle. Nous sommes intéressés par ce qui existe non seulement dans PowerPoint.

UseData Conf dans les sections


Partant de l'idée que chaque présentation à notre conférence devrait contenir l'expérience de la production réelle, nous avons sélectionné plusieurs blocs de sujets que nous voulons divulguer. Cela ne signifie pas que nous ne serons pas satisfaits et n'accepterons pas les candidatures qui ne rentrent pas dans ces blocs, c'est exactement ce qui est bien transmis des praticiens aux praticiens.

Apprentissage automatique et analyse de données dans les tùches commerciales . Tout ce qui concerne la prévision de la demande, la prévision des achats, les recommandations et le calcul des remises individuelles. Ici, les histoires seront pertinentes, car les méthodes ML aident à mieux développer une entreprise et à augmenter les bénéfices du commerce électronique.

Vision par ordinateur . Si vous avez appris au robot Ă  prendre certaines piĂšces du convoyeur, Ă  percer des trous et Ă  les remettre en place - c'est exactement ce dont vous devriez parler dans cette section. AprĂšs tout, les dĂ©tails peuvent ĂȘtre diffĂ©rents, ils peuvent ĂȘtre dispersĂ©s sur un tapis roulant, il peut ne pas y avoir une seule piĂšce finie pour la formation, mais seulement un modĂšle CAO et de nombreux autres facteurs qui distinguent une tĂąche acadĂ©mique idĂ©ale avec un convoyeur stĂ©rile de ce qui se passe rĂ©ellement .

Traitement de textes en langues naturelles . Parlez-nous de l'utilisation de la PNL dans des tùches non standard ou montrez pourquoi les méthodes existantes ne correspondent pas et vous avez dû développer votre propre approche. La traduction automatique et les assistants vocaux sont les premiers candidats à cette section.

SystĂšmes de prise de dĂ©cision . Ce n'est pas seulement la tĂąche de diagnostiquer les maladies, mais aussi tout systĂšme dans lequel une personne s'appuie dans ses dĂ©cisions sur les options proposĂ©es par l'algorithme, jusqu'Ă  et y compris la dĂ©fense antimissile. Si une personne n'est pas nĂ©cessaire, par exemple, le systĂšme lui-mĂȘme nomme un chauffeur pour commander dans un taxi (Ă  moins, bien sĂ»r, que la gĂ©nĂ©ration de la solution ne se limite pas Ă  l'algorithme gourmand), alors c'est encore mieux.

Cadres et outils d'apprentissage automatique . Pour dĂ©velopper ce sujet, nous aimerions inviter directement les dĂ©veloppeurs des frameworks. Nous adoptons cette approche sur HighLoad ++ - pour en savoir plus sur les subtilitĂ©s des outils des dĂ©veloppeurs d'outils - et essayons de l'implĂ©menter sur UseData Conf. Par consĂ©quent, si vous dĂ©veloppez simplement CatBoost, XGBoost, TensorFlow, PyTorch, LightGBM, Keras - veuillez nous Ă©crire . Si vous ĂȘtes sĂ»r de connaĂźtre le cadre populaire que de nombreux scientifiques des donnĂ©es ne connaissent pas et que cela leur faciliterait la vie, nous attendons Ă©galement une demande de rapport.

Les concours de machine learning sont divisés en deux blocs: la technique de conduite des concours de machine learning, ainsi que la stratégie pour les gagner. Bien que les concours comme Kaggle soient plus un outil de recrutement qu'un outil pour résoudre de vrais problÚmes, certains aspects seront utiles pour les praticiens. En fin de compte, avec l'aide de concours, vous pouvez changer de travail avec succÚs - aussi bien.

Test, surveillance, interprĂ©tation, prĂ©paration des donnĂ©es . Nous comprenons que les modĂšles entraĂźnĂ©s par machine ont tendance Ă  s'encrasser. Beaucoup de gens connaissent la situation lorsqu'ils se sont entraĂźnĂ©s, lancĂ©s en production, et littĂ©ralement un mois plus tard, l'algorithme produit des rĂ©sultats indĂ©sirables. Vous devez ĂȘtre en mesure de constater Ă  temps que le modĂšle ne fonctionne pas et de le recycler Ă  temps. En cas de problĂšme, il est important de pouvoir interprĂ©ter les rĂ©sultats et vous devez ĂȘtre en mesure de prĂ©parer les donnĂ©es. La totalitĂ© de la solution Ă  ces problĂšmes particuliers et permet l'utilisation du ML au combat.

Appel Ă  communications


Si vous avez reconnu vos tùches professionnelles dans l'un de ces sujets et pensez que votre expérience peut aider quelqu'un, demandez un rapport. Si l'apprentissage automatique fait partie de vos tùches quotidiennes, mais que vous en doutez, il existe un moyen fiable de comprendre si le sujet convient - écrivez au comité du programme, et nous clarifierons les détails et aiderons à rendre le rapport utile.

Néanmoins, il existe une recommandation générale. Si vous avez une tùche si spécifique que seuls les géants de l'industrie résolvent, ou vice versa une petite mais trÚs spécialisée startup, et à premiÚre vue, il semble que cette expérience ne sera pas utile à d'autres personnes, ce n'est pas tout à fait vrai. Parce qu'il est rarement possible de prendre et de répéter la décision de quelqu'un de toute façon, si nous parlons de cas complexes, mais pour avoir l'idée d'essayer une approche différente, allez de l'autre cÎté, c'est possible avec une expérience trÚs différente.

De plus, on peut toujours passer d'un problĂšme particulier Ă  une approche gĂ©nĂ©rale . Par exemple, si nous parlons de filtrer le trafic rĂ©seau anormal (grĂące au tĂ©lĂ©spectateur de Moscou, Pavel, qui a posĂ© une question lors de la rĂ©union Zoom avec le comitĂ© de programme), alors un problĂšme similaire avec un Ă©chantillon de formation hĂ©tĂ©rogĂšne et un petit pourcentage d'anomalies se pose dans diffĂ©rentes zones, et des gĂ©nĂ©ralisations peuvent ĂȘtre suggĂ©rĂ©es.

À notre avis, le plus prĂ©cieux dans le rapport appliquĂ© est le chemin vers la solution, et non la solution elle-mĂȘme . Quand ils ont pris les mĂ©thodes de la bibliothĂšque et que tout est prĂȘt, c'est, bien sĂ»r, trĂšs cool, mais c'est peu utile. C'est plus intĂ©ressant quand ils ont essayĂ© cela, l'autre, a trouvĂ© des limites, s'est heurtĂ© Ă  un rĂąteau, a inventĂ© quelque chose, et ils en parlent.

D'un autre cÎté, si vous résolvez des problÚmes que l'industrie associe à l'apprentissage automatique sans apprentissage automatique, vous pouvez montrer comment cela est rentable, et encore mieux, donner une recette lorsque vous pouvez suivre votre exemple - c'est excellent, nous avons besoin d'un tel rapport.

L'appel à communications est ouvert jusqu'au 16 juillet, le 16 août, nous essaierons de formuler l'ensemble du programme, et le 16 septembre, la conférence UseData Conf se tiendra dans Infospace.

Il est simple de soumettre un rapport - vous avez besoin d'un sujet approximatif et de thĂšses pour 2-3 paragraphes, la demande peut ĂȘtre complĂ©tĂ©e par un appel au comitĂ© de programme, dans lequel les dĂ©tails ne sont pas divulguĂ©s pour publication. Il vaut mieux soumettre plusieurs rapports que pas un seul, alors nous aurons plus de nourriture pour les questions.

Déjà dans le programme


Nous n'attendons pas l'acceptation des rapports pour commencer à sélectionner les rapports dans le programme. Par conséquent, tout d'abord, ne faites pas glisser les candidatures si vous ne souhaitez pas entrer dans une concurrence accrue entre les intervenants aprÚs la date limite. DeuxiÚmement, vous pouvez planifier d'assister à la conférence en tant qu'auditeur.

La premiĂšre section sur l'utilisation commerciale du BC a dĂ©jĂ  adoptĂ© deux rapports. Alexander Alekseytsev parlera de l'utilisation de l'apprentissage automatique pour prĂ©dire les ventes de la boutique en ligne OZON.RU. Il prĂ©sentera une approche de l'optimisation des prix Ă  l'aide de modĂšles de prĂ©diction de la demande, montrera comment appliquer la thĂ©orie des probabilitĂ©s dans le processus de reconstitution d'un entrepĂŽt et dĂ©crira le cycle de dĂ©veloppement de solutions ML pour la production. La premiĂšre version a Ă©tĂ© prĂ©sentĂ©e en HighLoad ++ et a suscitĂ© un vif intĂ©rĂȘt.

Joom Alexandra Lomakina vous expliquera comment résoudre avec succÚs le problÚme de l'optimisation de la publicité télévisée. La tùche est trÚs intéressante en ce sens que c'est un plaisir coûteux qui ne donne presque aucun retour - vous ne comptez pas le CTR. Mais vous pouvez toujours mesurer quelque chose, mais nous découvrirons comment et comment l'utiliser plus tard en septembre.

Dans le domaine de la vision par ordinateur, nous n'avons jusqu'à présent adopté qu'un petit rapport académique de Guido Montufar . Guido prévoit de parler d'une approche de régularisation des modÚles qui soit robuste en ce qui concerne les données d'entrée, et nous espérons en tirer plus de pratique.

De plus, nous avons acceptĂ© Grigory Sapunov dans le programme avec un rapport sur les derniers dĂ©veloppements dans l'architecture des rĂ©seaux de neurones. Et c'est le cas rare oĂč un rapport d'examen est appropriĂ©, car Gregory le remplira certainement de conseils pratiques basĂ©s sur son expĂ©rience colossale.

Nous avons également convenu avec Eduard Tyantov d'un rapport sur la gestion de projet d'apprentissage automatique. Surtout pour lui, nous avons commencé la rubrique "Autre", car ce sujet nous semble trÚs nécessaire. Si quelqu'un peut vous dire quelles sont les spécificités des projets avec beaucoup d'apprentissage automatique, comment développer un produit et le diriger en production, comment le vendre aux personnes et aux développeurs, alors c'est probablement Edward avec le backend du lancement artisto et la gestion des groupes antispam et d'apprentissage automatique dans Mail .ru.

Appel à idées


Si vous lisez jusqu'ici, alors, tout d'abord, merci, nous vous attendons Ă  la confĂ©rence. DeuxiĂšmement, si quelque chose ne suffisait pas, Ă©crivez dans les commentaires. Dites-nous quels sujets vous intĂ©ressent le plus personnellement, dites-moi quel type de rapport vous avez besoin, quelle approche vous ne pouvez tout simplement pas manquer (dans tous les sens, et quoi sauter dans le programme). Quels sont les noms que vous aimeriez entendre lors d'une telle confĂ©rence - il est fort probable que nous ayons dĂ©jĂ  contactĂ© ce spĂ©cialiste, mais sinon, nous le ferons certainement. Il y a les mĂȘmes personnes au ComitĂ© du programme - nous avons beaucoup d'expĂ©rience, mais nous pourrions encore oublier quelque chose.
UseData Conf est une conférence pour ceux qui résolvent des problÚmes pratiques en utilisant des méthodes d'apprentissage automatique. Soumettez vos rapports, inscrivez-vous et rendez-vous le 16 septembre.

Source: https://habr.com/ru/post/fr455644/


All Articles