Salut
Le 10 novembre (demain!) À Moscou, l'Oktyabr Cinema Center accueillera la grande conférence de la
Sberbank Data Science Day , où seront décernés les lauréats du SDSJ 2018, des discours d'un grand nombre d'experts internationaux et russes dans le domaine de la science des données, une section sur le BC et l'utilisation de l'intelligence artificielle en science. et les affaires. Et bien plus intéressant!
Vous pouvez regarder la diffusion en direct
ici . Sous katom et
sur le site le programme. Nous décrivons également comment les gagnants du Sberbank Data Science Journey ont été évalués.
Le programme
La conférence est divisée en plusieurs blocs thématiques, voici le calendrier:
Hall principal11h00 - 11h30. L'ouverture de la conférence.
11h30 - 12h30. Table ronde "Analyse des données et technologies de l'intelligence artificielle dans l'économie numérique"
12h30 - 13h15. "Méthodes et architectures biologiquement conditionnées en apprentissage profond." Sergey Bartunov, Deep Mind
13h15 - 14h00. "Agents conversationnels comme compagnon numérique intelligent pour comprendre l'émotion humaine et exprimer son émotion." Soo-Young Lee, KAIST
15h00 - 15h45. «Apprentissage automatique évolutif». Andrey Spiridonov, H2O
15h45 - 16h30. Table ronde «Tendance de l'innovation: utilisation de DS / AI et amélioration de l'expérience client»
17:15 - 18:00 Remise solennelle des gagnants des concours Sberbank Data Science Journey et
Classic AI (concours de versification utilisant l'intelligence artificielle)
Salle "Science"12h30 - 13h45 Technologie .DS / AI: AutoML
13h45 - 14h45. Technologie DS / AI: Vision par ordinateur
14:45 - 15:45 Technologie .DS / AI: Traitement automatique du langage naturel (NLP)
15h45 - 16h30 Technologie .DS / AI: apprentissage par renforcement
16:30 - 17:15 Technologies .DS / AI: Speech Analytics
Hall "Affaires" (hall 1)12h30 - 13h45. Application DS / AI en banque et finance
13h45 - 15h00. L'utilisation de DS / AI en médecine et en bioinformatique
15h00 - 16h15. Application de DS / AI dans les secteurs bancaire et financier
16h15 - 17h15 .Brainwriting: créer une plateforme de recherche en IA
Salle des affaires (Hall 2)12h30 - 14h45. L'utilisation de DS / AI dans le commerce de détail
14h45 - 16h30. Applications industrielles DS / AI
16h30 - 17h15. Application DS / AI dans les médias et les télécommunications
Salle communautaire12h30 - 13h15. Présentation des affiches "Poster Session Lightning Talk"
13h15 - 15h00. Présentation de projets ouverts dans le domaine DS / AI "AI Open Projects"
15h00 - 15h45. Prise de décision pour une compétition d'IA classique
15h45 - 17h15. Analyse de la concurrence de Sberbank Data Science Journey
Gagnants du Sberbank Data Science Journey
Cette année, nous avons proposé de résoudre des problèmes en utilisant la technologie AutoML. Jusqu'à la fin du 3 novembre, les participants ont téléchargé leurs décisions, au cours des 12 heures suivantes, ils ont sélectionné le meilleur de leurs décisions. Maintenant, le choix appartient au jury. Lors de la conférence, nous récompenserons les gagnants du Sberbank Data Science Journey.
Les participants ont reçu des ensembles de données prêts à l'emploi de Sberbank. Les 24 ensembles de données impliqués dans la compétition ont été collectés par différents départements: l'unité de vente au détail, l'unité de risque et l'unité de technologie. Tous ont été spécialement formés et dépersonnalisés. La base était des informations telles que:
- Part de limite approuvée
- Délai de livraison de la carte
- Différents types de notation
- Commentaires sur l'offre de carte
- Réponse à d'autres offres de produits
- Pannes ATM
- Informations sur le retrait d'espèces aux distributeurs
- Soldes des comptes et autres informations
Pour évaluer les décisions, des groupes d'ensembles de données ont été sélectionnés: cocher (ouvert aux participants), public (caché aux participants, mais vous pouvez voir le résultat pendant le concours), privé (ensemble sur lequel les résultats du concours sont résumés)
Dans chacun de ces ensembles, il y a trois problèmes de régression et cinq problèmes de classification binaire. Les solutions ont fonctionné sur des ensembles de données de différentes tailles: de 1 Mo et 300 lignes à 1 Go et 1 mln de lignes. Avant le début du concours, le jury a préparé des jeux de données, le système de test les a déjà vérifiés en mode automatique, et
maintenant vous pouvez voir les résultats sur le site Web (en tenant compte des limites associées à l'intrigue).
Les décisions ont été prises sous forme d'archives avec un code. Les participants devaient créer un algorithme qui implémente le cycle complet de résolution automatique du problème d'apprentissage automatique, recevant les données en entrée et renvoyant une réponse prête à la sortie.
Les décisions des participants devaient s'inscrire dans les restrictions données:
- ressources disponibles
- la solution n'a pas accès aux ressources Internet
- la taille maximale d'une archive compressée et décompressée avec une solution: 1 Go
- l'archive est décompressée dans un système de fichiers situé dans la mémoire vive (ramfs), disponible pour la solution d'écriture
- le reste du contenu du conteneur est en lecture seule
- Le CSV avec l'ensemble de données ne dépasse pas 3 Go
- Des limitations sont nécessaires pour réaliser des comparaisons équitables en plaçant les participants dans des conditions techniques égales.
Voici le système de notation de ce concours:
- Pour chaque tâche (jeu de données), la métrique spécifique à la tâche (RMSE pour la régression, ROC-AUC pour la classification binaire) est prise en compte dans la partie test de l'échantillon.
- Pour chaque tâche (ensemble de données), les métriques des participants sont traduites dans une échelle commune selon le schéma suivant. Pour la meilleure solution métrique (parmi toutes les solutions envoyées et testées avec succès) 1 point est donné, la solution de base est estimée à 0 point. Les participants qui sont dans la métrique entre les meilleures solutions et les solutions de base reçoivent un nombre proportionnel de points entre 0 et 1. Les décisions sur la qualité du bas de la ligne de base sont estimées à 0 points. Si la meilleure solution et la décision de base sont les mêmes, alors tous les participants obtiennent 0 point. Si la solution du participant donne une erreur sur la tâche ou ne dépasse pas la limite de temps, alors ils obtiennent 0 point pour cette tâche.
- Le résultat final de chaque participant est considéré comme la somme des résultats de chaque tâche après conversion à une échelle commune. Dans le classement général, les participants sont classés selon le résultat final.
Les résultats du concours sont disponibles
ici .
En plus du classement principal, les participants ont concouru pour un prix dans la nomination «Meilleure décision publique». Tout au long du concours, ils ont publié leurs approches pour résoudre le problème AutoML sur GitHub, et les gagnants ont été déterminés par le nombre d'étoiles GItHub.
La conférence aura une section séparée dédiée à SDSJ'18, où les gagnants parleront de leurs décisions et répondront à toutes les questions.
Encore une fois, laissez un lien vers la
diffusion en ligne de la conférence, afin que toutes les personnes intéressées puissent regarder la Sberbank Data Science Day.