Oi
Em 10 de novembro (amanhã!) Em Moscou, o Oktyabr Cinema Center sediará a grande conferência
Sberbank Data Science Day , onde os vencedores do SDSJ 2018 serão premiados, discursos de um grande número de especialistas internacionais e russos no campo de Data Science, uma seção sobre ML e o uso de inteligência artificial na ciência e negócios. E muito mais interessante!
Você pode assistir a transmissão ao vivo
aqui . Sob katom e
no site do programa. Também descrevemos como os vencedores da Jornada Sberbank Data Science foram classificados.
O programa
A conferência está dividida em vários blocos temáticos, aqui está a programação:
Salão principal11:00 - 11:30. A abertura da conferência.
11:30 - 12:30. Painel de discussão “Análise de dados e tecnologias de inteligência artificial na economia digital”
12:30 - 13:15. "Métodos e arquiteturas biologicamente condicionados na aprendizagem profunda". Sergey Bartunov, Mente Profunda
13:15 - 14:00. "Agentes de conversação como companhia digital inteligente para entender a emoção humana e expressar sua emoção". Soo-Young Lee, KAIST
15:00 - 15:45. "Aprendizado automático de máquina escalável". Andrey Spiridonov, H2O
15:45 - 16:30. Painel de discussão “Tendências em inovação: usando DS / AI e melhorando a experiência do cliente”
17:15 - 18:00 Premiação solene dos vencedores das competições Sberbank Data Science Journey e
Classic AI (competição em versificação usando inteligência artificial)
Salão "Ciência"12:30 - 13:45. Tecnologia DS / AI: AutoML
13:45 - 14:45. Tecnologia DS / AI: Visão computacional
14:45 - 15:45. Tecnologia DS / AI: Processamento de linguagem natural (PNL)
15:45 - 16:30. Tecnologia DS / AI: Aprendizado por Reforço
16:30 - 17:15. Tecnologias DS / AI: Speech Analytics
Hall "Negócios" (hall 1)12:30 - 13:45. Aplicação DS / AI em bancos e finanças
13:45 - 15:00. O uso de DS / AI em medicina e bioinformática
15:00 - 16:15 Aplicação do DS / AI nos setores bancário e financeiro
16:15 - 17:15. Redação: criando uma plataforma para pesquisa em IA
Salão comercial (salão 2)12:30 - 14:45. O uso de DS / AI no varejo
14:45 - 16:30. Aplicações industriais DS / AI
16:30 - 17:15. Aplicação DS / AI em mídia e telecomunicações
Salão Comunitário12:30 - 13:15. Apresentação de pôsteres "Sessão de pôsteres Lightning Talk"
13:15 - 15:00. Apresentação de projetos abertos no campo do DS / AI "AI Open Projects"
15:00 - 15:45. Tomada de decisão clássica em IA
15:45 - 17:15. Análise da concorrência da jornada de ciência de dados Sberbank
Vencedores da Jornada Sberbank Data Science
Este ano, propusemos resolver problemas usando a tecnologia AutoML. Até o final de 3 de novembro, os participantes enviaram suas decisões, nas próximas 12 horas eles selecionaram o melhor de suas decisões. Agora a escolha é do júri. Na conferência, premiaremos os vencedores da jornada de ciência de dados Sberbank.
Os participantes receberam conjuntos de dados prontos do Sberbank. Todos os 24 conjuntos de dados envolvidos na competição foram coletados por vários departamentos: a unidade de varejo, a unidade de risco e a unidade de tecnologia. Todos eles foram especialmente treinados e despersonalizados. A base foram informações como:
- Compartilhamento de limite aprovado
- Prazo de Entrega do Cartão
- Diferentes tipos de pontuação
- Feedback da oferta do cartão
- Resposta a outras ofertas de produtos
- Avarias em caixas eletrônicos
- Informações sobre saques em dinheiro em caixas eletrônicos
- Saldos de conta e outras informações
Para avaliar decisões, grupos de conjuntos de dados foram selecionados: seleção (aberta aos participantes), pública (escondida dos participantes, mas você pode ver o resultado durante a competição), privada (o conjunto no qual os resultados da competição são resumidos)
Em cada conjunto, existem três problemas de regressão e cinco problemas de classificação binária. As soluções funcionavam em conjuntos de dados de vários tamanhos: de 1 MB e 300 linhas a 1 GB e 1 mln. Mesmo antes do início da competição, o júri preparou conjuntos de dados, o sistema de testes já os verificou no modo automático e
agora você pode ver os resultados no site (levando em conta as restrições associadas à intriga).
As decisões foram tomadas no formato de arquivos com um código. Os participantes precisavam criar um algoritmo que implementasse todo o ciclo de solução automática do problema de aprendizado de máquina, recebendo dados como entrada e retornando uma resposta pronta na saída.
As decisões dos participantes tiveram que se encaixar nas restrições dadas:
- recursos disponíveis
- a solução não tem acesso aos recursos da Internet
- o tamanho máximo de um arquivo compactado e descompactado com uma solução: 1 GB
- o arquivo compactado é descompactado em um sistema de arquivos localizado na memória de acesso aleatório (ramfs), disponível para solução de gravação
- o restante do conteúdo do contêiner é somente leitura
- CSV com conjunto de dados não excede 3 GB
- São necessárias limitações para obter comparações justas, colocando os participantes em igualdade de condições técnicas.
Aqui está o que o sistema de classificação nesta competição é:
- Para cada tarefa (conjunto de dados), a métrica específica da tarefa (RMSE para regressão, ROC-AUC para classificação binária) é considerada na parte de teste da amostra.
- Para cada tarefa (conjunto de dados), as métricas dos participantes são convertidas em uma escala comum, de acordo com o esquema a seguir. Para a melhor solução métrica (entre todas as soluções enviadas e testadas com sucesso), é dado 1 ponto, a solução de linha de base é classificada em 0 pontos. Os participantes que estão na métrica entre as melhores e as decisões da linha de base recebem um número proporcional de pontos entre 0 e 1. As decisões sobre a qualidade da parte inferior da linha de base são estimadas em 0 pontos. Se a melhor solução e a decisão da linha de base forem as mesmas, todos os participantes receberão 0 pontos. Se a solução do participante der um erro na tarefa ou não ultrapassar o limite de tempo, eles receberão 0 pontos para esta tarefa.
- O resultado final de cada participante é considerado como a soma dos resultados de cada tarefa após a conversão em uma escala comum. Na tabela geral de líderes, os participantes são classificados pelo resultado final.
Os resultados da competição estão disponíveis
aqui .
Além da classificação principal, os participantes concorreram a um prêmio na nomeação “Melhor Decisão Pública”. Durante a competição, eles publicaram suas abordagens para resolver o problema do AutoML no GitHub, e os vencedores foram determinados pelo número de estrelas do GItHub.
A conferência terá uma seção separada dedicada ao SDSJ'18, onde os vencedores falarão sobre suas decisões e responderão a todas as perguntas.
Mais uma vez, deixe um link para a
transmissão on -
line da conferência, para que todos os interessados possam assistir ao Sberbank Data Science Day.