Como os alunos da Perm chegaram às finais do campeonato internacional de análise de dados da Data Mining Cup 2019

Olá pessoal. Neste artigo, falarei sobre nossa experiência em participar do concurso de análise de dados Data Mining Cup 2019 (DMC) e como conseguimos entrar nas equipes do TOP 10 e participar das finais do campeonato em tempo integral em Berlim.

imagem

Vou narrar em nome da nossa equipe, na qual participo (Alexander Perevalov), bem como do meu colega Sergey Bobkov. Somos estudantes de graduação da Universidade Politécnica de Perm ; em nosso tempo livre do trabalho e estudo, estamos envolvidos na solução de concursos de ciência de dados.

O que é DMC e como descobrimos isso


A Data Mining Cup é um campeonato global de análise de dados de estudantes realizado uma vez por ano. Sua história começou há 20 anos, muito antes do Kaggle , pode-se dizer que o DMC realizou competições de análise de dados antes de se tornar mainstream .

O DMC é hospedado pela empresa alemã PrudSys , uma empresa de inteligência de varejo . Anteriormente, apenas a participação de uma mão era permitida no campeonato, então os participantes podiam se unir em equipes da universidade, a propósito, o número máximo de equipes da universidade é de apenas 2. A participação na universidade também é estritamente controlada, para a participação é necessário ter um e-mail com o domínio do seu aluno instituições, além de enviar uma cópia do seu cartão de estudante.

Hoje, se compararmos o nível de participantes no DMC e no Kaggle, é claro, o nível do Kaggle é muito maior. Isso se deve à restrição de estudantes no DMC e à popularidade do Kaggle. Uma característica distintiva do DMC é a ausência de uma tabela de classificação , que elimina os problemas de ajustá-la.

Aprendi sobre a Data Mining Cup no momento em que fomos a um grupo de nossa universidade para um estágio na Alemanha. Ao chegar em casa, meu amigo e colega de equipe me convidou para participar, em meados de abril. Honestamente, fiquei cético em relação a essa idéia, no entanto, tendo aprendido que este ano os dados e a tarefa são bastante simples - ainda começamos a resolvê-los.

Como resolvemos a tarefa


Em 2019, a tarefa estava no campo de detecção de fraude com auto-pagamento. Certamente você já se deparou com caixas de autoatendimento em supermercados. Esses dispositivos funcionam sob a supervisão de um funcionário da loja e de forma totalmente automática. As caixas registradoras de autoatendimento permitem otimizar os custos com pessoal e minimizar as filas nos supermercados. No entanto, há um problema: a natureza humana é tal que, de uma maneira ou de outra, existe o desejo de "não romper" os bens que queremos ver em nossa geladeira. Para evitar isso, o controle é necessário, mas de forma a não embaraçar ou incomodar os clientes.

Assim, com base nos dados marcados nas transações de auto-checkout, é necessário desenvolver um modelo matemático que classifique automaticamente uma transação específica como fraudulenta ou não fraudulenta. Então, resolvemos o problema de classificação binária.

Os dados foram os seguintes:

imagem

O tamanho da amostra de treinamento foi de apenas ~ 1800 exemplos, enquanto a amostra de teste foi de 499000 exemplos. Além disso, a amostra de treinamento não foi equilibrada : apenas 4% das transações foram fraudulentas, é óbvio que a precisão (a parcela de respostas corretas) é inútil aqui. Surpreendentemente, não havia valores ausentes nos dados e alguns dos atributos foram distribuídos igualmente. Com base nisso, podemos concluir que os dados são gerados artificialmente.

Além disso, os organizadores propuseram sua métrica na forma de uma Matriz de Confusão, medida em unidades monetárias:
Valores reais
FraudeNão é fraude
Fraude5 Euro (TP)-25 Euro (FP)
Não é fraude-5 Euro (FN)0 Euro (TN)

Depois de analisá-lo, ficou claro para nós que a precisão é mais importante nesse caso, porque arcaremos com a perda máxima se, por engano, chamarmos um comprador honesto de fraudador.

O curso de nossa solução consistiu em estágios clássicos:

  • Análise básica de dados
  • Análise de sinais, suas estatísticas descritivas e distribuições
  • Remoção de outlier
  • Geração de Personagem
  • Construindo um modelo e definindo parâmetros
  • Validação e Previsão Final

Os slides com o conteúdo de nossa solução podem ser encontrados em: www.docdroid.net/2XEDfYg/dmc-2019-1.pdf
O repositório no GitHub está aqui: github.com/Perevalov/dmc2019 (tudo está espalhado em diferentes ramificações, até que houve tempo para colocar tudo em ordem)

Finais Organizacionais


Depois que enviamos a decisão final no início de maio, começamos a esperar resultados. As condições dos organizadores são tais que as 10 principais equipes são convidadas para uma final presencial em Berlim , realizada como parte da conferência de inteligência de varejo 2019: Decisões inteligentes para o varejo inteligente.

Para referência, em 2019, 149 equipes de 114 universidades localizadas em 28 países participaram do DMC.

Para ser sincero, nem esperávamos chegar à final , mas agora, no final de maio, chega a querida carta convite. Além disso, todos os finalistas foram solicitados a pagar despesas de até 500 Euros e também ofereceram hospedagem em um hotel por uma noite, onde o evento foi realizado.

Sem hesitar, compramos ingressos para Berlim e fomos buscar vistos. Sendo estudantes pobres, o montante de despesas para uma viagem de 2 dias acabou por ser bastante grande para nós. Os custos dos bilhetes e do processamento de vistos Perm-Berlin-Perm eram de cerca de 40.000 rublos. por pessoa, isso é um pouco mais de 500 euros.

Como representamos nossa universidade no evento, decidimos obter apoio material dela. Além disso, a Universidade Politécnica de Perm implementa um programa para o desenvolvimento das relações russo-alemãs e apoia fortemente os estudantes da iniciativa (pareceu-nos isso). Com a aprovação e assinatura do chefe do departamento em que estudamos, fomos ao departamento de ciência e inovação. Começou um épico burocrático de um mês, que terminou com o seguinte: "Não há dinheiro, mas você aguenta" . Claro que estávamos um pouco chateados, mas não desanimamos. Agora, é ridículo ler várias declarações da alta administração de nossa universidade sobre a "necessidade de apoiar jovens cientistas" e outras bobagens. Bem, é uma digressão.

Temos vistos em apenas 2 semanas. Durante o mesmo período, preparamos um relatório para o discurso e, em 2 de julho à noite, fomos ao aeroporto.

Desempenho na final da Copa de Mineração de Dados e premiação


Chegando a Berlim no dia 3 de julho pela manhã, fomos ao nHow Hotel, onde a conferência foi realizada. O nível de organização, é claro, é alto. De fato, o custo da participação foi de 1000 euros por pessoa (para nós é grátis). E é assim que o hotel se parece:

imagem

Nossa apresentação estava marcada para as 16:30. Ocorreu na sala principal de conferências, naturalmente em inglês. A propósito, o desempenho em si não foi levado em consideração na classificação final, foi calculado apenas com base na taxa final, sobre a qual apenas os organizadores tinham dados.

Entre as dez primeiras equipes, havia universidades como: Universidade George Washington (EUA), Universidade de Genebra (Suíça), Universidade Tecnológica de Chemnitz (Alemanha), Universidade de Iowa (EUA), etc. E, claro, nossa Universidade Politécnica de Pesquisa Nacional de Perm.

Era assim que a sala de conferências era:

imagem

Um pequeno embaraço foi o fato de eu ter que falar não com slides, mas com um pôster exibido na tela. Portanto, o desempenho dos participantes não foi suficientemente informativo. No entanto, houve uma oportunidade de abordar e visualizar o pôster em papel de cada um dos participantes na sala de conferências. Basicamente, a maioria das pessoas usava empilhamento, mesclagem e montagem (também estamos entre eles); alguns participantes usavam um limite aumentado para modelos de classificação; algumas equipes conseguiram não gerar recursos e construíram o modelo na fonte.

A propósito, nós éramos a menor equipe - apenas 2 pessoas.

Após as apresentações, começou um jantar de gala e gratificante. Nós esperávamos por prêmios, mas percebemos que isso era improvável, então nosso desejo mundano era "pelo menos não ter 10 anos". Acabou exatamente como queríamos - ocupamos o honroso 9º lugar. Naturalmente, foi um pouco chato, mas o fato de estarmos na final entre universidades tão sérias já diz muito. Os vencedores foram participantes da Universidade de Iowa (EUA), embora você não possa dizer que eles vieram dos estados (veja a foto):

imagem

Os prêmios para o 1º, 2º e 3º lugares foram de 2.000, 1.000 e 500 euros, respectivamente. A classificação final é a seguinte:

imagem

Conclusões


Não lamentamos o quanto participamos dessa competição. No mínimo, essa é uma conquista de +1 no portfólio, nos contatos mais úteis com pessoas e na oportunidade de representar nossa cidade e país em um evento internacional.

Aconselho todos os cientistas a participarem desses eventos, é legal!

Source: https://habr.com/ru/post/pt458930/


All Articles