Há uma opinião de que você só pode se tornar um datacenter com um ensino superior apropriado, ou melhor, um diploma.
No entanto, o mundo está mudando, a tecnologia está se tornando disponível para meros mortais. Talvez eu surpreenda alguém, mas hoje qualquer analista de negócios é capaz de dominar tecnologias de aprendizado de máquina e alcançar resultados que competem com matemáticos profissionais e, possivelmente, até os melhores.
Para não ser infundada, contarei minha história - como economista, tornei-me analista de dados, tendo recebido o conhecimento necessário por meio de cursos on-line e participando de competições de aprendizado de máquina.

Agora sou analista líder no grupo de big data da QIWI, mas há três anos estava muito longe das bases de dados e só ouvi notícias sobre inteligência artificial nas notícias. Mas então tudo mudou, em grande parte graças a Coursera e Kaggle.
Então, as primeiras coisas primeiro.
Sobre mim
Sou economista, trabalhei como consultor de negócios por algum tempo. Minha especialização é o desenvolvimento de uma metodologia de orçamento e relatórios para automação subsequente. Se de uma maneira simples - trata-se primeiro de criar o processo normalmente, para que mais tarde haja um resultado da automação.
Há 3 anos, aos 42 anos, quando senti que, com o sucesso da consultoria, estava começando a me destacar e comecei a pensar na necessidade de mudança. Sobre a próxima carreira. Eu já tinha experiência em como iniciar uma carreira do zero (aos 30 anos mudei a vida tranquila do economista para consultoria), então as mudanças não me assustaram.
Não me vem à cabeça imediatamente, mas quando você pensa sobre isso, torna-se óbvio que, apesar do fato de eu já trabalhar há 20 anos, ainda há cerca de 25 anos antes da aposentadoria (já se sabe há muito tempo que devemos nos concentrar na aposentadoria aos 70 anos ou mais tarde) ) Em geral, o caminho a seguir é mais longo do que o que já passou e seria bom seguir uma especialidade real. Então, valeu a pena aprender. Naquela época, trabalhei como freelancer e, para o futuro, reduzi o número de projetos e pude alocar tempo suficiente para estudar.
Enquanto pensava para onde ir mais longe, descobri o Coursera. A abordagem ocidental da educação, quando, antes de tudo, explica o significado, a idéia geral e, somente então, os detalhes, mostrou-se próxima de mim. Diferentemente do brutal sistema educacional soviético, que pressupõe que apenas os dignos aparecerão, eles dão uma chance a pessoas como eu, que têm lacunas na educação básica.
Comecei com cursos de análise de negócios. Isso foi extremamente útil para mim como consultor. Os mesmos cursos me ajudaram a entender melhor o papel das tecnologias de IA no desenvolvimento de negócios e, mais importante, a ver meu papel nisso. É o mesmo que acontece com outras tecnologias - não é necessário que aqueles que desenvolvem novas tecnologias sejam os melhores em sua aplicação. Para que a tecnologia realmente ajude um negócio, é importante entender esse negócio. A experiência em processos de negócios não é menos importante do que entender as tecnologias de aprendizado de máquina, processamento de big data, etc.
E mergulhei em cursos sobre datasines, estatísticas, programação.
Com interrupções, ao longo de um ano, dominei mais de 30 cursos no Coursera e não me senti mais como um alienígena no mundo dos grandes encontros e do aprendizado de máquina.
Kaggle
Alguns cursos recomendaram o Kaggle como um ótimo lugar para praticar. Não repita meu erro - cheguei lá apenas quando já sentia que havia acumulado conhecimento suficiente. E valeu a pena seis meses antes, quando a primeira compreensão do que e como apareceu. Seria mais legal por seis meses. Afinal, este não é apenas um dos locais para competições, é a melhor (atualmente) plataforma para dominar o aprendizado de máquina na prática, o que é útil tanto para iniciantes quanto para o superguru. E aí você cresce, como se costuma dizer, um dia em dois - apenas cursos sem prática não terão esse efeito.
Minha primeira competição foi um
concurso do Banco Santander - prevendo a satisfação do cliente. Eu era iniciante e queria verificar o nível do meu conhecimento nos negócios. Combinei minha experiência como cliente do banco, as habilidades de análise de casos de negócios e tecnologias de aprendizado de máquina e criei um modelo muito bom com o qual subi entre os 50 melhores em uma liderança pública. Isso foi muito superior às minhas expectativas desde a primeira competição, já que mais de 5 mil pessoas participaram dela.
Mas nem tudo era tão simples. Não ganhei um final de semana feliz. Existe um problema tão comum entre os iniciantes quanto o "treinamento do modelo", que conheci na prática. A validação local foi mal organizada, eu estava muito focado no público e, como resultado - na parte fechada do teste, derrubei mais de 500 posições. É claro que fiquei chateado, mas a lição foi para o futuro: boa validação é a base do aprendizado de máquina e precisa ser tratada com seriedade. Agora esse componente é um dos pontos fortes dos meus modelos.
Apesar do primeiro resultado fraco, havia confiança de que entrar no topo é real, você precisa de mais prática e conhecimento adicional.
Para aqueles que não sabem para que serve o Cuggle, a comunidade está pronta para ajudar os iniciantes a superar algum tipo de piada, discutir idéias e compartilhar exemplos de "como funciona". Bem e não menos importante - no final da competição, há uma oportunidade de estudar as decisões dos líderes. Aprendendo com a experiência de outra pessoa, você pode progredir rapidamente. Não é necessário pisar em todos os ancinhos.
Imediatamente, não consigo deixar de recordar o OpenDataSaines (ods.ai), a comunidade de datacientistas de língua russa. Os treinamentos de aprendizado de máquina que o ods organiza são outra maneira de aprender mais sobre o assunto. Bem, como plataforma de comunicação sobre qualquer problema, também ajuda bastante. Se você está pensando em seu futuro em datasines e ainda não se registrou no ods, isso é um erro grave.
Como as expectativas de altos resultados na Cuggle eram frequentemente mencionadas em vagas para cargos de Datacientista, eu via uma chance - além de ganhar experiência, é possível preencher um currículo vazio com experiência mais ou menos relevante. Comecei a tratar Cuggle como um trabalho em que o início de uma carreira poderia ser um bônus.
Assim que o tempo livre apareceu, construí modelos no Cuggle e, a cada competição, o resultado ficava melhor.
Eu tinha algo que a maioria dos participantes não tinha - a capacidade de analisar casos de negócios e minha experiência em consultoria, ajudou muito na construção de modelos. Seis meses depois, consegui o 7º lugar no próximo concurso do Santander Bank e ganhei minha primeira medalha de ouro.
Se você persistentemente se esforçar por um objetivo específico, você o alcançará - em junho de 2017, um ano depois, com um pouco das minhas batalhas em Cuggle, nós, juntamente com o desenvolvedor letão Agnis Lukis, vencemos uma competição do Sberbank por prever preços de apartamentos em Moscou.

Nossos pontos fortes foram entender o caso (esta é uma tarefa complexa, cuja solução não deveria ter sido abordada na testa, como a maioria fez) e forte validação local. Terminamos a competição em segundo lugar em público, mas nosso modelo não sofreu muito com a reciclagem e não perdeu muito com os dados fechados - na final, fomos os primeiros com uma margem enorme.
Essa vitória me colocou no top 50 do ranking global do Kaggle, o que resultou em ofertas de emprego. Tendo estudado as opções, escolhi o banco como um lugar onde há muitas tarefas nas quais você pode desenvolver habilidades, além de sentir toda a verdade da vida ao desenvolver modelos - no entanto, nas competições, as condições são bastante estéticas.
Meus planos de carreira eram ambiciosos e a opção "não correr para o trabalho por vários anos para crescer para o próximo nível" não foi considerada. Era necessário cavar no trabalho, e no segundo turno não se esqueça de Cuggle. Não é fácil, mas para quem é fácil agora? E isso rendeu resultados - mais 3 medalhas de ouro e eu ganhei as epaulets do Grandmaster no Cuggle, mais entrincheiradas no topo global (agora o 23º).
Como uma cereja no bolo - o 3º prêmio em competições de pontuação bancária, foi o que fiz profissionalmente no ano passado. E, aparentemente, ele estava indo bem.
Infelizmente, a verdade da vida no banco também é um processo de tomada de decisão muito conservador e rápido. A introdução dos meus modelos estava se movendo lentamente. Não havia plano para reconstruir o trabalho de todo o banco, por isso era mais fácil, embora com pesar, mudar de emprego.
Isso acabou não sendo nada difícil - graças aos resultados do Cuggle, a pesquisa não demorou muito tempo e, há vários meses, eu cavava bilhões de tabelas no QIWI. Temos várias
tarefas interessantes , tenho certeza de que em breve poderemos transformar nossos dados em lucro para a empresa - o histórico do economista ajuda muito nisso. Caggloop aqui também acabou nas bilheterias em vários casos.
E agora sobre como ter sucesso em competições
A parte mais importante é entender o problema e encontrar todos os drivers que podem afetar o resultado. Quanto melhor você entender o caso, maiores serão as chances de torná-lo legal. Todos podem gerar centenas ou mesmo milhares de recursos de estatísticas, mas podem criar aqueles que são personalizados especificamente para esta tarefa e explicar bem o destino, o que é muito mais complicado. Invista nele e encontre-se rapidamente no topo. Vale a pena aplicar qualquer experiência relevante (empresa, família, etc.) - isso ajuda muito.
Então - validação local. Seu principal inimigo é o treinamento, especialmente se você usar uma tecnologia poderosa como o aumento de gradiente. Sei o quão psicologicamente difícil é parar de focar na tabela de classificação pública, mas se você não quiser decepções, a resposta correta é usar a validação cruzada, diga "Não" à seleção atrasada. Obviamente, há exceções, mas mesmo em problemas com séries temporais, você pode estragar a validação cruzada, aumentando consideravelmente a confiabilidade do modelo. O esquema de validação local nem sempre é simples, mas vale a pena dedicar algum tempo a ele - tanto em competições quanto na vida real. A recompensa serão modelos estáveis.
Obviamente, você precisa estudar bem as ferramentas básicas. Conhecendo os princípios de diferentes tecnologias, você pode escolher adequadamente a melhor ferramenta para resolver um problema específico. Para dados tabulares, o aumento de gradiente é agora o líder, especificamente o Lightgbm. Mas é importante poder usar outros métodos, do registro às redes neurais - na vida e nas competições eles não serão supérfluos.
A propósito, a melhor maneira de entender quais tecnologias estão impulsionando agora quando tudo está mudando rapidamente é ver quais bibliotecas os líderes da concorrência usam. Nos últimos anos, muitas tecnologias valiosas invadiram o mundo através do Cuggle.
Hiperparâmetros É importante conhecer os principais hiperparâmetros das ferramentas utilizadas. Geralmente, não é necessário alterar muitos parâmetros. Minha crença é que você não deve gastar muito tempo na seleção de hiperparâmetros. Obviamente, é necessário encontrar bons hiperparâmetros, mas você não deve entrar em ciclos nele.
Normalmente, quando o modelo é delineado, seleciono um conjunto de parâmetros mais ou menos estável e volto à sintonia apenas mais perto do fim, quando outras idéias acabam. O senso comum sugere que o tempo gasto na criação e teste de novas variáveis, bibliotecas e idéias não padronizadas pode proporcionar um aumento de modelo muito maior do que melhorar a passagem de um bom conjunto de hiperparâmetros para um ideal.
Se você contar com o Kaggle como um recurso que irá bombear seu currículo - considere isso como um trabalho, não se arrependerá. Isso me ajudou, isso irá ajudá-lo.
Bem e novamente sobre a competição. Ela é muito alta aqui, por isso é muito, muito difícil vencer sozinha. O trabalho em equipe é muito útil, a sinergia de idéias permite que você pule sobre sua cabeça. Sinta-se livre para usá-lo.
Total
Bem, um pouco de motivação no final. Antes de tudo, provei para mim mesmo que posso me tornar um datacenter aos 44 anos. A receita acabou surpreendentemente simples - educação on-line, pensamento de negócios, desempenho e determinação.

Agora, de todas as formas, estou incentivando meus amigos a seguirem o mesmo caminho. A nova economia digital precisa (e precisará) de profissionais de primeira linha. Coursera + Kaggle é apenas um ótimo lugar para começar.
Era uma vez, o Excel, uma ferramenta nova e incompreensível (até me lembro da dificuldade das primeiras batalhas com a calculadora tradicional). E agora, afinal, ninguém duvida que um especialista versado em seus negócios possa extrair benefícios muito mais reais do Excel do que os próprios desenvolvedores do Excel.
Passará um pouco de tempo, e a posse de ferramentas de aprendizado de máquina se tornará tão obrigatória quanto a posse do Excel; então, por que não se preparar para isso com antecedência e vencer a concorrência no mercado de trabalho agora?
Além disso, a concorrência não vale a pena. Quanto mais pessoas do lado dos negócios chegam a datasines - mais dinheiro. A introdução de novas tecnologias nos setores tradicionais da economia pode acelerar um negócio e, para isso, um negócio deve começar a entender as oportunidades que as novas tecnologias estão abrindo hoje. De fato, qualquer analista de negócios, tendo dominado vários cursos, pode estar na vanguarda do progresso e ajudar sua empresa a superar concorrentes conservadores.
Espero que minha experiência ajude alguém a tomar uma decisão importante.
Se você tiver alguma dúvida sobre o Kaggle, escreva, terei prazer em responder nos comentários.