⏳ 🐻 👩🏼‍🤝‍👨🏻 Prêmio nomeado após Ilya Segalovich. História sobre Ciência da Computação e Publicações de Lançamento 🎠 💨 🤬

Hoje estamos lançando um prêmio científico com o nome de Ilya Segalovich iseg . Ela será premiada por avanços na ciência da computação. Estudantes e estudantes de pós-graduação podem enviar sua própria inscrição para um prêmio ou nomear supervisores. Os premiados serão escolhidos por representantes da comunidade acadêmica e da Yandex. Os principais critérios de seleção são: disponibilidade de publicações e discursos em conferências, bem como contribuição para o desenvolvimento da comunidade.

O primeiro prêmio será realizado em abril. Como parte do prêmio, os jovens cientistas receberão 350 mil rublos cada e, além disso, poderão ir a uma conferência internacional, trabalhar com um mentor e passar por um estágio no Departamento de Pesquisa Yandex. Os consultores científicos receberão 700 mil rublos cada.

Na ocasião do lançamento do prêmio, decidimos falar aqui em Habré sobre os critérios de sucesso no mundo das ciências da computação. Alguns leitores de Habr já estão familiarizados com esses critérios, enquanto o resto pode ter uma impressão falsa sobre eles. Hoje, preencheremos essa lacuna - abordaremos todos os principais tópicos, incluindo artigos, conferências, conjuntos de dados e a transferência de idéias científicas para serviços.

Para os cientistas do campo da ciência da computação, o principal critério para o sucesso é a publicação de seu trabalho científico em uma das principais conferências internacionais. Este é o primeiro reconhecimento do ponto de verificação do trabalho do pesquisador. Por exemplo, no campo do aprendizado de máquina, a Conferência Internacional sobre Aprendizado de Máquina (ICML) e a Conferência sobre Sistemas de Processamento de Informações Neurais (NeurIPS, anteriormente NIPS) são geralmente distinguidas. Existem muitas conferências em áreas específicas da ML, como visão computacional, recuperação de informações, tecnologia da fala, tradução automática, etc.

Por que postar suas idéias

Pessoas distantes da ciência da computação podem ter a idéia errada de que é melhor manter em segredo as idéias mais valiosas e se esforçar para se beneficiar de sua singularidade. No entanto, a situação real em nossa esfera é exatamente o oposto. A autoridade de um cientista é julgada pelo significado de seu trabalho, pela frequência com que outros estudiosos citam seus artigos (índice de citação). Esta é uma característica importante de sua carreira. O pesquisador sobe na escada profissional, tornando-se mais respeitado em seu ambiente, apenas se constantemente divulgar trabalhos fortes publicados, tornar-se famoso e formar a base do trabalho de outros cientistas.

Muitos dos principais artigos (e possivelmente a maioria) são o resultado de uma colaboração de pesquisadores de diferentes universidades e empresas em diferentes países do mundo. Um importante e muito valioso na carreira de um pesquisador é o momento em que ele tem a oportunidade de encontrar e filtrar idéias com base em sua própria experiência - mas mesmo depois disso, seus colegas continuam a fornecer assistência inestimável. Os cientistas se ajudam a desenvolver idéias, a escrever artigos em colaboração - e quanto mais a contribuição do cientista para a ciência, mais fácil é para ele encontrar pessoas com idéias semelhantes.

Finalmente, a densidade e acessibilidade das informações agora são tão grandes que diferentes pesquisadores ao mesmo tempo têm idéias científicas muito semelhantes (e realmente valiosas). Se você não publicar a ideia, alguém certamente a publicará para você. O “vencedor” geralmente não é quem apresentou a inovação um pouco antes, mas quem a publicou um pouco antes. Ou - aquele que conseguiu revelar a idéia da maneira mais completa possível, clara e convincente.

Artigos e conjuntos de dados

Assim, o artigo científico é construído em torno da idéia principal que o pesquisador oferece. Essa idéia é sua contribuição para a ciência da computação. O artigo começa com uma descrição da idéia formulada em várias frases. Isto é seguido por uma introdução, que descreve a gama de problemas resolvidos pela inovação proposta. Descrição e introdução são geralmente escritas em uma linguagem simples, compreensível para um grande público. Após a introdução, é necessário formalizar os problemas declarados na linguagem matemática e introduzir notação estrita. Então, usando a notação introduzida, é necessário compilar uma declaração clara e abrangente da essência da inovação proposta, para identificar as diferenças dos métodos anteriores semelhantes. Todos os cálculos teóricos devem ser suportados por links para evidências compiladas anteriormente ou provar de forma independente. Isso pode ser feito com quaisquer suposições. Por exemplo, você pode fornecer evidências para o caso em que há uma quantidade infinita de dados em treinamento (uma situação obviamente inatingível) ou eles são completamente independentes um do outro. No final do artigo, o cientista fala sobre os resultados experimentais que ele conseguiu obter.

Para que os revisores atraídos pelos organizadores da conferência tenham maior probabilidade de aprovar um artigo, ele deve ter um ou mais atributos. Um fator chave que aumenta as chances de aprovação é a novidade científica da ideia proposta. Frequentemente, a novidade é avaliada em relação às idéias já existentes - e o trabalho sobre sua avaliação é realizado não pelo revisor, mas pelo autor do artigo. No caso ideal, o autor deve contar extensivamente ao artigo sobre métodos existentes e, se possível, apresentá-los como casos especiais de seu método. Assim, o cientista mostra que as abordagens aceitas nem sempre funcionam, que as generalizou e propôs uma formulação teórica mais ampla, mais flexível e, portanto, mais eficaz. Se a novidade é inegável, o resto dos revisores avalia o artigo de maneira não tão meticulosa - por exemplo, eles podem fechar os olhos para o inglês ruim.

Para reforçar a novidade, é útil adicionar ao artigo uma comparação com os métodos existentes em um ou mais conjuntos de dados. Cada um deles deve ser aberto, aceito no ambiente acadêmico. Por exemplo, existe um repositório de imagens ImageNet e bancos de dados de instituições como o Instituto Nacional de Padrões e Tecnologia (MNIST) e CIFAR (Instituto Canadense de Pesquisa Avançada). A dificuldade é que esse conjunto de dados "acadêmico" geralmente difere na estrutura de conteúdo dos dados reais com os quais o setor está lidando. Dados diferentes - resultados diferentes do método proposto. Os cientistas que trabalham parcialmente para o setor tentam levar isso em conta e, às vezes, inserem reservas como "em nossos dados, o resultado é tal e tal, e no conjunto de dados público - tal e tal".

Acontece que o método proposto é completamente "aprimorado" em um banco de dados aberto e não funciona com dados reais. Você pode lidar com esse problema comum abrindo novos conjuntos de dados mais representativos, mas geralmente estamos falando de conteúdo privado que as empresas simplesmente não têm o direito de abrir. Em alguns casos, eles realizam (às vezes complexo e meticuloso) anonimização dos dados - eles removem quaisquer fragmentos que indiquem uma pessoa específica. Por exemplo, rostos e números nas fotografias são lavados ou tornados ilegíveis. Além disso, para que o conjunto de dados não seja apenas acessível a todos, mas se torne um padrão entre os cientistas, sobre o qual é conveniente comparar idéias, é necessário não apenas publicá-lo, mas também escrever um artigo separado sobre ele e suas vantagens.

É pior quando não há conjuntos de dados abertos no tópico em estudo. Em seguida, o revisor é deixado para aceitar os resultados citados pelo autor em fé. Teoricamente, o autor pode até superestimá-los e permanecer sem ser detectado, mas no ambiente acadêmico isso é improvável, porque contraria o desejo da grande maioria dos cientistas de desenvolver a ciência.

Em várias áreas do ML, incluindo a visão computacional, também é comum anexar links de código a artigos (geralmente no GitHub). Nos próprios artigos, o código é muito pequeno ou é pseudocódigo. E aqui, novamente, surgem dificuldades se o artigo for escrito por um pesquisador de uma empresa, e não de uma universidade. Por padrão, o código gravado em uma corporação ou startup é marcado como NDA. Os pesquisadores e seus colegas precisam fazer um grande esforço para separar o código relacionado à idéia descrita dos repositórios internos e certamente fechados.

A chance de publicação depende da relevância do tópico escolhido. A relevância é ditada em grande parte por produtos e serviços: se uma empresa ou uma startup estiver interessada em criar um novo serviço ou em melhorar um existente com base na idéia de um artigo, isso é uma vantagem.

Como já mencionado, os artigos sobre ciência da computação raramente são escritos sozinhos. Mas, como regra, um dos autores gasta muito mais tempo e esforço do que o resto. Sua contribuição para a novidade científica é a maior. Essa pessoa é indicada primeiro na lista de autores - e, no futuro, referindo-se a um artigo, eles podem apenas mencioná-la (por exemplo, “Ivanov et al” - “Ivanov e outros” - “Ivanov e outros” traduzidos do latim). No entanto, a contribuição dos outros também é extremamente valiosa - caso contrário, é impossível estar na lista de autores.

Processo de revisão por pares

Os artigos geralmente param de aceitar vários meses antes da conferência. Depois de enviar um artigo, os revisores têm de 3 a 5 semanas para ler, avaliar e comentar. Isso acontece de acordo com o sistema single blind, quando os autores não veem os nomes dos revisores, ou double blind, quando os próprios revisores não veem os nomes dos autores. A segunda opção é considerada mais imparcial: vários trabalhos científicos mostraram que a popularidade do autor afeta a decisão do revisor. Por exemplo, ele pode considerar que um cientista com um grande número de artigos já publicados a priori merece uma classificação mais alta.

Além disso, mesmo no caso de duplo cego, o revisor provavelmente adivinhará o autor se ele trabalhar no mesmo campo. Além disso, o artigo no momento da revisão já pode ser publicado no arXiv - o maior repositório de artigos científicos. Os organizadores da conferência não proíbem isso, mas recomendam o uso de um nome e anotação diferentes na publicação do arXiv. Mas se o artigo fosse publicado lá, não seria difícil encontrar o mesmo.

Sempre há vários revisores avaliando um artigo. Um deles é designado como meta-revisor, que deve revisar apenas os vereditos de seus colegas e tomar uma decisão final. Se os revisores discordarem do artigo, um meta-revisor também poderá lê-lo por completo.

Às vezes, depois de revisar a classificação e os comentários, o autor tem a oportunidade de entrar em uma discussão com o revisor; existe até a chance de convencê-lo a mudar a decisão (no entanto, esse sistema não funciona em todas as conferências e é muito menos provável que afete seriamente o veredicto emitido). Na discussão, não se pode se referir a outros trabalhos científicos, com exceção daqueles já mencionados no artigo. Você só pode "ajudar" o revisor a entender melhor o conteúdo do artigo.

Conferências e Revistas

Os artigos em ciência da computação são mais frequentemente enviados especificamente para conferências do que para revistas científicas. O motivo é que os requisitos para publicação em periódicos são mais difíceis de cumprir e o processo de revisão pode levar meses ou até anos. A ciência da computação é um setor de rápido crescimento, de modo que os autores geralmente não estão prontos para aguardar a publicação por tanto tempo. No entanto, um artigo já aceito na conferência pode ser complementado (por exemplo, para fornecer resultados mais detalhados) e publicado em uma revista em que as restrições de volume não são tão rigorosas.

Eventos da Conferência

O formato da presença dos autores dos artigos aprovados na conferência é determinado pelos revisores. Se o artigo receber uma luz verde, você receberá mais frequentemente um suporte para um pôster. Um pôster é um slide estático com um resumo do artigo e ilustrações. Parte das salas de conferência está cheia de longas filas de estandes para pôsteres. O autor passa a maior parte do tempo perto do pôster, comunicando-se com cientistas interessados no artigo.

Uma opção de participação um pouco mais prestigiada é um relatório rápido (conversa relâmpago). Se os revisores consideram o artigo digno de um relatório rápido, o autor recebe cerca de três minutos para abordar uma ampla audiência. Por um lado, a conversa relâmpago é uma boa oportunidade para contar sobre sua ideia, não apenas para aqueles que, por iniciativa própria, se interessaram por um pôster. Por outro lado, os visitantes da iniciativa do pôster estão mais preparados, mais imersos em seu tópico específico do que a audiência média na sala. Portanto, em um relatório rápido, você ainda precisa atualizar as pessoas.

Geralmente, no final de sua palestra relâmpago, os autores chamam o número do pôster - para que os alunos possam encontrá-lo e entender melhor o artigo.

A última opção, de maior prestígio, é um pôster e uma apresentação completa da idéia quando você não precisar mais se apressar na história.

Mas é claro que os cientistas - incluindo autores de artigos aprovados - vêm à próxima conferência não apenas para se mostrar. Primeiro, por razões óbvias, eles procuram encontrar pôsteres que pertencem ao seu campo. E, em segundo lugar, é importante que eles reponham a lista de contatos para fins de trabalho acadêmico conjunto no futuro. Isso não é caçar - ou pelo menos o seu primeiro estágio, pelo menos seguido por uma troca de idéias mutuamente benéficas, melhores práticas e trabalho conjunto em um ou mais artigos.

Ao mesmo tempo, a rede produtiva em uma conferência de topo é difícil devido à total falta de tempo livre. Se, após um dia inteiro gasto em relatórios e em discussões com pôsteres, o cientista manteve sua força e já superou o jetlag, ele foi a uma das muitas partes. Eles estão satisfeitos com as corporações - como resultado, as partes geralmente são mais de natureza caçadora. No entanto, muitos convidados não os utilizam para encontrar um novo emprego, mas, novamente, para o trabalho em rede. Não há mais relatórios e pôsteres à noite - é mais fácil "capturar" o especialista do seu interesse.

Da ideia à produção

A ciência da computação é um dos poucos setores em que os interesses de empresas e startups estão fortemente relacionados ao ambiente acadêmico. O NIPS, o ICML e outras conferências similares são assistidas por muitos especialistas do setor, e não apenas por universidades. Isso é típico para a ciência da computação, mas vice-versa para a maioria das outras ciências.

Por outro lado, longe de todas as idéias apresentadas nos artigos, vão imediatamente para a criação ou aprimoramento de serviços. Mesmo dentro de uma empresa, um pesquisador pode oferecer aos colegas do serviço uma idéia inovadora para os padrões científicos e a implementação é negada por vários motivos. Um deles já foi mencionado aqui - essa é a diferença entre o conjunto de dados "acadêmicos", segundo o qual o artigo foi escrito, e o conjunto de dados real. Além disso, a implementação de uma ideia pode ser adiada, exigir uma grande quantidade de recursos ou melhorar apenas um indicador, com o custo de piorar as métricas restantes.

A situação é salva pelo fato de muitos desenvolvedores e eles mesmos serem um pouco de pesquisadores. Eles participam de conferências, falam a mesma língua com os acadêmicos, oferecem idéias, às vezes participam da criação de artigos (por exemplo, na redação de códigos) ou até atuam como autores. Se um desenvolvedor está imerso no processo acadêmico, monitora o que está acontecendo no departamento de pesquisa, em uma palavra - se ele demonstra um contra-movimento para os cientistas, o ciclo de transformar idéias científicas em novas capacidades de serviço é reduzido.

Desejamos a todos os jovens pesquisadores boa sorte e grandes realizações em seu trabalho. Se este post não lhe contou nada de novo, você já deve ter publicado na conferência de topo. Inscreva-se no prêmio e indique consultores científicos.