Prix ​​nommé d'après Ilya Segalovich. Histoire de l'informatique et publications de lancement



Aujourd'hui, nous lançons un prix scientifique nommé d'après Ilya Segalovich iseg . Elle sera récompensée pour ses avancées en informatique. Les étudiants et les étudiants diplômés peuvent soumettre leur propre candidature pour un prix ou nommer des superviseurs. Les lauréats seront choisis par des représentants de la communauté universitaire et de Yandex. Les principaux critères de sélection sont: la disponibilité des publications et des discours lors des conférences, ainsi que la contribution au développement communautaire.

Le premier prix aura lieu en avril. Dans le cadre de ce prix, les jeunes scientifiques recevront 350 000 roubles chacun, et en outre, ils pourront aller à une conférence internationale, travailler avec un mentor et suivre un stage au département de recherche Yandex. Les conseillers scientifiques recevront chacun 700 000 roubles.

A l'occasion du lancement du prix, nous avons décidé de parler ici sur Habré des critères de réussite dans le monde de l'informatique. Certains lecteurs de Habr connaissent déjà ces critères, tandis que les autres pourraient avoir une fausse impression à leur sujet. Aujourd'hui, nous comblerons cet écart - nous aborderons tous les principaux sujets, y compris les articles, les conférences, les ensembles de données et le transfert d'idées scientifiques aux services.

Pour les scientifiques du domaine de l'informatique, le principal critère de réussite est la publication de leurs travaux scientifiques lors d'une des plus grandes conférences internationales. Il s'agit de la première reconnaissance «checkpoint» du travail du chercheur. Par exemple, dans le domaine de l'apprentissage automatique, la Conférence internationale sur l'apprentissage automatique (ICML) et la Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS, anciennement NIPS) sont généralement distinguées. Il existe de nombreuses conférences dans des domaines spécifiques du ML, tels que la vision par ordinateur, la recherche d'informations, la technologie vocale, la traduction automatique, etc.

Pourquoi publier vos idées


Les personnes éloignées de l'informatique peuvent penser à tort qu'il vaut mieux garder secrètes les idées les plus précieuses et s'efforcer de profiter de leur caractère unique. Cependant, la situation réelle dans notre sphère est exactement le contraire. L'autorité d'un scientifique est jugée par l'importance de son travail, par la fréquence à laquelle d'autres chercheurs citent ses articles (index des citations). C'est une caractéristique importante de sa carrière. Le chercheur gravit les échelons professionnels, ne devient plus respecté dans son environnement que s'il donne constamment de solides travaux qui sont publiés, qui deviennent célèbres et forment la base du travail d'autres scientifiques.

De nombreux articles de premier plan (et peut-être la plupart) sont le résultat d'une collaboration de chercheurs de différentes universités et entreprises de différents pays du monde. Un moment important et très précieux dans la carrière d'un chercheur est le moment où il a l'opportunité de trouver et de filtrer des idées sur la base de sa propre expérience - mais même après cela, ses collègues continuent de lui apporter une aide inestimable. Les scientifiques s'entraident pour élaborer des idées, rédiger des articles en collaboration - et plus la contribution du scientifique à la science est grande, plus il lui est facile de trouver des personnes partageant les mêmes idées.

Enfin, la densité et l'accessibilité de l'information sont maintenant si importantes que différents chercheurs en même temps ont des idées scientifiques très similaires (et vraiment précieuses). Si vous ne publiez pas l'idée, quelqu'un la publiera presque certainement pour vous. Le «gagnant» n'est souvent pas celui qui a proposé l'innovation un peu plus tôt, mais celui qui l'a publiée un peu plus tôt. Ou - celui qui a réussi à révéler l'idée aussi complètement que possible, clairement et de manière convaincante.



Articles et jeux de données


Ainsi, l'article scientifique est construit autour de l'idée principale que propose le chercheur. Cette idée est sa contribution à l'informatique. L'article commence par une description de l'idée formulée en plusieurs phrases. Elle est suivie d'une introduction qui décrit l'éventail des problèmes résolus par l'innovation proposée. La description et l'introduction sont généralement rédigées dans un langage simple et compréhensible par un large public. Après l'introduction, il est nécessaire de formaliser les problèmes énoncés dans le langage mathématique et d'introduire une notation stricte. Ensuite, en utilisant la notation introduite, il est nécessaire de compiler un énoncé clair et complet de l'essence de l'innovation proposée, afin d'identifier les différences par rapport aux méthodes similaires précédentes. Tous les calculs théoriques doivent soit être appuyés par des liens vers des preuves précédemment compilées, soit prouver indépendamment. Cela peut être fait avec toutes les hypothèses. Par exemple, on peut donner des preuves du cas où il y a infiniment de données en formation (une situation manifestement inaccessible) ou lorsqu'elles sont complètement indépendantes les unes des autres. Vers la fin de l'article, le scientifique parle des résultats expérimentaux qu'il a réussi à obtenir.



Pour que les évaluateurs attirés par les organisateurs de la conférence soient plus susceptibles d'approuver un article, celui-ci doit avoir un ou plusieurs attributs. Un facteur clé qui augmente les chances d'approbation est la nouveauté scientifique de l'idée proposée. Souvent, la nouveauté est évaluée par rapport à des idées déjà existantes - et le travail sur son évaluation n'est pas effectué par le critique, mais par l'auteur de l'article. Dans le cas idéal, l'auteur devrait expliquer en détail à l'article les méthodes existantes et, si possible, les présenter comme des cas particuliers de sa méthode. Ainsi, le scientifique montre que les approches acceptées ne fonctionnent pas toujours, qu'il les a généralisées et a proposé une formulation théorique plus large, plus souple et donc plus efficace. Si la nouveauté est indéniable, alors les autres critiques évaluent l'article de manière moins méticuleuse - par exemple, ils peuvent fermer les yeux sur un mauvais anglais.

Pour renforcer la nouveauté, il est utile d'ajouter à l'article une comparaison avec les méthodes existantes sur un ou plusieurs ensembles de données. Chacun d'eux doit être ouvert, accepté dans le milieu académique. Par exemple, il existe un référentiel d'images ImageNet et des bases de données d'institutions telles que l'Institut national modifié des normes et de la technologie (MNIST) et l'ICRA (Institut canadien de recherches avancées). La difficulté est qu'un tel ensemble de données «académique» diffère souvent dans la structure du contenu des données réelles auxquelles l'industrie est confrontée. Différentes données - différents résultats de la méthode proposée. Les scientifiques qui travaillent partiellement pour l'industrie essaient de prendre cela en compte et insèrent parfois des réserves comme «sur nos données, le résultat est tel ou tel, et sur l'ensemble de données public - tel ou tel».

Il arrive que la méthode proposée soit complètement «affinée» sous une base de données ouverte et ne fonctionne pas sur des données réelles. Vous pouvez résoudre ce problème courant en ouvrant de nouveaux ensembles de données plus représentatifs, mais nous parlons souvent de contenu privé que les entreprises n'ont tout simplement pas le droit d'ouvrir. Dans certains cas, ils procèdent à l'anonymisation (parfois complexe et minutieuse) des données - ils suppriment tous les fragments qui indiquent une personne spécifique. Par exemple, les visages et les chiffres sur les photographies sont lavés ou rendus illisibles. De plus, pour que l'ensemble de données ne soit pas seulement accessible à tout le monde, mais devienne un standard parmi les scientifiques, sur lequel il est pratique de comparer des idées, il est non seulement nécessaire de le publier, mais également d'écrire un article séparé à ce sujet et ses avantages.

C'est pire quand il n'y a pas d'ensembles de données ouverts dans le sujet à l'étude. Ensuite, le critique est laissé à accepter les résultats cités par l'auteur sur la foi. Théoriquement, l'auteur peut même les surestimer et ne pas être détecté, mais dans le milieu universitaire, cela est peu probable, car cela va à l'encontre du désir de la grande majorité des scientifiques de développer la science.

Dans un certain nombre de domaines du ML, y compris la vision par ordinateur, il est également habituel d'attacher des liens de code aux articles (généralement sur GitHub). Dans les articles eux-mêmes, le code est soit très petit, soit pseudocode. Et là encore, des difficultés surviennent si l'article est rédigé par un chercheur d'une entreprise et non d'une université. Par défaut, le code écrit dans une entreprise ou une startup est marqué NDA. Les chercheurs et leurs collègues doivent faire beaucoup d'efforts pour séparer le code lié à l'idée décrite des référentiels internes et certainement fermés.

Les chances de publication dépendent de la pertinence du sujet choisi. La pertinence est largement dictée par les produits et services: si une entreprise ou une startup est intéressée à créer un nouveau service ou à améliorer un service existant sur la base d'une idée d'un article, c'est un plus.



Comme déjà mentionné, les articles sur l'informatique sont rarement écrits seuls. Mais en règle générale, l'un des auteurs consacre beaucoup plus de temps et d'efforts que les autres. Sa contribution à la nouveauté scientifique est la plus grande. Une telle personne est indiquée en premier dans la liste des auteurs - et à l'avenir, se référant à un article, ils ne peuvent que le mentionner (par exemple, «Ivanov et al» - «Ivanov et autres» traduit du latin). Cependant, la contribution des autres est également extrêmement précieuse - sinon il est impossible d'être sur la liste des auteurs.

Processus d'examen par les pairs


Les articles cessent généralement d'accepter plusieurs mois avant la conférence. Après avoir soumis un article, les évaluateurs disposent de 3 à 5 semaines pour le lire, le noter et le commenter. Cela se produit selon le système à simple insu, lorsque les auteurs ne voient pas les noms des examinateurs, ou à double insu, lorsque les examinateurs eux-mêmes ne voient pas les noms des auteurs. La deuxième option est considérée comme plus impartiale: plusieurs articles scientifiques ont montré que la popularité de l'auteur affecte la décision du critique. Par exemple, il peut considérer qu'un scientifique possédant un grand nombre d'articles déjà publiés mérite a priori une note plus élevée.

De plus, même en cas de double aveugle, le critique devinera probablement l'auteur s'il travaille dans le même domaine. De plus, l'article au moment de la revue peut déjà être publié dans arXiv - le plus grand répertoire d'articles scientifiques. Les organisateurs de la conférence n'interdisent pas cela, mais ils recommandent d'utiliser un nom et une annotation différents dans la publication pour arXiv. Mais si l'article y était posté, il ne serait pas difficile de le retrouver quand même.

Il y a toujours plusieurs évaluateurs qui évaluent un article. L'un d'eux se voit confier le rôle d'un méta-réviseur, qui ne devrait revoir que les verdicts de ses collègues et prendre une décision finale. Si les réviseurs n'étaient pas d'accord sur l'article, un méta-réviseur peut également le lire pour être complet.

Parfois, après avoir évalué la note et les commentaires, l'auteur a la possibilité d'entrer en discussion avec le réviseur; il y a même une chance de le convaincre de changer la décision (cependant, un tel système ne fonctionne pas pour toutes les conférences, et il est beaucoup moins susceptible d'affecter sérieusement le verdict rendu). Dans la discussion, on ne peut pas se référer à d'autres travaux scientifiques, à l'exception de ceux qui sont déjà mentionnés dans l'article. Vous pouvez seulement "aider" le réviseur à mieux comprendre le contenu de l'article.



Conférences et magazines


Les articles en informatique sont plus souvent envoyés spécifiquement à des conférences qu'à des revues scientifiques. La raison en est que les exigences relatives aux publications dans les revues sont plus difficiles à respecter et que le processus de révision peut prendre des mois, voire des années. L'informatique étant une industrie à croissance très rapide, les auteurs ne sont généralement pas prêts à attendre si longtemps leur publication. Cependant, un article déjà accepté lors de la conférence peut ensuite être complété (par exemple, pour fournir des résultats plus détaillés) et publié dans une revue où les restrictions de volume ne sont pas si strictes.

Événements de la conférence


Le format de la présence des auteurs des articles approuvés à la conférence est déterminé par les examinateurs. Si l'article reçoit le feu vert, alors on vous attribue le plus souvent un stand pour une affiche. Une affiche est une diapositive statique avec un résumé de l'article et des illustrations. Une partie des salles de conférence est remplie de longues rangées de stands pour les affiches. L'auteur passe la plupart de son temps près de son affiche, communiquant avec des scientifiques intéressés par l'article.





Une option de participation un peu plus prestigieuse est un rapport rapide (discours éclair). Si les critiques trouvent l'article digne d'un rapport rapide, l'auteur dispose d'environ trois minutes pour s'adresser à un large public. D'une part, la foudre est une bonne occasion de parler de votre idée non seulement à ceux qui, de leur propre initiative, se sont intéressés à une affiche. En revanche, les visiteurs de l'initiative à l'affiche sont plus préparés, plus immergés dans votre sujet spécifique que le public moyen dans la salle. Par conséquent, dans un rapport rapide, vous devez toujours mettre les gens à jour.



Habituellement, à la fin de leur discours éclair, les auteurs appellent le numéro de l'affiche - afin que les auditeurs puissent le trouver et mieux comprendre l'article.



La dernière option la plus prestigieuse est une affiche et une présentation complète de l'idée lorsque vous n'avez plus besoin de vous précipiter dans l'histoire.



Mais bien sûr, les scientifiques - y compris les auteurs d'articles approuvés - viennent à la prochaine conférence non seulement pour se montrer. Premièrement, pour des raisons évidentes, ils cherchent à trouver des affiches qui appartiennent à leur domaine. Et deuxièmement, il est important pour eux de reconstituer la liste des contacts afin de travailler ensemble à l'avenir dans le domaine universitaire. Il ne s'agit pas de chasse - ou du moins de sa toute première étape, du moins suivie d'un échange d'idées, de bonnes pratiques et d'un travail conjoint mutuellement bénéfiques sur un ou plusieurs articles.

Dans le même temps, le réseautage productif lors d'une conférence de haut niveau est difficile en raison du manque total de temps libre. Si après une journée entière consacrée à des reportages et à des discussions avec des affiches, le scientifique a gardé ses forces et a déjà surmonté le décalage horaire, alors il se rend dans l'une des nombreuses soirées. Ils sont satisfaits des sociétés - en conséquence, les parties sont souvent plus de nature à chasser. Cependant, de nombreux invités ne les utilisent pas du tout pour trouver un nouvel emploi, mais, encore une fois, pour le réseautage. Il n'y a plus de rapports et d'affiches dans la soirée - il est plus facile de «rattraper» le spécialiste qui vous intéresse.



De l'idée à la production


L'informatique est l'une des rares industries où les intérêts des entreprises et des startups sont fortement liés à l'environnement académique. Le NIPS, l'ICML et d'autres conférences similaires réunissent de nombreux experts de l'industrie, et pas seulement des universités. C'est typique de l'informatique, mais vice versa pour la plupart des autres sciences.

En revanche, loin de toutes les idées présentées dans les articles, on va immédiatement à la création ou à l'amélioration des services. Même au sein d'une entreprise, un chercheur peut offrir à ses collègues du service une idée révolutionnaire par rapport aux normes scientifiques et se voir refuser la mise en œuvre pour diverses raisons. L'un d'eux a déjà été mentionné ici - c'est la différence entre l'ensemble de données "académique", selon lequel l'article est écrit, et l'ensemble de données réel. De plus, la mise en œuvre d'une idée peut être retardée, nécessiter une grande quantité de ressources ou améliorer un seul indicateur au prix d'aggraver les métriques restantes.



La situation est sauvée par le fait que de nombreux développeurs et eux-mêmes un peu chercheurs. Ils assistent à des conférences, parlent la même langue avec des universitaires, proposent des idées, participent parfois à la création d'articles (par exemple, en écrivant du code) ou même agissent eux-mêmes comme auteurs. Si un développeur est plongé dans le processus académique, suit ce qui se passe dans le département de recherche, en un mot - s'il démontre un contre-mouvement aux scientifiques, alors le cycle de transformation des idées scientifiques en nouvelles capacités de service est raccourci.



Nous souhaitons à tous les jeunes chercheurs bonne chance et grandes réalisations dans leur travail. Si ce message ne vous a rien dit de nouveau, alors vous avez peut-être déjà publié lors de la meilleure conférence. Inscrivez-vous pour le prix et nommez des conseillers scientifiques.

Source: https://habr.com/ru/post/fr438170/


All Articles