👄 ➕ 🤾🏽 Preis benannt nach Ilya Segalovich. Geschichte über Informatik und Veröffentlichungen 👨🏼‍🔬 👴🏼 ⬆️

Heute starten wir einen wissenschaftlichen Preis, der nach Ilya Segalovich iseg benannt ist . Sie wird für Fortschritte in der Informatik ausgezeichnet. Studenten und Doktoranden können ihre eigene Bewerbung für einen Preis einreichen oder Betreuer benennen. Die Preisträger werden von Vertretern der akademischen Gemeinschaft und von Yandex ausgewählt. Die wichtigsten Auswahlkriterien sind: Verfügbarkeit von Veröffentlichungen und Reden auf Konferenzen sowie Beitrag zur Entwicklung der Gemeinschaft.

Die erste Auszeichnung findet im April statt. Im Rahmen der Auszeichnung erhalten junge Wissenschaftler jeweils 350.000 Rubel. Außerdem können sie an einer internationalen Konferenz teilnehmen, mit einem Mentor zusammenarbeiten und ein Praktikum in der Yandex-Forschungsabteilung absolvieren. Wissenschaftliche Berater erhalten jeweils 700.000 Rubel.

Anlässlich des Starts der Auszeichnung haben wir uns entschlossen, hier auf Habré über Erfolgskriterien in der Welt der Informatik zu berichten. Einige Leser von Habr sind mit diesen Kriterien bereits vertraut, während der Rest einen falschen Eindruck von ihnen haben könnte. Heute werden wir diese Lücke schließen - wir werden alle Hauptthemen ansprechen, einschließlich Artikel, Konferenzen, Datensätze und den Transfer wissenschaftlicher Ideen zu Dienstleistungen.

Für Wissenschaftler auf dem Gebiet der Informatik ist das Hauptkriterium für den Erfolg die Veröffentlichung ihrer wissenschaftlichen Arbeiten auf einer der wichtigsten internationalen Konferenzen. Dies ist die erste „Checkpoint“ -Anerkennung der Arbeit des Forschers. Im Bereich des maschinellen Lernens werden beispielsweise allgemein die Internationale Konferenz für maschinelles Lernen (ICML) und die Konferenz für neuronale Informationsverarbeitungssysteme (NeurIPS, ehemals NIPS) unterschieden. Es gibt viele Konferenzen in bestimmten Bereichen der ML, wie z. B. Computer Vision, Informationsabruf, Sprachtechnologie, maschinelle Übersetzung usw.

Warum posten Sie Ihre Ideen?

Menschen, die weit von der Informatik entfernt sind, haben möglicherweise die falsche Vorstellung, dass es besser ist, die wertvollsten Ideen geheim zu halten und von ihrer Einzigartigkeit zu profitieren. Die reale Situation in unserer Sphäre ist jedoch genau das Gegenteil. Die Autorität eines Wissenschaftlers wird anhand der Bedeutung seiner Arbeit beurteilt, anhand der Häufigkeit, mit der andere Wissenschaftler seine Artikel zitieren (Zitierindex). Dies ist ein wichtiges Merkmal seiner Karriere. Der Forscher steigt die berufliche Leiter hinauf und wird in seiner Umgebung immer respektierter, nur wenn er ständig starke Werke herausgibt, die veröffentlicht werden, berühmt werden und die Grundlage für die Arbeit anderer Wissenschaftler bilden.

Viele Top-Artikel (und möglicherweise die meisten) sind das Ergebnis einer Zusammenarbeit von Forschern an verschiedenen Universitäten und Unternehmen in verschiedenen Ländern der Welt. Ein wichtiger und sehr wertvoller Faktor in der Karriere eines Forschers ist der Moment, in dem er die Möglichkeit erhält, Ideen auf der Grundlage seiner eigenen Erfahrung zu finden und herauszufiltern - aber auch danach leisten ihm seine Kollegen weiterhin wertvolle Hilfe. Wissenschaftler helfen sich gegenseitig, Ideen zu erarbeiten, Artikel in Koautorschaft zu schreiben - und je mehr der Wissenschaftler zur Wissenschaft beiträgt, desto leichter fällt es ihm, Gleichgesinnte zu finden.

Schließlich ist die Dichte und Zugänglichkeit von Informationen inzwischen so groß, dass verschiedene Forscher gleichzeitig sehr ähnliche (und wirklich wertvolle) wissenschaftliche Ideen haben. Wenn Sie die Idee nicht veröffentlichen, wird sie mit ziemlicher Sicherheit von jemandem für Sie veröffentlicht. Der „Gewinner“ ist oft nicht derjenige, der die Innovation etwas früher erfunden hat, sondern derjenige, der sie etwas früher veröffentlicht hat. Oder - derjenige, der es geschafft hat, die Idee so vollständig wie möglich, klar und überzeugend zu enthüllen.

Artikel und Datensätze

Der wissenschaftliche Artikel basiert also auf der Hauptidee, die der Forscher anbietet. Diese Idee ist sein Beitrag zur Informatik. Der Artikel beginnt mit einer Beschreibung der Idee, die in mehreren Sätzen formuliert ist. Daran schließt sich eine Einführung an, in der die Bandbreite der durch die vorgeschlagene Innovation gelösten Probleme beschrieben wird. Beschreibung und Einführung werden normalerweise in einer einfachen Sprache verfasst, die für ein breites Publikum verständlich ist. Nach der Einführung ist es notwendig, die angegebenen Probleme in mathematischer Sprache zu formalisieren und eine strikte Notation einzuführen. Anschließend muss unter Verwendung der eingeführten Notation eine klare und umfassende Darstellung des Wesens der vorgeschlagenen Innovation erstellt werden, um die Unterschiede zu früheren, ähnlichen Methoden zu ermitteln. Alle theoretischen Berechnungen müssen entweder durch Links zu zuvor zusammengestellten Beweisen oder unabhängig voneinander gestützt werden. Dies kann mit beliebigen Annahmen erfolgen. Zum Beispiel kann man den Fall belegen, dass im Training unendlich viele Daten vorhanden sind (eine offensichtlich unerreichbare Situation) oder sie völlig unabhängig voneinander sind. Gegen Ende des Artikels spricht der Wissenschaftler über die experimentellen Ergebnisse, die er erzielt hat.

Damit Rezensenten, die sich für Konferenzorganisatoren interessieren, einen Artikel mit größerer Wahrscheinlichkeit genehmigen, muss er ein oder mehrere Attribute aufweisen. Ein Schlüsselfaktor, der die Zulassungschancen erhöht, ist die wissenschaftliche Neuheit der vorgeschlagenen Idee. Oft wird Neuheit anhand bereits vorhandener Ideen bewertet - und die Arbeit an ihrer Bewertung wird nicht vom Rezensenten, sondern vom Autor des Artikels durchgeführt. Im Idealfall sollte der Autor den Artikel ausführlich über bestehende Methoden informieren und diese nach Möglichkeit als Sonderfälle seiner Methode präsentieren. Der Wissenschaftler zeigt also, dass die akzeptierten Ansätze nicht immer funktionieren, dass er sie verallgemeinerte und eine breitere, flexiblere und daher effektivere theoretische Formulierung vorschlug. Wenn die Neuheit nicht zu leugnen ist, bewerten die übrigen Rezensenten den Artikel nicht so sorgfältig - zum Beispiel können sie ein Auge vor schlechtem Englisch verschließen.

Um die Neuheit zu verstärken, ist es nützlich, dem Artikel einen Vergleich mit vorhandenen Methoden für einen oder mehrere Datensätze hinzuzufügen. Jeder von ihnen sollte offen sein und im akademischen Umfeld akzeptiert werden. Beispielsweise gibt es ein ImageNet-Bildrepository und Datenbanken von Institutionen wie dem Modified National Institute of Standards and Technology (MNIST) und CIFAR (Canadian Institute for Advanced Research). Die Schwierigkeit besteht darin, dass sich ein solcher „akademischer“ Datensatz in der Inhaltsstruktur häufig von den realen Daten unterscheidet, mit denen sich die Branche befasst. Unterschiedliche Daten - unterschiedliche Ergebnisse der vorgeschlagenen Methode. Wissenschaftler, die teilweise für die Industrie arbeiten, versuchen dies zu berücksichtigen und fügen manchmal Vorbehalte ein wie "auf unseren Daten ist das Ergebnis so und so und auf dem öffentlichen Datensatz - so und so".

Es kommt vor, dass die vorgeschlagene Methode unter einer offenen Datenbank vollständig „geschärft“ wird und nicht mit realen Daten funktioniert. Sie können dieses häufig auftretende Problem lösen, indem Sie neue, repräsentativere Datensätze öffnen. Oft handelt es sich jedoch um private Inhalte, zu deren Eröffnung Unternehmen einfach nicht berechtigt sind. In einigen Fällen führen sie eine (manchmal komplexe und sorgfältige) Anonymisierung von Daten durch - sie entfernen alle Fragmente, die auf eine bestimmte Person hinweisen. Beispielsweise werden Gesichter und Zahlen auf Fotos gewaschen oder unleserlich gemacht. Damit der Datensatz nicht nur für jedermann zugänglich ist, sondern zu einem Standard für Wissenschaftler wird, bei dem es bequem ist, Ideen zu vergleichen, muss er nicht nur veröffentlicht, sondern auch ein separater Artikel über ihn und seine Vorteile geschrieben werden.

Es ist schlimmer, wenn das untersuchte Thema keine offenen Datensätze enthält. Dann muss der Rezensent die vom Autor zitierten Ergebnisse zum Glauben akzeptieren. Theoretisch kann der Autor sie sogar überschätzen und unentdeckt bleiben, aber im akademischen Umfeld ist dies unwahrscheinlich, da dies dem Wunsch der überwiegenden Mehrheit der Wissenschaftler widerspricht, Wissenschaft zu entwickeln.

In einer Reihe von ML-Bereichen, einschließlich Computer Vision, ist es auch üblich, Code-Links an Artikel anzuhängen (normalerweise auf GitHub). In den Artikeln selbst ist der Code entweder sehr klein oder es handelt sich um einen Pseudocode. Auch hier treten Schwierigkeiten auf, wenn der Artikel von einem Forscher eines Unternehmens und nicht von einer Universität verfasst wird. Standardmäßig ist Code, der bei einem Unternehmen oder Startup geschrieben wurde, als NDA gekennzeichnet. Forscher und ihre Kollegen müssen große Anstrengungen unternehmen, um den Code für die beschriebene Idee von den internen und sicherlich geschlossenen Repositories zu trennen.

Die Wahrscheinlichkeit einer Veröffentlichung hängt von der Relevanz des gewählten Themas ab. Die Relevanz wird weitgehend von Produkten und Dienstleistungen bestimmt: Wenn ein Unternehmen oder ein Startup daran interessiert ist, einen neuen Service aufzubauen oder einen bestehenden Service basierend auf einer Idee aus einem Artikel zu verbessern, ist dies ein Plus.

Wie bereits erwähnt, werden Artikel zur Informatik selten allein geschrieben. In der Regel verbringt einer der Autoren jedoch viel mehr Zeit und Mühe als die anderen. Sein Beitrag zur wissenschaftlichen Neuheit ist der größte. Eine solche Person wird zuerst in der Liste der Autoren angegeben - und in Zukunft können sie sie unter Bezugnahme auf einen Artikel nur noch erwähnen (zum Beispiel „Ivanov et al.“ - „Ivanov und andere“, übersetzt aus dem Lateinischen). Der Beitrag der anderen ist aber auch äußerst wertvoll - sonst ist es unmöglich, auf der Autorenliste zu stehen.

Peer-Review-Prozess

Artikel werden in der Regel einige Monate vor der Konferenz nicht mehr angenommen. Nach dem Einreichen eines Artikels haben die Prüfer 3-5 Wochen Zeit, ihn zu lesen, zu bewerten und zu kommentieren. Dies geschieht nach dem Single-Blind-System, wenn die Autoren die Namen der Prüfer nicht sehen, oder nach dem Doppelblind-System, wenn die Prüfer selbst die Namen der Autoren nicht sehen. Die zweite Option wird als unparteiischer angesehen: Mehrere wissenschaftliche Arbeiten haben gezeigt, dass die Popularität des Autors die Entscheidung des Rezensenten beeinflusst. Zum Beispiel könnte er der Ansicht sein, dass ein Wissenschaftler mit einer großen Anzahl bereits veröffentlichter Artikel a priori eine höhere Bewertung verdient.

Selbst bei Doppelblinden wird der Prüfer den Autor wahrscheinlich erraten, wenn er auf demselben Gebiet arbeitet. Darüber hinaus kann der Artikel zum Zeitpunkt der Überprüfung bereits in arXiv veröffentlicht werden - dem größten Repository für wissenschaftliche Arbeiten. Konferenzorganisatoren verbieten dies nicht, empfehlen jedoch, in der Publikation für arXiv einen anderen Namen und eine andere Anmerkung zu verwenden. Aber wenn der Artikel dort veröffentlicht würde, wäre es nicht schwierig, ihn trotzdem zu finden.

Es gibt immer mehrere Rezensenten, die einen Artikel bewerten. Einer von ihnen hat die Rolle eines Meta-Reviewers, der nur die Urteile seiner Kollegen überprüfen und eine endgültige Entscheidung treffen sollte. Wenn Rezensenten mit dem Artikel nicht einverstanden sind, kann ein Meta-Rezensent ihn der Vollständigkeit halber auch lesen.

Manchmal hat der Autor nach Überprüfung der Bewertung und der Kommentare die Möglichkeit, mit dem Rezensenten zu diskutieren. Es besteht sogar die Möglichkeit, ihn davon zu überzeugen, die Entscheidung zu ändern (ein solches System funktioniert jedoch nicht für alle Konferenzen, und es ist viel weniger wahrscheinlich, dass es das Urteil ernsthaft beeinflusst). In der Diskussion kann man nicht auf andere wissenschaftliche Arbeiten verweisen, mit Ausnahme derjenigen, auf die bereits im Artikel Bezug genommen wird. Sie können dem Rezensenten nur helfen, den Inhalt des Artikels besser zu verstehen.

Konferenzen und Zeitschriften

Artikel in der Informatik werden häufiger speziell an Konferenzen als an wissenschaftliche Zeitschriften gesendet. Der Grund dafür ist, dass die Anforderungen an Veröffentlichungen in Zeitschriften schwieriger zu erfüllen sind und der Überprüfungsprozess Monate oder sogar Jahre dauern kann. Die Informatik ist eine sehr schnell wachsende Branche, daher sind Autoren normalerweise nicht bereit, so lange auf die Veröffentlichung zu warten. Ein Artikel, der bereits auf der Konferenz angenommen wurde, kann dann ergänzt (z. B. um detailliertere Ergebnisse zu liefern) und in einer Zeitschrift veröffentlicht werden, in der die Volumenbeschränkungen nicht so streng sind.

Konferenzveranstaltungen

Das Format der Anwesenheit der Autoren genehmigter Artikel auf der Konferenz wird von den Gutachtern festgelegt. Wenn der Artikel grünes Licht erhält, wird Ihnen meistens ein Stand für ein Poster zugewiesen. Ein Poster ist eine statische Folie mit einer Zusammenfassung des Artikels und Abbildungen. Ein Teil der Konferenzräume ist mit langen Ständerreihen für Poster gefüllt. Der Autor verbringt die meiste Zeit in der Nähe seines Plakats und kommuniziert mit Wissenschaftlern, die an dem Artikel interessiert sind.

Eine etwas prestigeträchtigere Option für die Teilnahme ist ein kurzer Bericht (Blitzgespräch). Wenn Rezensenten den Artikel für einen kurzen Bericht wert halten, hat der Autor etwa drei Minuten Zeit, um ein breites Publikum anzusprechen. Einerseits ist ein Blitzgespräch eine gute Gelegenheit, nicht nur denjenigen von Ihrer Idee zu erzählen, die sich von sich aus für ein Poster interessiert haben. Auf der anderen Seite sind Initiativbesucher des Posters besser vorbereitet und vertiefen sich in Ihr spezifisches Thema als das durchschnittliche Publikum im Raum. Daher müssen Sie in einem kurzen Bericht die Leute immer noch auf den neuesten Stand bringen.

Normalerweise rufen die Autoren am Ende ihres Blitzgesprächs die Nummer des Posters an, damit die Hörer es finden und den Artikel besser verstehen können.

Die letzte, prestigeträchtigste Option ist ein Poster sowie eine vollständige Präsentation der Idee, wenn Sie sich nicht mehr auf die Geschichte einlassen müssen.

Aber natürlich kommen Wissenschaftler - einschließlich Autoren genehmigter Artikel - zur nächsten Konferenz, um sich nicht nur zu zeigen. Erstens suchen sie aus offensichtlichen Gründen nach Plakaten, die zu ihrem Fachgebiet gehören. Und zweitens ist es wichtig, dass sie die Kontaktliste für die künftige gemeinsame akademische Arbeit auffüllen. Dies ist keine Jagd - oder zumindest die allererste Phase, gefolgt von einem für beide Seiten vorteilhaften Austausch von Ideen, bewährten Praktiken und gemeinsamer Arbeit an einem oder mehreren Artikeln.

Gleichzeitig ist eine produktive Vernetzung bei einer Top-Konferenz aufgrund des völligen Mangels an Freizeit schwierig. Wenn der Wissenschaftler nach einem ganzen Tag, der mit Berichten und Diskussionen mit Postern verbracht wurde, seine Stärke bewahrt und den Jetlag bereits überwunden hat, dann geht er zu einer der vielen Parteien. Sie sind mit Unternehmen zufrieden - daher sind Parteien oft eher jagdlicher Natur. Viele Gäste nutzen sie jedoch überhaupt nicht, um einen neuen Job zu finden, sondern auch, um sich zu vernetzen. Abends gibt es keine Berichte und Poster mehr - es ist einfacher, den Spezialisten zu „fangen“, an dem Sie interessiert sind.

Von der Idee zur Produktion

Die Informatik ist eine der wenigen Branchen, in denen die Interessen von Unternehmen und Startups stark mit dem akademischen Umfeld verbunden sind. NIPS, ICML und andere ähnliche Konferenzen werden von vielen Experten aus der Branche und nicht nur von Universitäten besucht. Dies ist typisch für die Informatik, aber umgekehrt für die meisten anderen Wissenschaften.

Auf der anderen Seite gehen weit entfernt von allen in den Artikeln vorgestellten Ideen sofort die Schaffung oder Verbesserung von Dienstleistungen. Selbst innerhalb eines Unternehmens kann ein Forscher Kollegen aus dem Dienst eine bahnbrechende Idee nach wissenschaftlichen Maßstäben anbieten und die Implementierung aus verschiedenen Gründen verweigern. Eine davon wurde hier bereits erwähnt - dies ist der Unterschied zwischen dem "akademischen" Datensatz, nach dem der Artikel geschrieben wurde, und dem realen Datensatz. Darüber hinaus kann die Umsetzung einer Idee verzögert werden, eine große Menge an Ressourcen erfordern oder nur einen Indikator verbessern, was zu einer Verschlechterung der verbleibenden Metriken führt.

Die Situation wird dadurch gerettet, dass viele Entwickler und sich selbst ein wenig forschen. Sie nehmen an Konferenzen teil, sprechen mit Akademikern dieselbe Sprache, bieten Ideen an, beteiligen sich manchmal an der Erstellung von Artikeln (z. B. beim Schreiben von Code) oder fungieren sogar selbst als Autoren. Wenn ein Entwickler in den akademischen Prozess eintaucht und mit einem Wort überwacht, was in der Forschungsabteilung geschieht - wenn er Wissenschaftlern eine Gegenbewegung demonstriert, verkürzt sich der Zyklus, in dem wissenschaftliche Ideen in neue Servicefähigkeiten umgewandelt werden.

Wir wünschen allen jungen Forschern viel Glück und große Erfolge in ihrer Arbeit. Wenn dieser Beitrag Ihnen nichts Neues erzählt hat, haben Sie ihn möglicherweise bereits auf der Top-Konferenz veröffentlicht. Registrieren Sie sich selbst für die Auszeichnung und ernennen Sie wissenschaftliche Berater.