
Hoy estamos lanzando un premio científico que lleva el nombre de Ilya Segalovich
iseg . Será premiada por los avances en informática. Los estudiantes y los estudiantes graduados
pueden presentar su propia solicitud para un premio o nominar supervisores. Los galardonados serán elegidos por representantes de la comunidad académica y Yandex. Los principales criterios de selección son: disponibilidad de publicaciones y discursos en conferencias, así como contribución al desarrollo de la comunidad.
El primer premio tendrá lugar en abril. Como parte del premio, los jóvenes científicos recibirán 350 mil rublos cada uno y, además, podrán asistir a una conferencia internacional, trabajar con un mentor y realizar una pasantía en el Departamento de Investigación de Yandex. Los asesores científicos recibirán 700 mil rublos cada uno.
Con motivo del lanzamiento del premio, decidimos contar aquí en Habré sobre los criterios de éxito en el mundo de las ciencias de la computación. Algunos lectores de Habr ya están familiarizados con estos criterios, mientras que el resto podría tener una falsa impresión sobre ellos. Hoy vamos a cerrar esta brecha: tocaremos todos los temas principales, incluidos artículos, conferencias, conjuntos de datos y la transferencia de ideas científicas a los servicios.
Para los científicos en el campo de la informática, el criterio principal para el éxito es la publicación de su trabajo científico en una de las principales conferencias internacionales. Este es el primer reconocimiento de "punto de control" del trabajo del investigador. Por ejemplo, en el campo del aprendizaje automático, la Conferencia Internacional sobre Aprendizaje Automático (ICML) y la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS, anteriormente NIPS) generalmente se distinguen. Hay muchas conferencias en áreas específicas de ML, como visión por computadora, recuperación de información, tecnología del habla, traducción automática, etc.
Por qué publicar tus ideas
Las personas alejadas de la informática pueden tener la idea errónea de que es mejor mantener en secreto las ideas más valiosas y esforzarse por beneficiarse de su singularidad. Sin embargo, la situación real en nuestra esfera es exactamente lo contrario. La autoridad de un científico se juzga por la importancia de su trabajo, por la frecuencia con la que otros académicos citan sus artículos (índice de citas). Esta es una característica importante de su carrera. El investigador asciende en la escala profesional, haciéndose más respetado en su entorno, solo si constantemente entrega trabajos fuertes que se publican, se hacen famosos y forman la base del trabajo de otros científicos.
Muchos de los principales artículos (y posiblemente la mayoría) son el resultado de una colaboración de investigadores en diferentes universidades y empresas en diferentes países del mundo. Un momento importante y muy valioso en la carrera de un investigador es el momento en que tiene la oportunidad de encontrar y filtrar ideas sobre la base de su propia experiencia, pero incluso después de eso, sus colegas continúan brindándole una asistencia invaluable. Los científicos se ayudan mutuamente para elaborar ideas, escribir artículos en colaboración, y cuanto más la contribución del científico a la ciencia, más fácil le resulta encontrar personas de ideas afines.
Finalmente, la densidad y la accesibilidad de la información ahora es tan grande que diferentes investigadores al mismo tiempo tienen ideas científicas muy similares (y realmente valiosas). Si no publica la idea, es casi seguro que alguien la publicará por usted. El "ganador" a menudo no es el que ideó la innovación un poco antes, sino el que la publicó un poco antes. O bien, el que logró revelar la idea de la manera más completa posible, clara y convincente.

Artículos y conjuntos de datos
Entonces, el artículo científico se basa en la idea principal que ofrece el investigador. Esta idea es su contribución a la informática. El artículo comienza con una descripción de la idea formulada en varias oraciones. Esto es seguido por una introducción, que describe la gama de problemas resueltos por la innovación propuesta. La descripción y la introducción generalmente se escriben en un lenguaje simple que es comprensible para un público amplio. Después de la introducción, es necesario formalizar los problemas establecidos en lenguaje matemático e introducir una notación estricta. Luego, utilizando la notación introducida, es necesario compilar una declaración clara y completa de la esencia de la innovación propuesta, para identificar las diferencias con respecto a métodos anteriores y similares. Todos los cálculos teóricos deben estar respaldados por enlaces a evidencia compilada previamente, o probarse de forma independiente. Esto se puede hacer con cualquier suposición. Por ejemplo, puede dar evidencia del caso cuando hay una cantidad infinita de datos en el entrenamiento (una situación obviamente inalcanzable) o son completamente independientes entre sí. Hacia el final del artículo, el científico habla sobre los resultados experimentales que logró obtener.

Para que los revisores que se sienten atraídos por los organizadores de la conferencia tengan más probabilidades de aprobar un artículo, debe tener uno o más atributos. Un factor clave que aumenta las posibilidades de aprobación es la novedad científica de la idea propuesta. A menudo, la novedad se evalúa frente a ideas ya existentes, y el trabajo en su evaluación no lo realiza el revisor, sino el autor del artículo. En el caso ideal, el autor debe contar ampliamente al artículo sobre los métodos existentes y, si es posible, presentarlos como casos especiales de su método. Así, el científico muestra que los enfoques aceptados no siempre funcionan, que los generalizó y propuso una formulación teórica más amplia, más flexible y, por lo tanto, más efectiva. Si la novedad es innegable, entonces el resto de los revisores evalúan el artículo de manera no meticulosa, por ejemplo, pueden hacer la vista gorda al inglés deficiente.
Para reforzar la novedad, es útil agregar al artículo una comparación con los métodos existentes en uno o más conjuntos de datos. Cada uno de ellos debe ser abierto, aceptado en el entorno académico. Por ejemplo, hay un repositorio de imágenes ImageNet y bases de datos de instituciones como el Instituto Nacional Modificado de Estándares y Tecnología (MNIST) y CIFAR (Instituto Canadiense de Investigación Avanzada). La dificultad es que tal conjunto de datos "académicos" a menudo difiere en la estructura de contenido de los datos reales con los que se enfrenta la industria. Datos diferentes: resultados diferentes del método propuesto. Los científicos que trabajan parcialmente para la industria intentan tener esto en cuenta y, a veces, insertar reservas como "en nuestros datos, el resultado es tal y tal, y en el conjunto de datos públicos, tal y tal".
Sucede que el método propuesto está completamente "afilado" en una base de datos abierta y no funciona con datos reales. Puede resolver este problema común abriendo nuevos conjuntos de datos más representativos, pero a menudo estamos hablando de contenido privado que las empresas simplemente no tienen derecho a abrir. En algunos casos, llevan a cabo el anonimato (a veces complejo y meticuloso) de los datos: eliminan cualquier fragmento que indique una persona específica. Por ejemplo, las caras y los números en las fotografías se lavan o se vuelven ilegibles. Además, para que el conjunto de datos no solo sea accesible para todos, sino que se convierta en un estándar entre los científicos, en el cual es conveniente comparar ideas, es necesario no solo publicarlo, sino también escribir un artículo separado sobre él y sus ventajas.
Es peor cuando no hay conjuntos de datos abiertos en el tema en estudio. Luego, el revisor debe aceptar los resultados citados por el autor por fe. Teóricamente, el autor puede incluso sobreestimarlos y permanecer sin ser detectado, pero en el entorno académico esto es poco probable, porque va en contra del deseo de la gran mayoría de los científicos de desarrollar ciencia.
En una serie de áreas de ML, incluida la visión por computadora, también es habitual adjuntar enlaces de código a los artículos (generalmente en GitHub). En los propios artículos, el código es muy pequeño o es un pseudocódigo. Y aquí, nuevamente, surgen dificultades si el artículo es escrito por un investigador de una empresa, y no de una universidad. Por defecto, el código escrito en una corporación o startup está marcado como NDA. Los investigadores y sus colegas deben hacer un gran esfuerzo para separar el código relacionado con la idea descrita de los repositorios internos y ciertamente cerrados.
La posibilidad de publicación depende de la relevancia del tema elegido. La relevancia depende en gran medida de los productos y servicios: si una corporación o una startup está interesada en construir un nuevo servicio o mejorar uno existente basado en una idea de un artículo, esto es una ventaja.

Como ya se mencionó, los artículos sobre informática rara vez se escriben solos. Pero, por regla general, uno de los autores dedica mucho más tiempo y esfuerzo que el resto. Su contribución a la novedad científica es la mayor. Dicha persona se indica primero en la lista de autores, y en el futuro, refiriéndose a un artículo, solo pueden mencionarlo (por ejemplo, "Ivanov et al" - "Ivanov y otros" traducidos del latín). Sin embargo, la contribución de los demás también es extremadamente valiosa; de lo contrario, es imposible estar en la lista de autores.
Proceso de revisión por pares
Los artículos generalmente dejan de aceptar varios meses antes de la conferencia. Después de enviar un artículo, los revisores tienen 3-5 semanas para leerlo, calificarlo y comentarlo. Esto sucede de acuerdo con el sistema simple ciego, cuando los autores no ven los nombres de los revisores, o doble ciego, cuando los propios revisores no ven los nombres de los autores. La segunda opción se considera más imparcial: varios artículos científicos han demostrado que la popularidad del autor afecta la decisión del revisor. Por ejemplo, puede considerar que un científico con una gran cantidad de artículos ya publicados a priori merece una calificación más alta.
Además, incluso en el caso de doble ciego, el revisor probablemente adivinará al autor si trabaja en el mismo campo. Además, el artículo en el momento de la revisión ya se puede publicar en arXiv, el mayor repositorio de artículos científicos. Los organizadores de la conferencia no prohíben esto, pero recomiendan usar un nombre y una anotación diferentes en la publicación para arXiv. Pero si el artículo fue publicado allí, encontrarlo de todos modos no sería difícil.
Siempre hay varios revisores que evalúan un artículo. A uno de ellos se le asigna el papel de meta-revisor, que solo debe revisar los veredictos de sus colegas y tomar una decisión final. Si los revisores no están de acuerdo con el artículo, un meta-revisor también puede leerlo en su totalidad.
A veces, después de revisar la calificación y los comentarios, el autor tiene la oportunidad de entablar una discusión con el revisor; incluso existe la posibilidad de convencerlo de cambiar la decisión (sin embargo, dicho sistema no funciona para todas las conferencias, y es mucho menos probable que afecte seriamente el veredicto emitido). En la discusión, uno no puede referirse a otros trabajos científicos, con la excepción de los que ya se mencionan en el artículo. Solo puede "ayudar" al revisor a comprender mejor el contenido del artículo.

Conferencias y revistas
Los artículos en informática se envían con mayor frecuencia específicamente a conferencias que a revistas científicas. La razón es que los requisitos para las publicaciones en revistas son más difíciles de cumplir, y el proceso de revisión puede llevar meses o incluso años. La informática es una industria de rápido crecimiento, por lo que los autores generalmente no están listos para esperar la publicación por tanto tiempo. Sin embargo, un artículo ya aceptado en la conferencia puede complementarse (por ejemplo, para proporcionar resultados más detallados) y publicarse en una revista donde las restricciones de volumen no son tan estrictas.
Eventos de conferencia
Los revisores determinan el formato de la presencia de los autores de los artículos aprobados en la conferencia. Si se le da luz verde al artículo, a menudo se le asigna un stand para un póster. Un póster es una diapositiva estática con un resumen del artículo y las ilustraciones. Parte de las salas de conferencias están llenas de largas filas de stands para carteles. El autor pasa la mayor parte de su tiempo cerca de su póster, comunicándose con científicos interesados en el artículo.


Una opción un poco más prestigiosa para participar es un informe rápido (charla relámpago). Si los revisores consideran que el artículo es digno de un informe rápido, el autor tiene unos tres minutos para dirigirse a una audiencia amplia. Por un lado, la charla relámpago es una buena oportunidad para contar su idea no solo a aquellos que, por iniciativa propia, se interesaron en un póster. Por otro lado, los visitantes de la iniciativa del póster están más preparados, más inmersos en su tema específico que el público promedio en la sala. Por lo tanto, en un informe rápido, aún tiene que actualizar a las personas.

Por lo general, al final de su charla relámpago, los autores llaman al número del póster, para que los oyentes puedan encontrarlo y comprender mejor el artículo.

La última y más prestigiosa opción es un póster más una presentación completa de la idea cuando ya no necesite apresurarse en la historia.

Pero, por supuesto, los científicos, incluidos los autores de artículos aprobados, vienen a la próxima conferencia no solo para mostrarse. En primer lugar, por razones obvias, buscan encontrar carteles que pertenezcan a su campo. Y en segundo lugar, es importante que repongan la lista de contactos con el fin de realizar un trabajo académico conjunto en el futuro. Esto no es cazar, o al menos su primera etapa, al menos seguida de un intercambio de ideas, mejores prácticas y trabajo conjunto de uno o más artículos que sean mutuamente beneficiosos.
Al mismo tiempo, la creación de redes productivas en una conferencia superior es difícil debido a la falta total de tiempo libre. Si después de un día entero dedicado a informes y discusiones con carteles, el científico retuvo su fuerza y ya había superado el desfase horario, entonces se dirige a una de las muchas partes. Están satisfechos con las corporaciones; como resultado, las fiestas suelen ser más de caza. Sin embargo, muchos invitados no los utilizan para encontrar un nuevo trabajo, sino, de nuevo, para establecer contactos. Ya no hay informes ni carteles por la noche: es más fácil "atrapar" al especialista que le interesa.

De la idea a la producción.
La informática es una de las pocas industrias donde los intereses de las corporaciones y las nuevas empresas están fuertemente relacionados con el entorno académico. A NIPS, ICML y otras conferencias similares asisten muchos expertos de la industria, y no solo de universidades. Esto es típico para la informática, pero viceversa para la mayoría de las otras ciencias.
Por otro lado, lejos de todas las ideas presentadas en los artículos, se dirige inmediatamente a la creación o mejora de servicios. Incluso dentro de una empresa, un investigador puede ofrecer a sus colegas del servicio una idea innovadora según los estándares científicos y se les puede negar la implementación por una variedad de razones. Uno de ellos ya se ha mencionado aquí: esta es la diferencia entre el conjunto de datos "académicos", según el cual está escrito el artículo, y el conjunto de datos real. Además, la implementación de una idea puede retrasarse, requerir una gran cantidad de recursos o mejorar solo un indicador a costa de empeorar las métricas restantes.

La situación se salva por el hecho de que muchos desarrolladores y ellos mismos un poco de investigadores. Asisten a conferencias, hablan el mismo idioma con los académicos, ofrecen ideas, a veces participan en la creación de artículos (por ejemplo, escribiendo códigos) o incluso actúan como autores. Si un desarrollador está inmerso en el proceso académico, sigue en una palabra lo que está sucediendo en el departamento de investigación: si demuestra un movimiento contrario a los científicos, entonces el ciclo de convertir ideas científicas en nuevas capacidades de servicio se acorta.
Deseamos a todos los investigadores jóvenes buena suerte y grandes logros en su trabajo. Si esta publicación no le dijo nada nuevo, es posible que ya haya publicado en la conferencia principal. Regístrese usted mismo para el
premio y nomine asesores científicos.