奖以伊利亚·塞加洛维奇(Ilya Segalovich)命名。 有关计算机科学和发行出版物的故事



今天,我们将发起一项以Ilya Segalovich iseg命名的科学奖。 她将获得计算机科学方面的进步奖。 学生和研究生可以提交自己的奖品申请或提名主管。 获奖者将由学术界和Yandex的代表选择。 主要的选择标准是:会议上出版物和演讲的可用性以及对社区发展的贡献。

一等奖将于四月举行。 作为该奖项的一部分,年轻科学家将分别获得35万卢布,此外,他们还将能够参加国际会议,与导师合作并在Yandex研究部实习。 科学顾问每人将获得70万卢布。

在颁奖之际,我们决定在此发表有关计算机科学领域成功标准的文章。 Habr的一些读者已经熟悉这些标准,而其他读者可能会对它们有错误的印象。 今天,我们将弥合这一差距-我们将涉及所有主要主题,包括文章,会议,数据集以及将科学思想转移到服务中。

对于计算机科学领域的科学家而言,成功的主要标准是在最重要的国际会议之一上发表其科学著作。 这是对研究人员工作的第一个“检查点”认可。 例如,在机器学习领域,通常会区分国际机器学习会议(ICML)和神经信息处理系统会议(NeurIPS,以前称为NIPS)。 在ML的特定领域有很多会议,例如计算机视觉,信息检索,语音技术,机器翻译等。

为什么要发表您的想法


远离计算机科学的人们可能会误以为最好将最有价值的想法保密,并努力从其独特性中受益。 但是,我们领域的实际情况恰恰相反。 科学家的权威根据其工作的重要性,其他学者对其论文的引用频率(引用索引)来判断。 这是他职业生涯的重要特征。 只有不断地发表有力的著作,成名并成为其他科学家工作的基础的研究者,研究人员才能走上专业的阶梯,在自己的环境中变得更加受人尊敬。

许多顶级文章(可能是大多数)都是世界各地不同国家的大学和公司的研究人员合作的结果。 在研究人员的职业生涯中,一个重要且非常有价值的时刻是他有机会根据自己的经验来查找和筛选想法的那一刻-但即使在此之后,他的同事仍将继续为他提供宝贵的帮助。 科学家互相帮助,共同提出想法,合作撰写文章-科学家对科学的贡献越大,就越容易找到志趣相投的人。

最后,信息的密度和可访问性现在是如此之大,以至于不同的研究人员同时拥有非常相似(且确实有价值)的科学思想。 如果您不发表想法,几乎可以肯定有人会为您发布。 “赢家”通常不是较早提出创新的人,而是较早提出创新的人。 或者-设法尽可能清楚,令人信服地充分揭示这一想法的人。



文章和数据集


因此,科学文章是围绕研究人员提供的主要思想而建立的。 这个想法是他对计算机科学的贡献。 本文首先用几句话对这一想法进行了描述。 接下来是介绍,介绍了所提出的创新解决的问题范围。 描述和介绍通常用一种易于理解的简单语言编写。 介绍之后,有必要用数学语言形式化所陈述的问题并引入严格的符号。 然后,使用引入的符号,有必要对提出的创新的本质进行清晰,全面的陈述,以找出与以前类似方法的区别。 所有理论计算都必须由先前编译的证据的链接来支持,或者独立证明。 这可以用任何假设来完成。 例如,当训练中有无限数量的数据(显然是无法实现的情况)或它们彼此完全独立时,您可以提供证据。 在文章的最后,这位科学家谈论了他设法获得的实验结果。



为了使吸引会议组织者的审稿人更愿意批准某篇文章,它必须具有一个或多个属性。 增加批准机会的关键因素是所提出想法的科学新颖性。 通常,新颖性是根据已经存在的想法进行评估的,而新颖性的评估工作不是由审稿人而是由文章的作者进行。 在理想情况下,作者应广泛地向文章介绍现有方法,并在可能的情况下,将其作为其方法的特殊情况进行介绍。 因此,这位科学家表明,公认的方法并不总是奏效的,他对它们进行了概括并提出了更广泛,更灵活,因此更有效的理论表述。 如果新颖性是不可否认的,那么其余审稿人对文章的评价就不那么细致-例如,他们可能对英语不好视而不见。

为了加强新颖性,在文章中与一个或多个数据集上的现有方法进行比较是很有用的。 他们每个人都应该开放,并在学术环境中被接受。 例如,有一个ImageNet图像存储库和诸如改良的美国国家标准技术研究所(MNIST)和CIFAR(加拿大高级研究所)之类的机构的数据库。 困难在于这种“学术”数据集的内容结构通常与行业正在处理的真实数据不同。 不同的数据-所提出方法的结果不同。 为该行业部分工作的科学家试图考虑到这一点,有时会插入一些保留,例如“在我们的数据上,结果就这样,而在公共数据集上,就这样”。

碰巧所提出的方法在开放数据库下被完全“锐化”,无法在实际数据上使用。 您可以通过打开新的,更具代表性的数据集来解决此常见问题,但通常我们谈论的是公司根本无权开放的私人内容。 在某些情况下,它们会对数据进行匿名化(有时是复杂而费力的),它们会删除表示特定人的任何片段。 例如,照片中的面孔和数字被冲洗或变得难以辨认。 此外,为了使数据集不仅对所有人都可用,而且成为科学家之间的标准,可以方便地比较思想,不仅需要发布它,还需要撰写有关其及其优点的单独文章。

当所研究的主题中没有开放的数据集时,情况更糟。 然后,审稿人将接受作者出于信念引用的结果。 从理论上讲,作者甚至可以高估它们,而不会被发现,但是在学术环境中,这是不可能的,因为这与绝大多数科学家对科学发展的渴望背道而驰。

在ML的许多领域中,包括计算机视觉,习惯上也将代码链接附加到文章上(通常在GitHub上)。 在文章本身中,代码要么很小,要么是伪代码。 同样,如果文章是由公司的研究人员而不是大学的研究人员撰写的,那么这里也会出现困难。 默认情况下,在公司或初创公司编写的代码标记为NDA。 研究人员及其同事必须付出很多努力,才能将与所描述思想相关的代码与内部(当然是封闭的)存储库分开。

发表的机会取决于所选主题的相关性。 相关性在很大程度上取决于产品和服务:如果公司或初创公司有兴趣根据文章中的想法来构建新服务或改善现有服务,那么这是一个加分。



如前所述,关于计算机科学的文章很少单独撰写。 但是通常,其中一位作者比其他人花费更多的时间和精力。 他对科学新颖性的贡献最大。 首先在作者列表中标明此人-将来,在提及文章时,他们只能提及他(例如,“ Ivanov et al”-“ Ivanov and others”(拉丁文翻译))。 但是,其他人的贡献也非常宝贵-否则就不可能出现在作者名单上。

同行评审过程


文章通常在会议开始前的几个月就停止接受。 提交文章后,审阅者有3-5周的时间对其进行阅读,评分和评论。 根据单盲系统,当作者看不到审稿人姓名时,或者根据双盲系统,当审稿人本人看不到作者姓名时,就会发生这种情况。 第二种选择被认为更加公正:几篇科学论文表明作者的受欢迎程度影响了审稿人的决定。 例如,他可能认为具有大量先验文章的科学家应享有较高的评价。

而且,即使在双盲的情况下,审稿人也可能会猜测作者是否在同一领域工作。 此外,评论时的文章已经可以在最大的科学文献资料库arXiv中发表。 会议组织者不禁止这样做,但是他们建议在arXiv的出版物中使用其他名称和注释。 但是,如果将文章张贴在此处,则找到相同的内容将不会很困难。

总是有多位审稿人对文章进行评估。 其中一名被指定为元审阅者,该审阅者仅应审阅其同事的裁决并做出最终决定。 如果审阅者不同意该文章,那么元审阅者也可以阅读该文章以确保完整性。

有时,在审阅评分和评论后,作者有机会与审阅者进行讨论; 甚至有机会说服他更改决定(但是,这种系统并不适用于所有会议,而且严重影响做出的裁决的可能性要小得多)。 在讨论中,除了本文中已经提到的那些科学著作外,不能提及其他科学著作。 您只能“帮助”审阅者更好地理解文章的内容。



会议和杂志


计算机科学中的文章通常是专门发送给会议的,而不是科学期刊。 原因是期刊中的出版物要求更加难以遵守,并且审核过程可能需要数月甚至数年。 计算机科学是一个快速发展的行业,因此作者通常不准备等待这么长时间。 但是,可以补充已经在会议上接受的文章(例如,以提供更详细的结果),并在数量限制不太严格的期刊上发表。

会议活动


会议上批准文章作者的出席形式由审阅者确定。 如果文章获得绿灯,则通常会为您分配一个海报架。 海报是一张静态幻灯片,其中包含文章和插图的摘要。 会议室的一部分充满了排成一排的海报架。 作者将大部分时间都花在了他的海报附近,并与对该文章感兴趣的科学家进行了交流。





参与度稍高一些的选择是快速报告(闪电演讲)。 如果审稿人认为该文章值得快速报道,则给作者约三分钟的时间,向广大读者发表讲话。 一方面,闪电演讲是一个很好的机会,不仅可以向那些主动对海报感兴趣的人介绍您的想法。 另一方面,与房间中的一般观众相比,发帖者的主动访问者更加准备,更加专注于您的特定主题。 因此,在快速报告中,您仍然必须使人们保持最新状态。



通常,在雷电谈话的结尾,作者会拨打海报的号码-以便听众可以找到并更好地理解文章。



最后一个最负盛名的选择是张贴画,以及当您不再需要进入故事时的完整演示文稿。



但是,当然,科学家们-包括获批文章的作者-参加下一次会议不仅是为了展示自己。 首先,出于明显的原因,他们寻求找到属于自己领域的海报。 其次,对于他们来说,为了将来进行联合学术工作,补充他们的联系清单很重要。 这不是狩猎-至少不是它的第一阶段,至少在此之后是互惠互利的思想,最佳实践的交流以及共同撰写一篇或多篇文章。

同时,由于完全缺乏空闲时间,因此很难在高层会议上进行有效的联网。 如果经过一整天的报告和与海报的讨论,这位科学家保留了自己的力量并且已经克服了时差,那么他将参加众多聚会之一。 他们对公司感到满意-结果,聚会通常更像狩猎。 但是,许多来宾根本不使用它们来寻找新工作,而是再次用于联网。 晚上不再有报告和海报了-轻松“捉住”您感兴趣的专家。



从构思到生产


计算机科学是公司和初创企业的利益与学术环境密切相关的少数几个行业之一。 NIPS,ICML和其他类似的会议不仅来自大学,而且来自行业的许多专家也参加了会议。 这对于计算机科学而言是典型的,但对于大多数其他科学而言则相反。

另一方面,与文章中提出的所有想法相去甚远的是,立即创建或改进服务。 甚至在一个公司内部,研究人员也可以通过科学标准向服务同事提供突破性的想法,并且由于各种原因而被拒绝实施。 这里已经提到其中之一-这是根据文章撰写的“学术”数据集与实际数据集之间的区别。 此外,一个想法的实施可能会延迟,需要大量资源或仅改善一个指标,但会恶化其余指标。



许多开发人员和他们自己都有一些研究人员,这一事实得以挽救。 他们参加会议,与学者讲相同的语言,提出想法,有时参与撰写文章(例如,编写代码),甚至自己扮演作者。 一言以蔽之,如果开发人员沉浸于学术过程中,那么紧跟着研究部门正在发生的事情,总之,如果他向科学家展示了反作用,那么缩短了将科学构想转变为新服务能力的周期。



我们希望所有年轻研究人员在他们的工作中取得好运并取得重大成就。 如果该帖子没有告诉您任何新内容,那么您可能已经在顶级会议上发表了。 自行注册该奖项并提名科学顾问。

Source: https://habr.com/ru/post/zh-CN438170/


All Articles