Yandex.Meteum-没有技术的技术。 特定区域营销

自开发Yandex.Meteum服务以来,已经过去了3年,据开发商称,该服务在所有预报站点中提供最高质量的预报。 是时候盘点了。 Yandex的新产品是否真的具有革命性,还是仅仅是营销热潮? 来自俄罗斯水文气象中心的一组科学家设法绕过了Yandex,并创建了一个真正高质量的预报。

图片
首先,自我介绍。 我叫Ilya Vinstein,是Kurgan的业余天气预报员。 我从事气象工作已有14年了。 我负责区域项目“ 45号天气” ,并为科学教育项目“古腾堡的吸烟室”做过多次演讲。

流星 开始

Yandex的预测质量问题。 Meteum:“我在2016年初指定,但当时我只有很少的数据可以得出明确的结论。 通常,我批评Yandex发起的宣传运动。 如果一开始他们使用口号“准确预测到家”,那么他们将其更改为“准确预测到地区”。

Meteum的诞生是以哪种媒体形式出现的? 媒体上有很多出版物,哈布雷(Habré)上有几本出版物,然后有简短的科学视频解释了基于神经网络的第一个预测服务的创建。 Meteum的创建是在神经网络非常流行的时候进行的,媒体将它们描述为可以解决人类许多问题的灵丹妙药。

在普遍进行神经地理定位之后,Yandex决定更新其主要气象部分。 常规的设计更新和新功能的添加不是一个选择,但是更新的主要目标是吸引竞争对手的新用户。 唯一的方法是改变服务感知的范式。 不仅是天气部分,而且是一项全新的服务,能够比其他所有竞争对手更好地预测天气。 不只是Yandex。 天气”和“ Yandex。 Meteum”-一种能够产生准确的房屋或区域预报的系统。

问题在于,最终产品在评估和接收反馈方面很复杂。 谁来检查预测质量? 如何评估用户的反馈? 在我们的案例中,消费者无法评估最终产品的质量;因此,他会被“汗水”;任何事情都可以做。 所有预后部位的用户都在啄这个技巧。

因此,启动Meteum的整个信息运动看起来像是反科学的闹剧。 过去三年来,Yandex均未提供任何客观数据。 我们还没有看到任何关于理由的报告。

所有数字都归结为:
“根据我们自己的估计(糟糕的是,该地区还没有独立的仪表),今天我们的天气预报比我们所知道的所有竞争对手都更加准确。 例如,我们的24小时温度预报比最接近的竞争对手低35%。”
这是绝对的谎言。 我将解释原因。 如果是1960年,那么这个说法绝对是公平的,但是现在短期预测已经达到一定的上限。 斗争是为了利息,甚至是百分之一。 例如, 根据俄罗斯水文气象中心的数据, 2017年俄罗斯每天气温准确度达到93%。 我们正在谈论由当地水文气象中心的天气预报员发布的那些预报。 对于预测性站​​点和计算机模型,准确性范围为85%至95%。 这里没有35%,而且不可能!

这在科学界如何发生?

假设Yandex能够创造出革命性的产品,真正超越所有竞争对手。 向世界介绍这项技术。 让Yandex团队向全世界展示他们设法创造的东西。 为什么不从科学期刊上的文章开始? 我了解可能不值得一探究竟,因为该产品实际上具有商业成分,这没有错,但前提是该产品确实有效。

任何科学的预测技术都可以通过测试阶段。 通常,实验野兔是档案数据。 在某些情况下,有必要收集一年或几年的数据,然后才发表文章。 之后,将预测与实际气象站报告进行比较。 预测字段对应于实际字段。 计算参数的质量:算术平均温度误差,平均绝对温度误差,相对误差和以百分数表示的对正。 然后,根据操作测试的结果,由专门的方法委员会做出决定-建议使用此预测方法或拒绝使用。

现在是Yandex开发人员的问题。 这些数据在哪里? 这些文章和研究在哪里? 他们在Yandex中说:“我们拥有最准确的预测,请相信我们。” 什么也没显示。 没有什么可吹嘘的。


我们有电话号码,但不会显示给您。 您没有文件。

集合和多模型预测

近来,在天气预报员合奏中,多模型和复杂的预测已广受欢迎。 这是什么意思? 首先,一点理论。 所有预测的主要来源是计算机模型。 用于模拟从土壤到平流层上层的整个地球大气层的程序。 模型的主要内容是所有可见和不可见光谱范围内的卫星数据 。 来自地面站的数据不再对预测质量有如此强烈的影响。 如果将气象站层排除在模型之外,则质量将下降7%,如果排除卫星数据,则质量将下降35-40%。 世界上有11个全球模型和十几个区域模型。

计算机模型非常非常复杂! 并非每个州都能创建自己的定性模型。 例如,国产PLAV模型在世界模型排名中排名第八。 它存在,但实际上从未使用过。

因此,大多数站点和应用程序仅使用2-3个模型。 其他所有事情都与内部数据处理和解释有关。 例如,现在最好的模型是欧洲中程天气预报模型(ECMWF)。 此模型使用Foreca,intellicast和Gismeteo。 但是! 正如我所说,预测处理归结为“抛光”原始模型文件的内部模式。 Gismeteo做得最糟,Intelicast做得更好。 接下来将是证实这一点的数字。

好,整理一下。 计算机模型的一种运行是基于“原样”原理的纯确定性预测。 确定性预测的主要问题是初始数据中的错误,这会导致蝴蝶效应。 最小的初始干扰会导致中期错误。 为了解决这个问题,科学家们开发了整体预报 。 想象一个正常的确定性预测。 使用伪随机数生成器将人为错误引入此预测中。


合奏预测。 美国型号GFS。 20名成员。

因此,它又进行了20或50次。 然后建立一个图形,您可以在其中查看预测对初始数据错误的敏感程度。 如果确定性预测在10天后导致变暖,并且20个合奏成员下降,也就是说,他们降温,则此期间的确定性预测是错误的。

但是科学家走得更远。 他们开始同步确定性预测并创建多模型预测 ,而该预测不是基于一个模型而是一个十几个模型建立的。


在meteoblue网站上对莫斯科的多模型预测。 11个型号

例如,有7个模型在5天后产生降水,而3个模型预测干旱。 因此,降水的概率为70%。 一起,建议同时观看整体预报。

现在我们到了最本质。 水文气象中心如何绕过Yandex?

综合预测

2014年,俄罗斯水文气象中心水动力短期预报部门负责人和著名的气象学家阿列克谢·巴格罗夫(Alexei Bagrov)及其团队共同开发了一种简单但从根本上来说是全新的统计方案,用于处理原始预报数据 。 它发表在《气象和水文学》杂志上,标题为“地面气象价值的综合预测”。

该技术的本质很简单,但这就是它的优越性。 通过对所包含模型的结果进行统计处理,可以获得全面的预测。 同时,对于气温,风向和露点,使用了相应模型和站点实际数据的前20天的预报档案,而对于降水,则使用了类似的一年档案。 针对每个站点和每个提前期预测分别进行计算。

为了使其更简单,Bagrov建议根据当地气象站的实际数据对最佳模型的预报进行统计调整。 该技术在文章本身中进行了详细描述 。 在这里,我将重点介绍一些关键点。 计算最高和最低温度时要考虑最近5或3天的误差。 例如,在过去的5天中,我们的模型将温度平均低估了2度,因此我们需要在最近的预测中包括此误差,并将预测稳定在最可能的值上。 因此,预测会根据先前在高估或低估方向上的偏差自动进行自我校正。

四年来,预测一直处于测试阶段。 2018年9月,测试结果发表在《 俄罗斯气象水文学 》杂志上。 简要地,研究结果在这里宣布 。 我注意到,这4年的预报均在俄罗斯水文气象中心方法办公室的网站上发布。 计算得出的是俄罗斯的224个城市。 每个月都会发布理由报告。 他们继续走到今天。

谦虚安静-做出更好的预测

俄罗斯水文气象中心做了其他人无法做的事情。 他们自动收集了7个不同预报站点的预报并分析了其准确性。 以下是1.5年的数据-从2016年1月到2017年6月,莫斯科,圣彼得堡和雅库茨克。


各个城市的最低(a)和最高(b)温度预报的平均绝对误差:2016年1月1日至2017年6月30日期间的莫斯科,圣彼得堡和雅库茨克。网站预报:1-Meteoinfo.ru; 2-Gismeteo.ru; 3-Fobos(meteovesti.ru); 4-Rp5.ru; 5-Yandex.ru; 6-Intellicast.com; 7-巴格罗夫综合预测。

我们达到了真正的本质。 从数据中可以看到,在白天温度的第一天,Yandex立刻处理了大约3种资源:meteoinfo,intellicast和Bagrov的综合预报。 后者显示1-2天的最低误差。 Intellicast和全面的预测将持续3-4天。 Yandex仅位于3个位置。

请注意,Runet上最受欢迎的Gismeteo不太准确。 在第一天,其2度的平均误差很大。 该排名的反领导者是网站meteovesti.ru

不要以为没有更多的新数据。 2018年初,俄罗斯水文气象中心方法办公室的网站上出现了“各个互联网站点的预报评估 ”部分。 本部分单独或一起发布有关47个城市的数据。

许多人可能会说这是过时的数据,但是已经有一个新的十月问责制报告。 我们将研究它。 抽取27个城市作为ETR的样本。



Yandex一天的每日温度预测在情报准确性和全面预测方面均具有可比性。 在接下来的2-5天中,智能广播会略微绕过Yandex。 根据夜间气温的预测,Meteum会稍差一些。 在第一天,有3个站点绕开了它:气象信息,情报广播和综合预报。 在第二天,趋势继续。 在第6天,Yandex超越了智能广播和气象信息。

对于亚洲领土,分布大致相似。 在几乎所有情况下,Yandex都会绕过三个气象信息,智能广播和复杂信息。 许多人已经注意到,meteoinfo官方网站提供了出色的准确性。 是的,是的。 现在,该网站使用称为REP(天气要素计算)的独立统计模型数据处理方案。 这个方案还不错,但是比综合预测要差一些。 在冬季,她很难预测夜间会降温。 我提请您注意所有这些数据处理方案都是在创建专有Yandex之前很久才发明的。 流星

输出和显示问题

仅仅创建高质量的预测是不够的;仍然有必要学习如何为外行充分显示它。 用户访问天气站点时,他首先会查看10天的天气预报,以大致了解温度变化。 但是,如果您深入研究温度,就会发现许多细微差别。 例如,该站点说白天将为+15度,但是您打开温度图表并了解这些+15将在晚上,而白天的温度会更低! 这种情况称为温度逆转,即夜晚的温度高于白天的温度。 此处导出最高和最低温度的问题是,从整个时间序列中捕获了min和max的值,而没有昼夜分开。 从外行的角度来看,这是一个骗局。 所有站点都犯罪。 最高温度通常固定在08到20小时之间,具体取决于季节,天气条件和气象站的坐标。 再次根据季节和天气情况,在20至08小时内观察到最小值。 这被称为气象日。 例如,位于莫斯科VDNKh的主要气象站的最高气温为21小时,最低为9小时。
下面,我列举了非典型温度行为的情况,当重要的是不要从整个时间序列中而是在严格设置的时间间隔中捕获最高和最低温度时,这一点很重要。 如果不满足条件,那么即使定性预测,也会欺骗用户。



另一个问题是,几年前,Yandex开始提供气候数据以进行长期预报,但这并不完全正确。 Yandex决定在过去7年中使用原始CFSR计算机重新分析文件(NCEP),从而创建了一个小的气候样本。 现在,他们将平均时间切换到10年,这不会改变这种情况。 在该站点上还出现了“降水概率”参数,该参数在过去的十年中根据计算机重新分析进行了类似计算,但存在严重问题。 计算机的再分析对冬季对流降水和小雪的模拟非常差,因此Yandex的概率为0%,根据气象站的概率为50%,这仅是因为气象站具有记录真实降水的降水量计,而不是虚拟的。 因此,通过气象站而不是通过计算机重新分析对数据进行平均更为正确。 我写信给Yandex,并得到了答案:“我们将其(注释建议)添加到了我们的用户的报价清单中。 我们的专家在准备对服务进行任何更改时总是会熟悉这些想法,并在可能的情况下尝试将它们考虑在内。” 6个月后,一切都没有改变。


保持生命

我还建议Yandex使用长期气候模型CFSv2的预测,而不要使用10年的平均数据。 每天更新4次,并提前9个月考虑预测。 当然,我们正在谈论获取平均十年或每月平均数据。 但这是真实的预测,而不是历史信息。 例如,现在该模型表明, 11月在俄罗斯的欧洲部分将温暖干燥

尽管当时Earth.nullschool.net,windytv.com和ventusky.com已经存在,但看着Yandex全面发布预测地图却特别有趣。 这些服务多次提供有关各种模型的更多信息。 Yandex写道,与它们的主要区别在于它们具有更高的准确性。 好吧好吧



夜间降温问题

现在在天气气象学中,在反气旋空气冷却条件下预测夜间温度的问题仍然是一个紧要问题。 怎么了 问题在于计算机模型几乎总是在这样的天气情况下会升高温度。 例如,根据大多数预测,在库尔干(Kurgan),夜间温度会降至-30度:显然,压力会升高,反旋风器的核心将通过该区域。 冷却的理想条件。 但实际上,最小值可能会降至-35 ...- 37度! Yandex发行Meteum时,我认为最终可以解决这个问题。 但是已经,冬天的Yandex在冷却条件下继续升高夜间温度。 目前,世界上只有2个模型可以充分计算该温度。 首先是加拿大的创业板模型。 第二个是北美NAEFS。 , , , . , .



, «» - . , intellicast, meteoinfo , . Gismeteo meteovesti.ru

, . – , . – . , , , , , , , , .

Source: https://habr.com/ru/post/zh-CN428536/


All Articles