
互联网是一个庞大而动态的环境,其中的所有事物都以一种或另一种方式相互连接并且可以相互影响。 这种关系通常被称为“蝴蝶效应”,当系统的一个部分发生很小的变化而导致另一部分发生完全变化时。 效果完美地说明了一个“放置在控制台上的靴子”如何能够降低一项主要服务的效率,同时又使几个陌生人……我们将对此进行讨论。
五年前,当地铁中的Wi-Fi刚刚出现时...
……这种现象将莫斯科人的生活分为“之前”和“之后”。 当时,该项目是世界上唯一的项目,并且其中的所有内容都是独一无二的:网络结构,货币化模型,用户服务,构建和运营方法。
从地铁中的第一个Wi-Fi网络启动以来,我们几乎获得了授权和我们自己的媒体门户。 实际上,我们在与第三方服务集成方面进行了慷慨的尝试,探索了我们的业务模型的功能(“如果我们在地铁中出售咖啡并从大厅运送到入口,该怎么办?”)。
首先,我们积极邀请各个领域的合作伙伴参与我们的工作。 但是,几乎每一项新的会员服务发布都会导致后者的负担减少,并且需要紧急回滚更改。 很少有人能够每分钟处理成千上万个新请求,而且由于不可扩展的体系结构,有些人原则上无法做到这一点。 此类问题的存在使我们监视了附属服务的性能,而附属服务的用户体验直接取决于该附属服务。 并开发减少这种依赖性(代理,缓存)的机制。
曾经在“五百”办公室中大声疾呼的整个公司都在动摇-现在这种情况实际上不再发生。 从2015年7月开始,在屏幕上显示了鲜花销售服务的启动结果,并在我们的子域中进行了交付。但是发展永远不会飞快。 在构建当前系统之前,我们必须“填充锥体”,并根据自己的经验经历一系列的事故。 而且,这个过程不会停止:我们深入研究问题,就越能识别出最意外的依赖关系。 回顾过去,我们了解有时举一个例子说明它是如何重要。 这就是我们要分享的。
新的iOS流量减少了20%
MaximaTelecom专门从事交通运输网络的建设。 使用我们网络的绝大多数订户设备是基于Android和iOS的移动设备,智能手机和平板电脑。 谷歌和苹果两家供应商都有发布其操作系统更新的路线图。 在新版本中,负责连接Wi-Fi的模块经常更改。 最好的情况是,在更新发布的当天,由于设备通过Wi-Fi下载更新,因此流量在增长。 但也有灾难性的案例。
就在去年,苹果发布了新版本的iOS 10.3.1,此后网络流量崩溃了近20%。 事实证明,在新版本的Apple中,“中断”了连接到网络的过程:Captive中的授权机制停止工作,并且设备无法登录MT_FREE。 我不得不在紧急模式下发布修复程序并纠正这种情况。 我们在Apple Bugtracker中打开了一个案例后,经过三个次要更新,此问题已解决。

每分钟对auth.wi-fi.ru授权页面的呼叫次数。 该图清楚地表明与上一时期的指标相比有很大的滞后。Wi-Fi是一种相当古老且极其广泛的技术,这一事实使情况更加恶化,Wi-Fi的创造不应该像我们在莫斯科地铁中那样大规模地使用。 因此,我们必须处理各种设备的整体“沙拉”,每种设备在网络中的行为均以其自己的方式进行。 抽象兆字节或“网络上的球形订户”数量的统一度量标准不适用于我们。 任何服务,无论是对Internet,媒体门户网站还是移动应用程序的基本访问,都应在特定设备和/或操作系统的上下文中考虑,因为问题可能涉及特定且相对狭窄的群体。
...以及数十种最奇特的选择。这不是DDOS:移动运营商的事故导致流量增加了近三分之一
两年前,一家移动运营商发生了重大事故。 在这种情况下,用户正在寻找通信服务的替代方案。 如果我们谈论地铁,那么火车上根本没有替代的通信方式。
澄清度现在,只有少数运营商在配备辐射电缆的区域提供服务。 但是,该技术的容量非常有限,无法为很大一部分用户提供可比较的服务水平。 更不用说限制关税计划上的交通成本了。
但是在车站,蜂窝通信发展非常强劲,更不用说Wi-Fi直接与之竞争的地面部分了。
我们从调度员服务中了解了移动运营商网络上的事故,该服务宣布他们正在攻击我们。 用户数量和流量的增长是如此之快,以至于最初我们以为我们是基于DDOS的。 我们后来了解了流量增加的真正原因,发现三分之一的员工没有手机。
这就是地面上寻找我们的Wi-Fi用户的方式。具体来说,我们的情况是因为我们拥有Wi-Fi网络,这意味着与用户设备中安装哪个电信运营商的SIM卡无关紧要。
值得一提的是,发生的事故对我们的服务产生了部分负面影响。 MT_FREE网络的某些网段,特别是城市公交车和通勤列车中的网络,使用蜂窝通信作为骨干网,这意味着蜂窝网络发生事故会导致这些网段的服务质量下降。
地铁中没有广告的Wi-Fi吗? 是的
广告是免费访问MT_FREE网络的基础,这是因为有了它,服务就存在了并且得到了回报。 作为基本的AdServer,我们多年来一直在使用AdFox。 有趣的是,在我们使用AdServer的整个过程中,AdServer本身并未发生任何重大变化。 它的特点之一是收集展示统计信息的系统,该系统由每小时间隔组成。 这会导致服务响应时间出现有节奏的峰值(每小时,恰好在该小时的边界,“扭曲”开始“恶作剧”并考虑每个答案)。 我们没有立即抓住这个细微差别!
广告请求的AdFox响应时间表。 在小时边界上的爆裂和倾角清晰可见。实际上,对于相同的指标,我们在其他监控工具的印象数中观察到了相同的特征性每小时“峰值”。 但我想谈一谈更极端的情况。 去年冬天,AdFox发生了严重事故:该服务很长时间没有响应。 根据我们的指标,这表现为缺乏用户授权,门户性能急剧下降。 同时,带有证书错误的AdFox管理界面不可用。
adfox.ru证书错误的插图。在进行了几次测试并致电AdFox本身后,我们发现了事故,我们别无选择,只能让所有确定的用户进入网络而无需做广告。
这是我们门户网站上基于Yandex指标的事故。更快的下载有时会产生意想不到的结果
我们所感知的服务质量不仅取决于其他人的基础架构的工作,操作系统的更新和大量资源的崩溃,还取决于特定设备上特定浏览器的行为。 在这方面,我们拥有更多的影响机会,因此我们一直在努力改进产品。 平均而言,我们每天发布一次更新。 但是有时看似简单的更新(可能会导致用户体验的改善)会导致不可预测的后果。
由于我们有机会在网络级别影响服务的运行(例如,通过更改一种流量相对于另一种流量的优先级),因此出现了通过对流量进行优先级排序来加快授权速度的想法。 我们发布了相应的更改,令人惊讶的是,开始发现许多错误,广告收入下降了20%。 技术测试表明,从网络角度来看,该电路绝对正确地工作。 但是,回滚更改确认了原因正是在新设置中。
结果,我们发现通过提高某些脚本相对于其他脚本的优先级,我们在浏览器中授权页面本身的加载级别上更改了功能的执行顺序。 这极大地影响了用户体验。 实际上,授权脚本开始比广告脚本加载和运行更快。 由于它们之间存在现有的关系,因此当一种功能等待另一种功能的结果时,就会出现这种情况,甚至还没有将其下载到设备中。
社交网络与媒体
互联网上用户的行为与标准模式相对应。 人们习惯于通过信使进行交流,在媒体门户网站上搜索内容,通过社交网络和新闻聚合器阅读新闻。 很明显,但仍然关注社交网络是新闻的替代品,反之亦然。 当信息源之一突然发生某些情况时,用户的注意力会重新分配给其余的(通常是最易访问的)。 因此,2017年VKontakte出现了全球性故障。 就我们而言,此事件在我们的新闻门户网站wi-fi.ru上看起来像是用户和时间的急剧增加。 实际上,用户意识到自己喜欢的社交网络无法正常工作,便向我们阅读了新闻。
VK崩溃的时刻标志着门户wi-fi.ru上的负载增加了30%。这种情况说明,大众服务具有安全的余量,以“消化”信息性“邻居”事故的后果是多么重要。
绿色-无事故
所描述的情况不断鼓励我们改进对MT_FREE中的第三方服务的监视。 这是用于操作网络的仪表板的外观。
圣彼得堡的仪表板网络运营。仪表板由许多“交通灯”类型的指示器组成:绿色状态-一切正常,红色-警报。 指示灯的颜色随时间变化。 这可能是正常行为,也可能是异常迹象。 但是,如果您用一条线“拉”出所有指标并将每个测量步骤以这种方式放在板上,您将获得一个二维的,不断增长的图景,描述整个网络的发展。 可以使用旨在识别图形图案的标准机器学习算法轻松地“喂食”该图片(一种FindFace,仅用于传感器图案)。
指标的基于时间的颜色图表仅是描述网络演变的图片。接下来,添加了自学习算法(例如AI),该算法可以自动对模式进行分类并识别偏差或数据不完整的原因。 一切看起来都很简单,但是您认为呢,有多少电信运营商真正使用它呢?
很少,我们不在其中
公平地讲,这项技术在MaximTelecom本身框架内的应用还处于初期阶段,主要是因为尚不清楚需要从网络外部接收什么与从内部获得什么之间的界限。 我们的优势在于,我们从一开始就开始开发必要的算法基础,并将其作为广告网络获利平台的一部分。
首先,Maxima是免费Wi-Fi接入服务的运营商。 此外,与足够数量的“社交” Wi-Fi不同,我们是一家成熟的商业通信运营商。 实际上,这是我们的公司理念:我们努力使通信变得既免费又有利可图,并且我们已经证明了这是可能的。 世界上几乎没有电信运营商可以(或不希望)这样做,因此不为此开发技术。 这给我们带来了希望,将来我们能够将我们的技术推广到MT_FREE的用户体验与传统的付费运营商所提供的一样。 同时,由于更先进的智能控制和操作系统,可靠性水平将更高。
但是,不幸的是,仅由于用户和网络Wi-Fi设备的制造商众多,并且不能在一个公司的能力范围内解决所有问题,并且统一水平明显低于蜂窝网络。 从启动之日起,当连接到网络时,我们将解决各种设备的问题。 这里的“邪恶根源”是没有任何标准的,因此,每个制造商都会创造自己的东西。
为了解决这种行业问题,有国际协会。 例如,现在我们正在领导该项目,使通过广告获利连接到Wi-Fi网络的用户体验标准化。 但这是另一篇文章的主题。
顺便说一下,我们正在不断扩充开发人员,有关职位空缺可以在我们的
职业页面上找到。