CampusInsight:从基础架构监视到用户体验分析

默认情况下,服务级别的概念中已包含无线网络质量。 而且,如果您想满足客户的高要求,则不仅需要快速处理出现的网络问题,还需要预测其中最大的问题。

怎么做? 只有跟踪在此情况下真正重要的是用户与无线网络的交互。



网络负载持续增长,这尤其影响无线网段-至少由于其接口的开放性。 随着设备数量的增加和数据传输速率的提高,问题在多个级别上一次成倍增加。 在物理上,即使许多无线电信号发射器在频谱的相邻部分中工作,它们也会相互影响。 从逻辑上讲,大量连接的设备开始争夺以选定频率开始传输的权利,从而增加了每个用户的数据包传送延迟。

同时,每个客户对使用网络的期望也在增长。 在浏览器中加载5秒的页面(20年前似乎是“技术的巅峰之作”)不会让任何人感到惊讶。 为客户提供高清视频而不会褪色。

新版本的无线传输标准可以更有效地使用频谱,可以部分解决该问题。 随后的每个Wi-Fi版本都旨在部署越来越多的负载网络。 但是,在有十多个接入点运行的大规模网络中,不可能将所有内容都提供给下一个标准(而且,一旦遇到旧的用户设备,设备便以向后兼容模式工作)。 由于无法继续使用旧的监控工具,因此网络环境不断变得复杂。

为什么普通监控不再起作用


经典邮票仍然困扰着包括无线在内的所有网络的管理员,是专门根据要求提供的。 “警报”有效-我们醒来并了解出了什么问题。 同时,没有“警报”,您可以将自己限制在检查主要组件(网络和用户设备)上的负载。

按照此任务,传统的监视和维护工具会在严格的规则基础上工作,并且并不总是及时显示存在的问题,更不用说进行某种预测性分析了。

这里的主要问题是数据收集间隔。 每分钟收集一次有关无线网络连接状态的信息,事件很可能发生在读数收集之间的间隔中(一个很好的例子是“挂断”网络的罕见负载突发)。 由于无法接收实时数据,因此很难弄清是什么原因导致了该问题。 这是网络覆盖的滥用吗? 或者,也许是与业务无关的外部干扰(例如,附近的军事部门“将其倾倒”在空中)。 没有数据可以看到网络某些特性的逐渐下降,因此,对问题进行定位并不是那么简单。 IT人员将不得不花费额外的时间来搜索这样的“大海捞针”。
但是最终用户几乎立即注意到了这个问题。 连接错误,视频广播中断是很好的标记。

经典的监视工具会报告即将到来的网络数据包。 但是他们无法以任何方式回答问题,而是用户是否已解决任务。

要获得此问题的答案,不仅有必要更改工具,还需要更改监视组织本身的方法。 从针对请求的“解雇”工作(实际上是监视特定熨斗的性能和负载),我们将继续控制用户体验并确定可能导致事故的情况。

与达到特定值时的简单警告相比,此转换涉及引入更复杂的问题确定算法。 在华为CampusInsight网络智能平台中,这些算法基于无线服务体验和自学习技术。

深入了解CampusInsight


华为CampusInsight是一个可扩展的平台,用于监视各种规模的无线网络。 基于微服务架构构建。 每个服务都部署在几个实例上,它们之间的消息由相应的总线分发。 可以动态部署其他实例,从而提高工具吞吐量。

实际上,CampusInsight通过五个步骤收集,分析和显示其UI中的数据。



第一步和第二步是访问数据(访问提供其生成信息的设备)和“读数”的集合。 通过使用Google的GPB流遥测捕获和“传统” Syslog(可能的话),华为CampusInsight几乎实时地存储数据:

  • 关于频谱的利用;
  • 接入点和其他网络设备的功能(性能指标,连接的用户数等);
  • 关于特定用户的路径-关于网络配置文件,关于谁,何时以及哪个接入点已连接或未连接(以及使用什么连接参数);
  • 关于音频视频应用程序的工作(使用eMDI,在其他软件包之一中实现)。

为了规避使用SNMP收集数据和发送固定结构的传统工具的局限性,CampusInsight基于订阅模型,用于必要的日志以及数据编码和解码算法。

第三步是分发和缓冲-即 将原始数据发送到Kafka,以分发给更高级别的分析服务。

第四步是分析。 大数据和AI算法可帮助您快速处理原始数据。 结果,确定了与以下问题相关的某些问题:

  • 身份验证(支持Dot1x协议)和DHCP操作;
  • 稳定性和连接速度;
  • 无线接口;
  • 单个设备的操作,包括“特殊情况”,例如PoE问题或将双频设备切换到2.4 GHz;
  • 音视频流的质量-​​但是,仅未加密的SIP或某些交换机支持此功能;
  • 在不同的接入点之间漫游。

AI算法用于解决一些特定问题,例如在无线传输过程中检测通道之间的干扰。



第五步也是最后一步是将数据保存在分布式列数据库Druid中,以备后用。

通过对收集到的信息进行分析,并考虑到使用相同历史数据构建的“基准”,我们可以识别典型的“故障模式”,即确定与问题情况相对应的KPI,并通过提出解决问题的方法来定位问题。 因此,所有网络问题中约有85%属于该工具。



根据空间的层次结构或拓扑结构(例如,办公室的布局),以图形形式将数据呈现给管理员。 您可以构建“热图”,分析某些平台或制造商等设备的影响。 更容易理解是什么引起了问题。



总体而言,CampusInsight提供了很多工具来对问题进行分类,比较受影响的用户,检查有关特定客户工作的数据,甚至还可以“回放”事件发生前的事件,以便快速识别来源。 同时,该产品还支持新的Wi-Fi 6,更不用说其前身了。

案例


尽管大多数案件都由NDA审理,但CampusInsight已在实践中经过测试。 最明显的公开案例是在华为自己的无线网络中使用监视工具。

该网络覆盖约18万名员工的企业,其中有8,000名属于R&D部门(这些办事处在170多个国家/地区设有办事处,总共安装了6.2万个接入点)。

CampusInsight的实施帮助优化了630多个接入点,同时使事件分析效率提高了30%。
以下是一些具体情况。

例子1.组失败


在大量用户上观察到的高级问题通常是低级错误的结果。 而要识别此类问题并非如此简单。 例如,在办公室之一中,尽管设置正确且身份验证服务器没有问题,但许多移动客户端立即遇到了身份验证方面的困难。 可视化不同级别的数据有助于快速识别出交换机是问题的根源,并产生了太多的错误。 为了纠正这种情况,只需要更换一根电缆即可。 问题的本地化和纠正花费了90分钟。

例子2.跟踪漫游质量


沿着分布式网络中特定客户端的路径收集数据,使您可以识别漫游的明显问题。 一个常见的情况是,在建筑物的某些区域中,移动用户在连接网络时遇到问题(尽管看起来,相应的接入点是有序的)。 此类问题的来源之一可能是相邻会议室中接入点的功率过高-因此,客户端没有连接到最近的接入点,而是尝试连接到当前为大量用户服务的接入点(真实情况:连接到会议中的接入点)当用户只是经过时在大厅里)。

为了解决该问题,有时减小负载点的信号强度就足够了,但是,识别需要深入分析与会议室相邻的房间中重复出现的问题。

追踪无线网络的发展趋势,我们可以预见,在可预见的将来,服务问题将不仅会遇到拥有数千个接入点的网络巨头,而且还会受到中型企业(可能仅限于突发事件)面临的问题。 假设事件如此发展,顺理成章地仔细研究新的,更有效的标准和高性能设备是合乎逻辑的。 但是值得记住的是,网络服务的必要范式转移,而由于服务质量的原因,客户尚未开始向竞争对手大规模迁移。

当然,现场的CampusInsight类产品将在大规模部署中最有用,但是现在,云订阅也可以从本地公共云华为购买,用于SMB行业的实施。 通常,那些希望的人可以立即尝试一切并“扭转”。

Source: https://habr.com/ru/post/zh-CN451618/


All Articles