计分如何在汽车共享行业中发挥作用。 第1部分。流行的实时数据工具概述

共享汽车尽管很年轻,但却是俄罗斯汽车行业最活跃的发展地区之一。 自第一家公司成立以来已经过去了5年,如今,超过25个专门从事短期租赁的运营商在市场上工作。 随着汽车共享的发展,用户数据正在积累,现在汽车共享(如银行)具有一定的客户评分系统。 它还取决于年龄,性别,驾驶经验,但这不是您的贷款历史,而是您的旅行历史。 这种计分的目标之一是,除了偿付能力外,还要对驾驶执照进行确认和罚款,以预测特定驾驶员发生事故的可能性。



在本文中,我们将分析仅针对年龄和驾驶方式的汽车共享用户计分算法的操作逻辑。 除了这些参数之外,为了获得更准确的结果,还可以使用它们-社交状态,带孩子的旅行,社交网络上的活动以及来自车载摄像头的信息。 但是,今天,我们将重点关注两个基本方面:年龄和驾驶方式。

请注意,在本文中,我们将以50,000个用户和260,000次旅行的驾驶活动为例,演示评分的逻辑。 所有数据都是匿名的。 此外,我们使用了与莫斯科和莫斯科地区共发生的220起事故的数据。


此外,在汽车共享中,汽车是一种赚钱的手段,可以用信用购买。 使用这种方法,重要的是尽可能有效地使用它,避免停机。 如果汽车出了事故,那么与保险公司的文书工作,协调,订购备件和实际维修可能要花费相当长的时间,从几天到几个月不等。 计分可以预测性地识别潜在事故,并据此为您提供有关不安全驾驶风险的反馈给客户。

对于汽车共享运营商来说,保护自己的财产并从中赚钱非常重要。 因此,汽车共享平台只是必须收集有关汽车及其发生的一切可能的信息。 对于每次出行,共享汽车的车辆都会收集远程信息处理数据-间隔不超过1秒的出行点,并在这些点上显示车辆指示器(速度,转数,加速度,门窗状态等)。

年龄



与汽车共享运营商签订合同时,驾驶员必须说明他的年龄和驾驶经验。 基于这些数据,我们可以构建以下直方图。


图1.用户年龄

图1显示了汽车共享用户年龄的条形图。 横轴是用户的年龄,纵轴是用户的数量,虚线表示30年的中位数。 它看起来像是正态分布,并且年龄分别为25、30和35岁的用户数量激增。

然后考虑事故肇事者确定的用户年龄分布。

图2.发生事故的用户的年龄

图2示出了负责交通事故的用户年龄分布的直方图,水平-用户年龄,垂直-用户数量。 虚线再次标出了26年的中位数。 因此,很明显,26岁以下的用户比其他人更容易犯事故。

根据直方图,事故的一半是由于四分之一的用户(26岁以下的用户)的故障而发生的。 同样,一群30岁以上的用户(占总数的一半)仅产生了事故的四分之一。

因此,我们发现,年龄不超过26岁的用户发生事故的可能性比年龄超过30岁的用户高出四倍。这引起了更多来自汽车共享运营商方面的年轻用户群体的关注。 许多操作人员的年龄要求不是以18岁开始,而是以21岁开始,这并非巧合。 拼车还希望在他们的用户中看到经验丰富的驾驶员,并表明他们有2年的经验,从而扫除了没有经验的年轻驾驶员。

驾驶风格



驾驶风格更加复杂。 目前,行业中已经建立了一种用于确定驾驶方式的模型-一种用于计算急剧加速和制动的模型。 让我们更详细地考虑它。


图3.车速变化图。


如果车辆速度超过时间间隔Δt≤3sec。 速度增加∆s≥15 km / h,然后在此时间间隔内汽车急剧加速。 同样,如果时间间隔Δt≤3秒。 汽车的速度降低∆s≥15 km / h,然后在此时间间隔内汽车急剧制动。 ∆t和∆s是模型参数,可以上下更改。 例如,图表3显示了车辆速度对时间的依赖性,在第8秒到第11秒之间,汽车的速度从20km / h急剧增加到40km / h,在第15秒到第18秒之间,速度从60km / h急剧下降到30公里/小时
A是沿路线的急加速次数,B是急刹车的次数。 图4显示了总和A + B在所使用路线样本上的分布。


图4.急剧的加速度和制动的分布

请注意,行程可能会持续15分钟,甚至可能是5个小时,因此在选择评分参数时,您需要考虑行程的时间或距离。 D是路线的长度(以公里为单位)。 我们计算路线每1公里的急剧加速和制动次数,即 ((A + B))/ D. 我们得到图5的直方图中所示的不对称分布,其中左侧的值衰减快于右侧的值。 不幸的是,大多数统计方法不适用于高度偏斜的分布。 在这种情况下,对数转换通常会有所帮助,因为对数转换通常可以将不对称性转换为对称性,因为它使您可以将标度拉伸到零附近。


图5.每1公里路径的加速度和制动分布

对数对该函数进行对数后,我们得到Log⁡((((A + B))/ D)。 结果,分布与正常分布非常相似-图6。


图6.每1公里行程的加减速次数的对数

基于该功能,通常建立驾驶风格的评分模型。 让我们尝试通过每个功能运行每个用户的所有路由。 在直方图上图7。


图7.有和没有事故的用户比较

它以蓝色显示所有用户的结果,蓝色虚线表示他们的中位数,红色虚线表示发生事故的用户的结果,红色虚线表示中位数。 可以看出,发生事故的用户的结果向右移,即 发生事故的用户在运动过程中通常会被急剧制动和加速。 但是,位移非常小,实际上,该功能值与发生事故的事实之间没有关联。 我们考虑了用户的平均表现,但用户平均可以安全行驶,但偶尔会鲁ck。 考虑每个用户的Log⁡((((A + B))/ D)函数的最大值而不会发生意外的行程。 直方图是图8,虚线表示中位数。


图8.最糟糕的用户旅程

我们添加了发生事故的用户旅行的直方图,并且我们也不会考虑发生事故的用户的旅行。 生成的直方图显示在图9中,其中蓝色虚线是未发生事故的用户的中位数,橙色虚线是发生事故的用户的中值。 向右移动更大。 即 以这种方式发生事故的用户在一般人群中脱颖而出。


图9.最糟糕的用户行程比较

基于此方法,我们建立了评分模型。 模型的结果如图10所示。蓝色表示所有用户的结果,橙色表示发生事故的用户的结果。 速度从0到10,其中0是最差的结果,而10是最佳。 虚线表示两个用户组的中位数。 同时,发生事故的用户的平均速度约为4,而所有用户的速度均为5。80%发生事故的用户的速度低于平均水平,换句话说,发生事故的用户中80%的驾驶速度低于平均水平。


图10.计分结果

通常在基于远程信息处理数据计算驾驶得分时使用类似的模型。 根据其结果,使用高级轿车或一般服务的机会可能会受到限制。 但是,它并不是所有情况下唯一且最理想的。

本文中描述的模型不适用于预测事故。 在本文中,我们仅对当前的汽车共享模型进行了回顾。 在下一部分中,我们将讨论运动能量模型,该模型专门针对驾驶方式(变速方式,操纵等)运行。

发表者:Kirill Kulchenkov, kulchenkov32 ,Bright Box商业顾问。

Source: https://habr.com/ru/post/zh-CN430558/


All Articles