关于网站解析或“所有在线商店都这样做”的真相

在本文中,我将尝试最简单地讨论解析站点及其主要细微差别。 我的公司已经解析站点超过三年了,每天我们解析大约300个站点。 我通常会在社交网络上公开地对此发表评论(另外,我们免费免费公开解析俄罗斯最大的商店的很多分析结果),这引起了热烈的讨论并遭到了用户的反对。 阅读评论后,很有趣的是,您可以查看PM并阅读帖子中评论中谴责我们的人提供的合作建议:)整篇文章的格式将是最常见的问题和诚实的答案(市场营销资料,而非技术资料) )

1.什么是解析?


根据定义,解析是非结构化信息的自动收集,其转换和结构化形式的输出。 很无害,不是吗? 但是,社会将这种行为同青少年手淫一样对待-许多人这样做:),但是没有人公开谈论它。 而且,解析经常被拒绝,并且被认为有些可耻。 在大多数类似情况下,原因是错误的认识。

我会告诉你一个秘密:每个人都在参与解析...至少,市场上所有主要参与者都在参与其中。 几年前,在Vedomosti的一篇文章中,M-video,Svyaznoy和Citylink的代表甚至响应FAS的利益公开谈论了这一点(请参见此处 )。

2.解析的目的是什么?


首先,解析的目标是价格“智能”,分类分析和跟踪商品库存。 “谁,卖多少,卖多少?” -解析应回答的主要问题。 更详细地讲,解析竞争对手的范围或相同的Yandex.Market将回答前三个问题。

随着货物的流通有些复杂。 但是,诸如“ Wildberries”,“ Lamoda”和Leroy Merlin之类的公司公开提供有关每日销售(订单)或产品余额的信息,基于这些信息不难形成总体销售思路(我经常听到这样的观点,即这些数据可能会失真故意-也许,但也许不是)。 我们查看了今天,明天,后天等等一个月内有多少商品库存,并且时间表已经准备好,并且已经绘制了按位置数量变化的动态信息(实际上是商品周转率)。 动态性越高,营业额越大。

图片

通过每天分析Leroy Merlin网站上的残留物,可能会发现货物的营业额。

当然,您可以参考点之间的货物移动。 但是总的来说,如果以莫斯科为例,这个数字不会有太大变化,而且很难相信跨地区的货物会大量流动。

情况与销量相似。 当然,有些公司以多/少的形式发布信息,但是即使这样您也可以工作,并且很容易跟踪到最畅销的职位。 特别是如果您裁掉便宜的职位,而只专注于那些价值最大的职位。 至少我们做了这样的分析-结果很有趣。

其次,解析用于获取内容。 在这里,“灰色的法律阴影”风格的故事已经发生。 尽管解析并非完全如此,但许多人仍对解析完全是对内容的盗窃感到困惑。 解析只是信息的自动收集,仅此而已。 例如,解析照片,尤其是那些带有“水印”的照片,纯粹是对内容的盗窃和侵犯版权。 因此,他们通常不这样做(在我们的工作中,我们仅限于收集图像的链接,仅此而已……有时候,他们要求我们计算照片数量,跟踪产品上视频的可用性并提供链接等)。

关于内容的收集,带有产品描述的情况更加有趣。 最近,我们收到了一项命令,要求在50家大型在线药房的网站上收集数据。 除了有关分类和价格的信息外,我们还被要求“保留”医疗设备的描述-每包中都包含所谓的 事实信息即 不太可能受版权法管辖。 这样一来,客户无需手动设置说明,而只需要对说明模板进行少量调整即可,仅此而已-网站的内容已准备就绪。 但是,是的,也许还有作者对经过公证人认证的药物的描述,这些药物是专门用来诱骗小偷的:)。

还可以考虑使用OZON.RU或Labyrinth.ru来收集书籍说明。 从法律的角度来看,情况并非如此简单。 一方面,使用这样的描述可能会侵犯版权,尤其是如果每个产品卡的描述都经过公证(我强烈怀疑-它可能没有经过认证,唯一的例外是他们想将内容窃贼拖到法院的小资源)。 无论如何,在这种情况下,您将不得不“大汗淋漓”以证明此描述的独特性。 一些客户甚至走得更远-他们连接了同义词,这些同义词可以“即时”更改描述中的单词(好坏),同时保持常识。

解析的另一个应用是非常原始的-“自我解析”。 这里追求几个目标。 首先,它跟踪网站内容的变化:链接断开,缺少描述,商品重复,缺少插图等。 解析器需要半小时的工作-现在,您有了一个现成的表格,其中包含所有类别和数据。 方便! 也可以使用“自分析”来比较站点上的余额和仓库余额(也有此类客户跟踪到站点上载的失败)。 我们在工作中遇到的“自我分析”的另一个应用是从网站构造数据以将其上传到Yandex Market。 相对于手动操作,这要容易得多。

广告也可以在CIAN-e,Avito等上进行解析。 此处的目标可以是将基地转售给房地产经纪人或旅行社,也可以是完全的电话垃圾邮件,重新定位等。 对于Avito,这尤其明显,因为 带有用户电话的表格会立即被编译(尽管Avito会替换用户的电话以进行保护并将其发布为图片,但仍然无法从来电中获得任何信息)。

3.“我的履历表给你的是什么?” 或解析HH.RU


最近,解析Headhunter的请求变得很重要。 没错,起初要求人们向他们出售“猎头基地”。 但是,当他们已经知道我们没有并且不能拥有任何基础时,我们将继续讨论在他们的个人资料中进行解析(“使用密码”)。 这是一个特殊的解析方向,坦白说,这对我们来说不是很有趣,但是值得一讲。

什么是微妙之处? 客户可以访问他的帐户,并根据自己的需要设置数据收集任务。 即 他已经支付了访问HH数据库的费用,并与我们签署了一项协议,为我们设定了以他的利益和他的帐户自动收集信息的任务,这完全由他负责。 如果HH检测到异常活动,该帐户将被阻止。 因此,我们尝试在数据收集中尽可能地模拟人类活动。

如果HH(据我所知,“成功”失败了使用API​​的实验)按区域(例如,莫斯科目前在职的所有营销总监的联系方式)在平板电脑中提供(出售)了数据,则没人会找我们。 同时,人们必须使用“笔”来做到这一点,他们来找我们。 毕竟,当您拥有这样一张桌子时,进行广告垃圾邮件-打个电话很方便。

我再次强调,我们没有HH数据库,我们只是为每个客户收集其需求,他的帐户和他的责任的数据。 违反要约合同与解析方对网站的使用无关。 通过与我们签订协议,客户将收到约450名决策者的运行联系,我们会将其放在服务器上,然后由他的销售部门决定如何处理。 嗯,如果我们有这样的基础,我们也会被“垃圾邮件”。 开个玩笑:)

尽管就我个人而言,我认为使用密码进行解析没有任何前景。 解析开放资源是另一回事。 一旦设置好所有内容并不断进行解析,便可以转售对所有收集到的数据的访问权。 这更有希望。

4.解析合法吗?


俄罗斯法律中没有禁止解析的条款。 禁止黑客入侵,DDOS和盗窃受版权保护的内容,并且解析既不是一个也不是另一个,也不是第三次,因此也不禁止解析。

有些人认为解析是DDOS攻击,并对此表示怀疑。 但是,这些是完全不同的事情,相反,在解析时,我们尝试尽可能少地加载目标站点,并且不会损害业务。 与健康寄生虫一样,我们不希望企业“丢下蹄子”,否则我们将没有任何东西可以“寄生”。

通常,他们要求解析俄罗斯300-500个顶级站点中的大型站点。 通常,在此类网站上,每月的访问量为数百万,甚至可能更多。 在这样的背景下,每秒解析一两个产品几乎是不可见的(更频繁地解析是没有意义的,每个产品1-2秒是大型站点的最佳速度)。 因此,在我们的行动中没有DDOS攻击的迹象。 很少有人会要求我们每天更新整个BERU.RU网站-坦率地说,这太过头了,而且网站的负载过高……通常需要3-4天。

让我提醒您,解析只是我们用自己的眼睛在网站上看到并复制到我们手中的内容的集合。 因此,只有具有已收集信息的动作,即 客户本人的行为。 只是一个人长时间很缓慢地执行此操作,并且出现错误,而解析器却很快就不会出错。 从速卖通或Wildberies收集数据时该怎么办? 这样的任务完全超出了人的能力,而解析是唯一的出路。

没错,他们最近要求解析国家机构的网站-法院,如果我没记错的话。 所有信息都在公共领域,但是我们(以防万一)拒绝了。 :)

5.“您为什么解析我们,我们是客户”,或者解析和价格监控有什么区别?


价格监视是最流行的解析应用程序之一。 但这对他来说并不简单-在这种情况下,我们不仅要工作,而且客户本人也要工作。

当订购价格监控时,我们立即警告我们不仅要解析竞争对手,而且还要解析客户。 要获得包含商品和价格的相似表,这是必需的,我们可以自动更新这些表。 但是,只有这样的数据才能相互关联(所谓的商品匹配),才具有价值。 我们可以自动关联来自不同站点的某些职位,但是不幸的是,目前“机器”还不能很好地保证这一点而没有错误,而且没有人比一个人更好(例如,在该地区的兼职员工上远程工作)会做。

如果每个人都在网站上显示条形码,那将是一件很不错的事,我们可以自动创建所有“捆绑包”。 但是,不幸的是,事实并非如此,甚至不同的公司对不同的产品名称也使用不同的拼写。

最好将这些工作执行一次,然后定期重新检查,并在必要时进行小的调整。 如果有链接,我们已经可以自动更新此类表。 此外,通常人们不需要监视所有商品的价格:有条件的35,000个职位位于顶部,而琐碎的事情就没有意义了。 来自该地区的操作员每月只需支付约10,000卢布即可轻松进行此类工作。

我认为,在这种情况下,最成功,最正确的情况是将竞争对手的价格表直接上传到您的1C-ku(或其他ERP系统),并且您已经可以进行比较了。 因此,价格监控最容易在分析师的日常活动中实施。 无需分析,没有人需要这种解析。

6.如何保护自己免受解析?


没办法 并且值得保护自己免受解析吗? 我不会 仍然没有100%有效的保护措施(更确切地说,我们尚未见面),因此我认为捍卫自己没有多大意义。 防止解析的最好方法是简单地将完成的表摆放在站点上并编写-从此处获取它,每两天更新一次。 如果人们这样做,那么我们将没有面包。

顺便说一下,他们最近致电了一个大型网络的IT总监-他们想测试其对解析的保护。 我直接问他为什么不这样做。 作为技术专家,他完全理解没有任何防止解析的保护措施会节省下来,只会吓跑业余爱好者。 但是在分析方面赚钱的公司可以很好地承担这一方向的研究活动-长期苦苦地了解新的保护措施,并最终解决它...

通常,每个人都使用相同类型的保护,这样的研究将不止一次地派上用场。 因此,事实证明,市场部对此还没有做好准备:“为什么我们要简化竞争对手的生活?” 这似乎合乎逻辑,但是...结果,公司将花钱进行保护,但无济于事,并且站点上的寄生负载将保持不变。 虽然公平地说,值得注意的是,从“学生”那里学习python并腾飞一切“运动”可能会有所帮助。

顺便说一下,Yandex和Google都在进行解析:他们去该站点并对其进行索引-收集信息。 出于明显的原因,只有所有人都希望Yandex和Google为其网站建立索引,而且没人希望被解析:)

7.“我免费在这里看过……”或有关航班的故事


一旦我们获得了有趣的测试解析顺序。 该公司处理机票,他们对几个最受欢迎的目的地的竞争对手的价格感兴趣。 这项任务并不简单,因为 我不得不修改航班的替换和比较。 有趣的是,同一航班的“ Onetwotrip”,“ Aviasales”和“ Skyscanner”的价格略有不同(点差约为5-7%)。

该项目对我来说似乎非常有趣,我在社交网络上发布了有关该项目的帖子。 令我惊讶的是,该职位下的讨论非常激进,我并没有立即理解为什么。 然后,俄罗斯机票销售市场领导者之一的公司总经理写信给我,情况得到了解决。 事实证明,为这些公司的机票价格请求已付,因为 他们从国际付费服务中获取信息。 而且,除了寄生负载之外,解析对于他们来说也是很经济的。

无论如何,如果您亲自寻找这些服务的票证,没人会要求您付款,而且普通百姓在通过不同的选择进行分类时也会提出很多要求。总的来说,存在这样的业务困境:)

8.“厨师分析器的食谱”。 或我们如何工作?


我认为,为了更好地理解解析的各个方面,有必要揭开我们“内部厨房”的面纱。

这一切都始于订单。 有时客户自己与我们联系,有时我们打电话给我们。 事实证明,对价格监控的订单特别好。 在这种情况下,我们不仅要解析竞争对手,还必须解析客户自己。 因此,有时我们称呼那些以一种或另一种方式解析的人,我们公开谈论它,提供我们的服务-我们已经在做这项工作。 起初,反应非常消极,但是几天过去了,情绪消退了,客户自己回了电话说:“该死! 您还在解析谁?”

极多地分析访问资源的所有者会引起情绪变化。 起初是负面的,因为它类似于偷窥钥匙孔。 然后,它发展为兴趣,然后发展为必要性意识。 商人是聪明人。 当情绪化为乌有,冷漠的计算仍然存在时,总会出现一个问题:“或者我们在某个地方发展不成熟,我们也需要吗?”

由于这些情绪,我们正在积极地发展壮大。 目前,我们每天解析约300个网站。 通常我们会从我们那里订购8-15个站点,并且每个月解析5到9000卢布的费用,具体取决于连接的复杂程度,因为每个站点都必须单独连接(大约需要4-5个小时才能到达资源)。 困难是一些受到保护。 与解析相关的工作与其说是某些寄生负载,不如说是在挣扎,但这并没有给他们带来利润,但是有时您必须动手。

无论如何,即使商品的价格在图片上以图片形式显示,一切都被摊薄了:)对于那些想尝试解析的人,我建议在Stolichki Pharmacy网站上进行定价并确定价格

图片

药房网络“ Stolichki”的在线商店-价格以内部字体编写,并且要解析它们,解决方案之一将是图像的形成及其识别。 我们至少这样做。

收集的数据将传输到客户端。 通常,我们将它们放置在我们自己的云中,并不断进行更新,并通过API向客户端提供对它们的访问。 如果数据突然出现问题(这种情况很少发生-每3-4个月一次),他们会立即致电并写信给我们,我们会尝试尽快解决问题。 当安装新的保护或模块时,会发生此类故障,并分别通过研究和代理来解决。 在另一种情况下,当站点上的某些内容发生变化时,僵尸程序只会停止了解其位置,而我们的程序员必须对其进行重新配置。 但是一切都解决了,客户通常会理解地对待这些问题。

我注意到,在我们的业务中,从未公开过客户的身份-我们对此非常敏感,没有人取消保密协议中的条款。 尽管在解析过程中没有什么应受谴责的,但其中许多都是害羞的。

, - , (, , “ ” ), ( ).

PS: , . — , , ( .net) ..

, xmldatafeed.com

Source: https://habr.com/ru/post/zh-CN446488/


All Articles