图片: 像素对于电子商务聚合器网站,保持最新信息至关重要。 否则,它们的主要优势就消失了-能够在一处查看最相关的数据。
为了解决此问题,您需要使用网络抓取技术。 它的意思是创建了特殊的软件-搜寻器,它会从列表中绕过必要的站点,解析其中的信息,然后将其上传到聚合器站点。
问题在于,这些聚合器从中获取数据的站点的所有者通常不想让他们如此轻松地访问。 这可以理解-如果在线商店中的价格信息到达聚合器的站点并且结果高于那里的竞争对手,则企业将失去客户。
防刮方法
因此,此类网站的所有者通常反对抓取-即下载其数据。 他们可以通过IP地址识别爬虫程序机器人发送的请求。 通常,此类软件使用易于计算和阻止的所谓服务器IP。
此外,代替阻止请求,通常使用另一种方法-向检测到的漫游器显示无关信息。 例如,他们高估或低估了商品价格或更改了描述。
在这方面经常被引用的一个例子是机票。 实际上,根据IP地址,航空公司和旅行社通常会针对同一航班显示不同的结果。 真实情况是:从东欧和亚洲的IP地址在同一日期进行从迈阿密到伦敦的航班搜索会返回不同的结果。
对于东欧的IP地址,价格如下所示:

对于来自亚洲的IP地址,如下所示:

如您所见,同一航班的价格差异很大-相差76美元,这的确是很多。 对于聚合站点,没有什么比这更糟糕的-如果在其上显示不正确的信息,则用户将不会使用它。 此外,如果特定产品在集合商上的价格相同,并且在更改到卖方网站时也会更改-这也会对项目的声誉产生负面影响。
解决方案:使用常驻代理
在使用常驻代理为数据聚集的需要而报废数据时,可以避免出现问题。 服务器IP由主机提供商提供。 识别属于特定提供商池的地址非常简单-每个IP都有一个包含此信息的ASN号。
有许多用于分析ASN编号的服务。 通常,它们会与反机器人系统集成在一起,后者会阻止对爬虫的访问或根据他们的请求来处理返回的数据。
居民IP地址有助于规避此类系统。 此类IP提供商将在所有相关数据库中带有相应标记的屋主分发给房主。 有居民代理的特殊服务,使您可以使用居民地址。
Infatica就是这样的服务。
聚合站点的爬网程序从驻留IP发送的请求看起来像是来自特定区域的常规用户。 没有人会阻止普通访客-对于在线商店而言,这些都是潜在客户。
结果,使用Infatica的旋转代理可以使聚合器站点接收有保证的准确数据,并避免阻塞和解析困难。
有关使用常驻代理人进行业务的其他文章: