Imagen: PexelsPara los sitios de agregadores de comercio electr贸nico, es crucial mantener la informaci贸n actualizada. De lo contrario, su principal ventaja desaparece: la capacidad de ver los datos m谩s relevantes en un solo lugar.
Para resolver este problema, debe utilizar la t茅cnica de raspado web. Su significado es que se crea un software especial: el rastreador, que omite los sitios necesarios de la lista, analiza su informaci贸n y la carga en el sitio del agregador.
El problema es que, a menudo, los propietarios de los sitios de los cuales estos agregadores obtienen datos no desean darles acceso tan f谩cilmente. Esto se puede entender: si la informaci贸n de precios en la tienda en l铆nea llega al sitio del agregador y resulta ser m谩s alta que la de los competidores presentados all铆, el negocio perder谩 clientes.
M茅todos anti-raspado
Por lo tanto, a menudo los propietarios de dichos sitios se oponen al raspado, es decir, descargar sus datos. Pueden identificar solicitudes que los robots rastreadores env铆an por direcci贸n IP. T铆picamente, dicho software utiliza la llamada IP del servidor, que es f谩cil de calcular y bloquear.
Adem谩s, en lugar de bloquear solicitudes, a menudo se usa otro m茅todo: los bots detectados muestran informaci贸n irrelevante. Por ejemplo, exageran o subestiman el precio de los bienes o cambian sus descripciones.
Un ejemplo que a menudo se cita a este respecto es el pasaje a茅reo. De hecho, con bastante frecuencia las aerol铆neas y las agencias de viajes pueden mostrar resultados diferentes para los mismos vuelos, dependiendo de la direcci贸n IP. El caso real: una b煤squeda de vuelos de Miami a Londres en la misma fecha desde una direcci贸n IP en Europa del Este y Asia arroja resultados diferentes.
En el caso de una direcci贸n IP en Europa del Este, el precio se ve as铆:

Y para una direcci贸n IP de Asia como esta:

Como puede ver, el precio del mismo vuelo es significativamente diferente: la diferencia es de $ 76, que es realmente mucho. Para un sitio agregador, no hay nada peor que esto: si se presenta informaci贸n incorrecta en 茅l, los usuarios no lo usar谩n. Adem谩s, si un producto espec铆fico tiene el mismo precio en el agregador, y cuando cambia al sitio web del vendedor, cambia, esto tambi茅n afecta negativamente la reputaci贸n del proyecto.
Soluci贸n: usar proxies residentes
Puede evitar problemas al desechar datos para las necesidades de su agregaci贸n utilizando proxies residentes. Las IP del servidor son proporcionadas por proveedores de hosting. Identificar la direcci贸n que pertenece al grupo de un proveedor en particular es bastante simple: cada IP tiene un n煤mero ASN que contiene esta informaci贸n.
Hay muchos servicios para analizar n煤meros ASN. A menudo se integran con sistemas anti-bot que bloquean el acceso a los rastreadores o hacen malabares con los datos devueltos en respuesta a sus solicitudes.
Las direcciones IP residentes ayudan a eludir tales sistemas. Dichos proveedores de IP entregan a los propietarios de viviendas, con las marcas correspondientes en todas las bases de datos relacionadas. Hay servicios especiales de representantes residentes que le permiten usar direcciones de residentes.
Infatica es solo un servicio de este tipo.
Las solicitudes que los rastreadores de sitios de agregadores env铆an desde IP residentes parecen provenir de usuarios regulares de una regi贸n espec铆fica. Y nadie bloquea a los visitantes comunes: en el caso de las tiendas en l铆nea, estos son clientes potenciales.
Como resultado, el uso de proxies rotados de Infatica permite que los sitios de agregadores reciban datos precisos garantizados y eviten bloqueos y dificultades con el an谩lisis.
Otros art铆culos sobre el uso de representantes residentes para negocios: