Data as a Service: qué es, dificultades técnicas y cómo sortearlas usando proxies residentes



Data as a Service (DaaS) es un modelo de distribución de datos relativamente nuevo, lo que implica que la información no es recopilada, administrada y almacenada por compañías y usuarios de forma independiente, sino que se delega a proveedores especializados.

Hoy hablaremos sobre las ventajas de este modelo, las dificultades técnicas existentes y cómo resolverlas.

Porque es necesario


La forma más fácil es la importancia de los datos y, en consecuencia, los servicios de servicios que los proporcionan a las empresas se pueden entender con la ayuda de números. Entonces, según las estadísticas , el número de consultas de búsqueda con la adición de la frase "cerca de mí" (cerca de mí) aumentó en un 900%. Esto indica una creciente demanda de personalización entre los usuarios. Y para proporcionar un servicio personalizado, necesita un lugar para tomar datos sobre los usuarios, sus preferencias, experiencia previa, de lo contrario seguirá siendo parte de la "masa gris". Pero esto no es tan simple.

Según varios estudios , una lista de problemas comunes al usar Big Data consiste en:

  • falta de conocimiento y habilidades para trabajar con ellos y su estructuración (46% de los casos),
  • falta de capacidades técnicas (56%),
  • rendimiento limitado de los sistemas de análisis que no pueden hacer frente a los volúmenes de datos (38%),
  • falta de comprensión de cómo aplicar los datos después de recibirlos (25%).

Los proveedores de DaaS permiten a las empresas resolver todos estos problemas. Les dan conjuntos de datos listos para usar creados de acuerdo con requisitos predefinidos. Por supuesto, los datos generalmente se "adaptan" para una industria específica, responden preguntas comerciales específicas. Idealmente, tales conjuntos de datos son bastante fáciles de interpretar y toman decisiones comerciales importantes basadas en esta información.



Imagen: rocketsource.co

Suena tentador: las empresas que saben cómo trabajar con datos y tienen la infraestructura adecuada, ayudan a quienes necesitan información y ganan dinero con ella. Pero no todo es tan simple, y el principal problema para los servicios de DaaS aquí es que no basta con tener la infraestructura para recopilar datos, sino que también debe poder recopilar los datos correctos. Hablemos de este problema con más detalle.

Problema principal de DaaS


¿Cómo recopilan datos las empresas DaaS? En general, solo tienen una infraestructura poderosa y secuencias de comandos para recopilar datos en Internet, ya sean sitios o motores de búsqueda. Dichos scripts se llaman rastreadores (del inglés crawl) o scrappers (el inglés scrape).

Por ejemplo, si una empresa cliente necesita información para trabajar en la optimización del motor de búsqueda de su sitio web, entonces puede necesitar información en los sitios de la competencia (qué palabras objetivo utilizan, cómo se ve el motor de búsqueda para estas palabras, etc.). Para recopilar estos datos, el bot-scraper visita los sitios necesarios de la lista y los revisa, descargando la información necesaria.

En esta etapa, puede resultar que los propietarios del sitio, como el motor de búsqueda, no estén contentos con el hecho de que alguien esté tratando de descargar datos. Probablemente intentarán bloquear la actividad de tal bot. Por lo general, estos scrappers usan direcciones IP del servidor sin su uso regular. No es difícil calcular y bloquear el bot en tal situación, y hay una gran cantidad de antibióticos para esto.

Y esta es incluso la mejor opción, porque hay casos en que los dueños de negocios buscan engañar a los competidores y "deslizar" sus datos para estafar a los robots. Como resultado, un conjunto de datos así ensamblado puede contener datos deliberadamente incorrectos. No es difícil imaginar las consecuencias del hecho de que se tomarán decisiones comerciales importantes sobre la base de información errónea; en el mejor de los casos, serán inútiles, en el peor de los casos, la compañía puede sufrir grandes pérdidas.

Solución: Proxies Residentes


Puede resolver el problema principal de los servicios de DaaS utilizando servidores proxy residentes para raspar datos. A diferencia de las direcciones IP de los servidores proporcionadas por los proveedores de alojamiento, que pueden rastrearse fácilmente de manera automática utilizando un número ASN especial, no es tan simple con los servidores proxy residentes.

Los proveedores de Internet emiten las IP residentes a los propietarios de viviendas. Las marcas correspondientes se colocan en todas las bases de datos relacionadas. Hay servicios especiales de representantes residentes que le permiten usar direcciones de residentes. Infatica es solo un servicio de este tipo.

Las solicitudes que los rastreadores de sitios de agregadores envían desde IP residentes parecen provenir de usuarios regulares de una región específica. Y nadie bloquea a los visitantes comunes: en el caso de las tiendas en línea, estos son clientes potenciales.

Como resultado, el uso de proxies rotados de Infatica nos permite garantizar la calidad de los datos recopilados; después de todo, nadie bloqueará las solicitudes de los scrapers de las direcciones de los residentes.

Otros artículos sobre el uso de representantes residentes para negocios:


Source: https://habr.com/ru/post/472944/


All Articles