Data as a Service: qu'est-ce que c'est, les difficultés techniques et comment les contourner en utilisant des proxy résidents



Le Data as a Service (DaaS) est un modèle de distribution de données relativement nouveau, ce qui implique que les informations ne sont pas collectées, gérées et stockées indépendamment par les entreprises et les utilisateurs, mais sont déléguées à des fournisseurs spécialisés.

Aujourd'hui, nous parlerons des avantages de ce modèle, des difficultés techniques existantes et de la manière de les résoudre.

Pourquoi est-ce nécessaire


Le moyen le plus simple est l'importance des données et, par conséquent, les services des services qui les fournissent aux entreprises, peuvent être compris à l'aide de chiffres. Ainsi, selon les statistiques , le nombre de requêtes de recherche avec l'ajout de l'expression «près de moi» (près de moi) a augmenté de 900%. Cela indique une demande croissante de personnalisation parmi les utilisateurs. Et pour fournir un service personnalisé, vous avez besoin d'un endroit pour prendre des données sur les utilisateurs, leurs préférences, leur expérience précédente, sinon cela restera une partie de la «masse grise». Mais ce n'est pas si simple.

Selon diverses études , une liste de problèmes courants lors de l'utilisation du Big Data comprend:

  • manque de connaissances et de compétences pour travailler avec eux et leur structuration (46% des cas),
  • manque de capacités techniques (56%),
  • débit limité de systèmes d'analyse qui ne peuvent pas gérer les volumes de données (38%),
  • manque de compréhension de la façon d'appliquer les données après les avoir reçues (25%).

Les fournisseurs DaaS permettent aux entreprises de résoudre tous ces problèmes. Ils leur donnent des ensembles de données prêts à l'emploi créés selon des exigences prédéfinies. Bien sûr, les données sont généralement «adaptées» à une industrie spécifique, répondent à des questions commerciales spécifiques. Idéalement, ces ensembles de données sont assez faciles à interpréter et à prendre des décisions commerciales importantes sur la base de ces informations.



Image: rocketsource.co

Cela semble tentant - des entreprises qui savent travailler avec les données et qui disposent de l'infrastructure appropriée, qui aident ceux qui ont besoin d'informations et qui en tirent de l'argent. Mais tout n'est pas si simple, et le principal problème pour les services DaaS ici, c'est qu'il ne suffit pas d'avoir l'infrastructure pour collecter les données, vous devez également être en mesure de collecter les données correctes. Parlons plus en détail de ce problème.

Problème principal du DaaS


Comment les entreprises DaaS collectent-elles des données? Dans l'ensemble, ils disposent simplement d'une infrastructure et de scripts puissants pour collecter des données sur Internet, qu'il s'agisse de sites ou de moteurs de recherche. De tels scripts sont appelés crawlers (du crawl anglais) ou scrappers (le scrap anglais).

Par exemple, si une entreprise cliente a besoin d'informations pour travailler sur l'optimisation des moteurs de recherche de son site Web, elle peut avoir besoin d'informations sur les sites concurrents (quels mots cibles utilisent-ils, à quoi ressemblent les moteurs de recherche pour ces mots, etc.). Pour collecter ces données, le bot-scraper visite les sites nécessaires de la liste et les parcourt, téléchargeant les informations nécessaires.

À ce stade, il peut s'avérer que les propriétaires du site, comme le moteur de recherche, ne sont pas du tout satisfaits du fait que quelqu'un essaie de télécharger des données. Ils vont probablement essayer de bloquer l'activité d'un tel bot. En règle générale, ces scrappers utilisent les adresses IP du serveur sans leur utilisation régulière. Il n'est pas difficile de calculer et de bloquer le bot dans une telle situation - et il existe un grand nombre d'antibots pour cela.

Et c'est même la meilleure option, car il y a des cas où les propriétaires d'entreprise cherchent à induire leurs concurrents en erreur et à «glisser» leurs données vers des robots frauduleux. Par conséquent, un ensemble de données ainsi assemblé peut contenir des données délibérément incorrectes. Il est facile d'imaginer les conséquences du fait que d'importantes décisions commerciales seront prises sur la base d'informations erronées - dans le meilleur des cas, elles seront inutiles, dans le pire des cas, l'entreprise pourrait subir d'énormes pertes.

Solution: procurations des résidents


Vous pouvez résoudre le problème principal des services DaaS en utilisant des proxys résidents pour extraire les données. Contrairement aux adresses IP des serveurs fournies par les fournisseurs d'hébergement, qui peuvent être facilement retracées automatiquement à l'aide d'un numéro ASN spécial, ce n'est pas si simple avec les proxys résidents.

Les adresses IP résidentes sont délivrées aux propriétaires par les fournisseurs d'accès à Internet. Les marques correspondantes sont placées dans toutes les bases de données connexes. Il existe des services spéciaux de mandataires résidents qui vous permettent d'utiliser des adresses résidentes. Infatica est un tel service.

Les demandes que les robots d'exploration des sites d'agrégateur envoient à partir d'adresses IP résidentes semblent provenir d'utilisateurs réguliers d'une région spécifique. Et personne ne bloque les visiteurs ordinaires - dans le cas des boutiques en ligne, ce sont des clients potentiels.

En conséquence, l'utilisation de procurations tournées d' Infatica nous permet de garantir la qualité des données collectées - après tout, personne ne bloquera les demandes des gratteurs des adresses résidentes.

Autres articles sur l'utilisation des procurations des résidents pour les entreprises:


Source: https://habr.com/ru/post/fr472944/


All Articles