Analyser les sites - et est-ce généralement légal en Russie?

Selon l'une des définitions, l'analyse est une analyse des informations. Pour une personne qui n'est pas impliquée dans des tâches spécifiques de collecte et de traitement d'informations pour des projets Internet, cela ne signifie rien. Et la définition même, uniquement en termes généraux, indique l'énorme quantité de travail que des centaines de millions de personnes et des dizaines de millions de robots (bien que virtuels, mais non moins réels) effectuent chaque minute dans le monde entier. Mais cette tâche est courante pour une personne - c'est-à-dire comparer les prix des billets en ligne, choisir la bonne électronique sur les sites des magasins ... En regardant les prix et les promotions dans l'application mobile pratique du supermarché le plus proche de la maison, aucun de nous ne pensera même à se doubler d'un analyseur.
image

Néanmoins, l'analyse commerciale existe, fonctionne et, bien sûr, fait l'objet de discussions animées à de nombreux niveaux de considération: éthique, juridique, technologique, financier et pas seulement.

Cet article n'exprime pas d'opinion définitive, ne donne pas de conseils et ne révèle pas de secrets - ici, nous ne considérerons que certaines opinions comme un exemple des commentaires les plus intéressants sur un article particulier sur l'analyse syntaxique (50k vues et plus de 400 commentaires!) Sur Habré, les traiter du point de vue de expérience dans l'analyse de projets Web. En d'autres termes - nous avons passé beaucoup de temps et essayé de rassembler et de classer ensemble les commentaires des lecteurs les plus intéressants ... la sagesse du monde, pour ainsi dire :)

Donc, à propos de l'analyse:

"Une question de technologie." Des procurations fantastiques et où ils vivent.


Tout comme l’idée de s’analyser est naturelle (il est toujours intéressant de voir ce que font les «voisins»), les méthodes de base de sa mise en œuvre sont tout aussi simples. Si vous voulez savoir, demandez, mais si vous voulez connaître les valeurs réelles d'un grand tableau de données (que ce soit le prix des marchandises, leurs descriptions, les volumes disponibles pour la commande ou les remises à chaud), vous devrez «demander» beaucoup et souvent. Il est clair que personne ne penserait à collecter ces données manuellement (à l'exception d'une grande équipe d'enfants travailleurs des pays du Sud qui n'ont pas été inspirés de la manière la plus humaine), donc des solutions simples et efficaces sont utilisées sur le front: pour «empiler» le site, configurer le navigateur, collecter des bots - et «taper» sur le site cible pour trouver des indicateurs d'intérêt, écrire soigneusement les réponses dans un «bloc-notes» dans un format pratique, analyser les données collectées et répéter.

Voici quelques approches de la "technique d'analyse" de nos lecteurs et de nous:

  1. "Ferme au sélénium - Allez-y!" (Cela fait référence aux navigateurs sans tête avec une solution de type BeautifulSoup comme Selenium / Splinter). Selon notre lecteur, il a écrit un petit site sur le cluster d'essaimage docker à sa femme pour surveiller les sites du vendeur (elle est importatrice) afin qu'ils ne violent pas la politique RRC / MRC (prix de vente recommandés). Selon l'auteur, tout fonctionne de manière stable, l'économie d'analyse converge - "tous les coûts sont de 4 nœuds pour 3 $". Certes, l'auteur fier ne dispose que d'environ un millier de produits et des dizaines de sites d'analyse, pas plus :)
  2. "Nous lançons Chromium et tout va bien, il s'avère que 1 produit en 4-5 secondes peut être pris ...". Il est clair que pas un administrateur ne se réjouira de la surcharge de charge sur le serveur. Le site, bien sûr, est à cet effet nécessaire pour fournir des informations à tous ceux qui sont intéressés, mais "vous êtes nombreux, mais je suis seul", donc, ceux qui sont particulièrement désireux d'être intéressés sont, bien sûr, ignorés. Eh bien, cela n'a pas d'importance: Chromium vient à la rescousse - si le navigateur frappe sur le site en mode «demandez-nous seulement» - cela peut être fait sans attendre en ligne. En effet, dans le tableau général des tâches d'analyse, l'analyse des pages html se fait dans 90% des cas, et dans des «cas particulièrement difficiles» (lorsque les sites sont activement protégés, comme le même Yandex.Market qui demande captcha), c'est Chromium qui le gère.
  3. "Nettoyez les proxys de vos propres mains à partir de routeurs / modems LTE." Il existe des moyens très efficaces de configurer des proxys propres adaptés à l'analyse des moteurs de recherche: une batterie de modems 3G / 4G ou l'achat de proxies blancs au lieu d'un tas de proxys sales aléatoires. Il est important de savoir quel langage de programmation est utilisé pour une telle analyse industrielle - 300 sites par jour (et la bonne réponse est .Net! :). En fait, Internet regorge de sites avec des listes de proxy ouvertes, dont 50% fonctionnent assez bien, et il n'est pas si difficile d'analyser des listes de proxy à partir de ces sites, puis d'analyser d'autres sites avec leur aide :)) Eh bien, nous le faisons.
  4. Un autre cas en faveur de Selenium: «Je m'analyse (mais pas dans RuNet, mais j'attrape des commandes sur mon upwork.com préféré, là on l'appelle généralement le grattage, un terme plus approprié, à mon humble avis). J'ai un rapport légèrement différent, quelque part autour de 75 à 25. Mais dans l'ensemble, oui, si c'est de la paresse ou difficile, alors personne n'a encore esquivé le sélénium :) Mais sur plusieurs centaines de sites avec lesquels j'ai dû travailler, cela n'a jamais été reconnu. images pour obtenir les données cibles. Habituellement, s'il n'y a pas de données en html, elles sont toujours extraites dans du json (enfin, en fait, nous avons déjà montré un exemple ci-dessous).
  5. "Dompteurs Python." Et le cas d'un autre lecteur: «Dans mon travail précédent, j'ai utilisé Python / Scrapy / Splash pour plus de 180 sites par jour de tailles différentes, de prisma.fi et verkkokauppa.com à quelque chose avec 3-5 produits. À la fin de l'année dernière, nous avons loué un tel serveur à Hetzner (https://www.hetzner.com/dedicated-rootserver/ax60-ssd) avec Ubuntu Server à bord. La plupart des ressources informatiques sont encore inactives.
  6. "WebDriver est notre tout." Engagé dans l'automatisation générale (là où l'analyse tombe déjà), aussi fiable que possible (tâches QA). Une bonne station de travail, une douzaine ou deux navigateurs en parallèle - la sortie est une batteuse très mauvaise et rapide.

Le «gentleman's set» de la stationnaire - 4 machines virtuelles, trafic illimité, 4 processeurs chacun, 8 Go de mémoire, Windows Server ... Jusqu'à présent, assez pour chaque nouveau lot de 50 sites conditionnellement - vous avez besoin de votre propre machine virtuelle. Mais cela dépend beaucoup des sites eux-mêmes. Visual Studio dispose également de System.Net, qui utilise réellement Internet Explorer installé dans Windows. Ça marche aussi.

«Comment vous protéger (de l'analyse) dans votre esprit? Pas question, nous allons quand même ramper "


Analyser des idées commerciales, parler de notre entreprise, nous est constamment lancé.

  1. Émettez l'analyse Yandex, comme le font de nombreux services de référencement. «Il y a plus de demande pour cela, plus d'argent. Certes, ils vendent essentiellement tout le système d'analyse SEO. " Mais nous n'analysons pas l'émission - nous n'avons pas demandé, et il y aura du captcha immédiatement après 100 demandes, nous avons besoin de procurations propres, mais elles sont difficiles à obtenir ou coûteuses, ce n'est pas si rentable ... Bien sûr, il est loin d'être facile de jouer de gros joueurs, et les lecteurs sont avec nous partagez-le (nous n'analysons PAS Google et Yandex). Selon l'expérience, Yandex, Google et les grandes entreprises similaires ont une certaine base avec des sous-réseaux de centres de données (après tout, les bases de données proxy sont mises à jour et les grands acteurs s'y abonnent et les interdisent). Ainsi, le réseau proxy surélevé aux adresses IP délivrées aux centres de données vole parfaitement à l'interdiction avec l'émission de captcha et autres bizarreries. En conséquence, il n'y a que des options illégales avec l'achat de procurations auprès des propriétaires de botnets et d'une "saleté" similaire, auquel cas vous aurez une véritable adresse IP d'utilisateur. Et même ainsi, ces sociétés ont vraiment besoin que vous ayez des cookies «installés» avec lesquels vous avez déjà «rampé» pendant un certain temps sur des sites où ils peuvent vous suivre (par exemple, le nombre de visites). Mais comment distinguent-ils les analyseurs des NAT dans les zones de couchage? 100 demandes conditionnelles ne sont rien du tout.
  2. Protection contre l'analyse: en retirant les «grands et les terribles» de toute considération, nous nous concentrerons sur nous, «simples mortels». S'il y a ceux qui sont impliqués dans l'analyse, il doit y avoir ceux qui essaieront de les empêcher de le faire. Il est plus intéressant de jouer avec les vivants: un élément de rivalité apparaît, chaque camp essaie de déjouer l'autre. Et, puisque personne n'a encore l'intention de collecter des informations manuellement, ils jouent qui rendra le bot le plus similaire à une personne vivante, et qui sera en mesure de reconnaître ces bots plus efficacement tout en continuant à répondre aux demandes des vrais utilisateurs - le site est conçu pour aider les entreprises , nous sommes repoussés par cela. Et, restant dans le cadre de la tâche de l'efficacité commerciale, on ne peut que prendre en compte l'allocation raisonnable des ressources et la rentabilité des mesures pour, en fait, analyser et contrer:

    • Vous ne pouvez pas vous protéger de l'analyse (sauf des «étudiants»), mais vous pouvez augmenter le seuil de dépenses (en temps et en argent). En conséquence, les données que nous protégeons (plusieurs sections du site) sont plus faciles à ne pas analyser, mais à acheter une base de données prête à l'emploi, tout comme nous l'achetons. Il existe des tables d'adresses IP d'analyse syntaxique sur le réseau, montrant que le captcha de cette liste à l'entrée n'est pas un problème. De même, la génération d'id et de classes, comme le fait mail.ru, n'est pas non plus un problème et ne nécessite pas de dépenses importantes. Un nouveau captcha de Google détermine généralement très précisément si le robot ou non. En cas de suspicion, couper l'utilisateur et demander un captcha est simple. Au final, personne n'a annulé l'appât HoneyPot pour avoir attrapé le bot. Eh bien, classique, remplacez les lettres dans le texte, faites des masques, etc.
    • Et ici, nous nous opposerons à nous-mêmes: peut-être, individuellement, tout cela n'aidera pas, mais tous ensemble compliqueront tellement votre vie qu'elle deviendra inopportune. De plus, toutes ces techniques ne nécessitent généralement pas de dépenses importantes. Certes, toutes ces techniques coûtent cher, il n'y a donc pas de protection. Proxy dynamiques, services reconnaissant le captcha par les Indiens et sélénium avec un algorithme d'action bien défini. Tout ce qui peut être réalisé - le développement de l'analyseur coûtera plus cher, cela pourrait effrayer quelqu'un, mais si le site cible n'est pas un catalogue d'une page et demie du bureau local des "Horns and Hooves", alors peu de gens seront effrayés par l'augmentation des coûts.
    • Lors de la défense, il s'agit toujours d'utiliser des modèles comportementaux typiques de vrais visiteurs, ainsi que des systèmes qui identifient correctement les robots «blancs» (Yandex, Google, etc.). Et pour s'adapter à un vrai visiteur, vous devez connaître un ensemble de cartes de transition standard. Et puis un simple pool de proxy lorsque l'analyse n'est pas suffisante. Le système ne protège pas à 100%, mais il résout la tâche - selon les statistiques de visualisation, vous pouvez comprendre quand l'ensemble du site a été analysé. Les analyseurs ou les moteurs de recherche le font. Mais les moteurs de recherche répondent à robots.txt, mais pas les analyseurs.

"Oh wow. Si tout le monde faisait tout sagement ... Je pense qu'il y aurait 10 fois plus de chômeurs. Assez pour votre âge. "

«Est-ce que je vis dans l'environnement? Oui, mais en vain "


  1. Dans le plan moral et éthique de l'examen de la question se trouve un point important concernant à la fois les aspects techniques et juridiques de l'analyse. Le fichier robots.txt est concis dans sa simplicité et symbolique dans son nom, que nos lecteurs et nous interprétons de différentes manières:

    • Votre activité en tant que «conducteur» d'un bot est «éthique» exactement autant que votre bot suit le fichier robots.txt du site que vous visitez. Pas basé sur des hypothèses du formulaire «les pages produits ne se ferment pas», mais imposant littéralement des masques d'autorisation et d'interdiction sur les URL demandées. Robot.txt manquant - interprétez en votre faveur; présent, mais vous le violez - vous utilisez certainement le site de manière malveillante. Bien sûr, le fichier robots.txt n'a pas force de loi, mais si vous le "cuisez" vraiment, ce n'est pas un fait qu'il passera définitivement par les avocats.
    • Malgré le fait qu'il soit impossible de négocier avec des robots, c'est parfois plus facile qu'avec des gens, car dans les magasins ils accrochent des pancartes «les photos sont interdites», et c'est illégal. Et contraire à l'éthique. «Juste une telle tradition. robots.txt est une technique. Ce n'est pas une question d'éthique. Si vous souhaitez indiquer que vous ne souhaitez pas l'analyse, créez une section comme celle-ci: account.habr.com/info/agreement. Je ne sais pas si une telle restriction sera légale, mais au moins vous pouvez y exprimer vos souhaits en langage humain (ou mentionner robots.txt), alors vous pouvez parler d'éthique. " Nos avocats rétorquent: "En aucun cas une telle restriction ne sera légale."
    • Nous pensons simultanément à l'analyse et à la poursuite de l'utilisation des informations. «Robots.txt ne concerne pas tant l'analyse, mais la publication ultérieure (par exemple, dans les résultats de recherche). Si vous souhaitez que les données ne soient reçues par personne, vous devez limiter le cercle des personnes qui peuvent les voir. Si vous n'avez pas de rideaux aux fenêtres, vous ne devez pas vous mettre nu. Il peut être délibéré de regarder par les fenêtres et moche, mais sans rideaux que prétend-on? »
    • L'analyse de l'éthique est neutre. Il peut être contraire à l'éthique d'utiliser les informations obtenues. En général, d'un point de vue purement éthique, chacun a le droit de recevoir des informations publiques qui ne sont pas de nature privée ou spéciale et qui ne sont pas protégées par la loi. Les prix sont à coup sûr des informations publiques. Descriptions aussi. Les descriptions peuvent être soumises à des droits d'auteur et ne doivent pas être publiées sans autorisation. Mais aucune éthique n'est violée, même si je vais analyser des sites et faire mon propre site public, qui reflétera la dynamique des prix et la comparaison des concurrents. C'est même éthique car il fournit des informations socialement utiles. "
  2. "Les mains peuvent être assemblées, mais le robot ne peut pas être analysé." Tout «mal» avec une diligence raisonnable et des compétences peut être justifié, et l'analyse d'autant plus - d'autant plus qu'il existe des exemples vivants de la façon dont il a été utilisé dans tous les sens correctement, nous citons notre lecteur: «J'étais engagé dans l'analyse il y a longtemps, mais j'ai toujours demandé faire une analyse complètement légale et moralement correcte. Plusieurs fois, des intermédiaires ont demandé que le grossiste soit analysé (pour vendre ses marchandises), le grossiste lui-même ne s'en souciait pas, mais n'allait pas investir dans le développement de l'API (ou ne pouvait pas pour des raisons techniques); une fois qu'un intermédiaire d'un magasin chinois a demandé l'intégration, mais là, l'api du magasin chinois était tellement foutu et limité qu'il était en partie nécessaire d'obtenir une analyse des informations; une fois que l'auteur et le propriétaire du site et du forum voulaient migrer d'un site gratuit qui «bloquait» la base de données; il a également fait l'intégration du site du concours littéraire et de son forum, afin que lors de l'ajout d'une nouvelle histoire, le sujet sur le forum apparaisse automatiquement (pour des raisons techniques cela ne pourrait pas être fait autrement). »

«L'avocat a-t-il été appelé? La citation ne peut pas être analysée "


Quel que soit le côté que vous choisissez pour déterminer la source du pouvoir: l'argent ou la vérité - une chose est claire, c'est que là où l'argent commence à être trouvé, trouver la vérité devient de plus en plus difficile. En discutant de la possibilité d'acquérir tout et tout, y compris la loi elle-même et ses représentants, au-delà du champ d'application de cet article, nous examinerons certains aspects juridiques soulevés dans les commentaires:

  1. «De l'aperçu au vol est une étape.» Même si tout ce qui n'est pas interdit est permis, alors, nos lecteurs pensent que «jeter un coup d'œil dans le trou de la serrure est au moins moche, et si le client dégage également le sparsial comme le sien, alors c'est un vol direct. Bien sûr, il est clair que tout le monde le fait en entreprise. Mais dans une société décente, il est toujours de coutume de garder le silence à ce sujet. " Cependant, analyser pour quelqu'un et faire passer le sparsen pour lui, comme on dit, sont deux grandes différences: «Vous confondez le doux et le froid. Nous fournissons vraiment des services d'analyse. Mais c’est exactement de la même manière que vous pouvez blâmer des fabricants, par exemple des armes, de le tuer. Nous faisons des affaires, mais dans les affaires, il y a une règle - est-elle légale ou non? Ce que je veux dire, c'est que si les clients viennent chez nous et sont prêts à payer beaucoup pour obtenir des données, c'est vraiment mauvais ... "
  2. "A fait une demande pour un site médiatique - cloué pour une plainte." Site Forbes, analyse, application sur Google Play - qu'est-ce qui pourrait mal tourner? «À un moment donné, j'ai décidé de faire une demande pour le site Web de Forbes. Pour obtenir des articles à partir des pages analysées sur le site. J'ai tout configuré en mode automatique et fait une application pour Android. J'ai posté l'application sur le marché. Un an plus tard, un avocat m'a contacté et m'a demandé de retirer la demande, car je violais les droits d'auteur. Je n'ai pas discuté. C'est dommage que Forbes lui-même n'ait pas d'application pour ses propres articles sur le site. Il n'y a qu'un site. Et leur site est lent, chargé depuis longtemps et accroché à la publicité ... "
  3. "Ma base de données est mon travail sous protection!" Le droit d'auteur est un autre concept qui peut être consacré à une douzaine de pages de discussions (en plus des centaines de milliers de discussions existantes), mais sans oublier qu'il est également faux. Notre lecteur a émis le concept: «Quelqu'un a créé une base de données de marchandises. A dépensé un tas de ressources pour trouver des informations, systématiser ces informations, mettre des données dans la base de données. À la demande d'un concurrent, vous analysez cette base et la donnez au même concurrent pour de l'argent. Pensez-vous qu'il n'y a pas de problème éthique? En ce qui concerne l'état de droit, je ne sais pas comment c'est en Fédération de Russie, mais en Ukraine, une base de données peut être soumise au droit d'auteur. "

    Cependant, la responsabilité de l'utilisation du service ou du produit incombe toujours à la personne qui l'acquiert / dans quel but: «… en Russie aussi. Nous fournissons des services de collecte de données. Et pour ce service, nous demandons de l'argent. Nous ne vendons pas les données nous-mêmes. «Au fait, j'avertis tous les clients qu'ils peuvent enfreindre la loi s'ils utilisent, par exemple, des descriptions.»
  4. "Formellement, vous avez raison, mais j'ai trouvé un article sur vous!" Le Code pénal de la Fédération de Russie (article 146) ne décrit que l'étendue des violations qui permettent de classer la violation du droit d'auteur comme une «infraction pénale». Les droits eux-mêmes sont décrits dans le Code civil - et la mesure dans laquelle l'acte peut être qualifié de «criminel», une analyse régulière, de sorte que la question se pose de «le site va-t-il disparaître», s'étend sans problème. Mais les aspects sont importants:

    • Là, la «grande taille» n'est pas dans le nombre de pages analysées, mais dans l'argent. Comment évaluez-vous l'analyse (et sa régularité) comme une violation du droit d'auteur (!) En argent? Et comment cela se fait-il habituellement dans de tels cas, et d'où peut provenir une amende de centaines de milliers de dollars par copie du film? Le «manque à gagner» est calculé avec le coefficient correspondant. - — «». , , ( ), «». : , -? , .
    • ( . : — 30 , — 1000, « », ). , ? , « ».

En résumé: «- Comment l'analyse syntaxique est-elle devenue équivalente à une violation du droit d'auteur? - Aucun. La violation consiste à ordonner l'analyse de notre part, puis à vider le contenu de votre site. Mettre un site est un autre article. "

Maxim Kulgin, xmldatafeed.com

Source: https://habr.com/ru/post/fr450834/


All Articles