Dans cet article, je vais essayer de parler le plus simplement de l'analyse des sites et de ses principales nuances. Mon entreprise analyse des sites depuis plus de trois ans et chaque jour, nous analysons environ 300 sites. J'écris généralement ouvertement à ce sujet dans les réseaux sociaux (en plus, nous publions gratuitement de nombreux résultats de l'analyse des plus grands magasins en Russie), ce qui provoque des discussions animées et la désapprobation des utilisateurs. Après avoir lu les commentaires, il est amusant de regarder dans votre PM et de lire des messages avec des offres de coopération des mêmes personnes qui viennent de nous condamner dans les commentaires sous le post :) L'article entier sera au format des questions les plus fréquemment posées et des réponses honnêtes (matériel marketing, pas technique )
1. Qu'est-ce que l'analyse syntaxique?
Par définition, l'analyse est la collecte automatisée d'informations non structurées, leur transformation et leur sortie sous une forme structurée. Assez inoffensif, non? Cependant, la société traite cela de manière assez particulière comme une masturbation chez les adolescentes - beaucoup l'ont fait :), mais personne n'en parle publiquement. De plus, l'analyse est souvent mal vue et considérée comme quelque peu honteuse. La raison, comme dans la plupart des cas similaires, est dans la mauvaise perception.
Je vais vous dire un secret: tout le monde est engagé dans l'analyse ... Au moins, tous les principaux acteurs du marché. Il y a quelques années, dans un article de Vedomosti, des représentants de M-video, Svyaznoy et Citylink en ont même parlé ouvertement en réponse à l'intérêt du FAS (voir
ici ).
2. À quoi sert l'analyse?
Tout d'abord, l'objectif de l'analyse est «l'intelligence» des prix, l'analyse de l'assortiment et le suivi des stocks de matières premières. "Qui, quoi, pour combien et en quelles quantités se vend?" - Les principales questions auxquelles l'analyse doit répondre. Plus en détail, l'analyse de la gamme de concurrents ou du même Yandex.Market répond aux trois premières questions.
Avec la circulation des marchandises est un peu plus compliqué. Cependant, des sociétés telles que Wildberries, Lamoda et Leroy Merlin fournissent ouvertement des informations sur les ventes quotidiennes (commandes) ou les soldes de produits, sur la base desquelles il n'est pas difficile de se faire une idée générale des ventes (j'entends souvent l'opinion selon laquelle ces données peuvent être faussées). intentionnellement - peut-être, mais peut-être pas). Nous regardons combien de marchandises étaient en stock aujourd'hui, demain, après-demain, et ainsi de suite pendant un mois, et le planning est déjà prêt et la dynamique de l'évolution de la quantité par position a été établie (le chiffre d'affaires des marchandises est en fait). Plus la dynamique est élevée, plus le chiffre d'affaires est important.
Façon potentiellement possible de connaître le chiffre d'affaires des marchandises grâce à une analyse quotidienne des résidus du site Leroy Merlin.Vous pouvez bien sûr faire référence à la circulation des marchandises entre les points. Mais au total, si nous prenons, par exemple, Moscou, le nombre ne changera pas beaucoup, et il est difficile de croire à des mouvements importants de marchandises entre les régions.
La situation est similaire avec les volumes de vente. Il existe, bien sûr, des entreprises qui publient des informations sous forme de plusieurs / quelques-unes, mais même avec cela, vous pouvez travailler, et les positions les plus vendues sont facilement suivies. Surtout si vous supprimez les positions bon marché et vous concentrez uniquement sur celles qui ont la plus grande valeur. Au moins, nous avons fait une telle analyse - cela s'est avéré intéressant.
Deuxièmement, l'analyse est utilisée pour obtenir du contenu. Ici, des histoires dans le style des «nuances de gris légales» peuvent déjà avoir lieu. Beaucoup sont obsédés par le fait que l'analyse est précisément un vol de contenu, bien que ce ne soit pas du tout le cas. L'analyse n'est qu'une collecte automatisée d'informations, rien de plus. Par exemple, l'analyse de photos, en particulier celles avec des «filigranes», est un pur vol de contenu et une violation du droit d'auteur. Par conséquent, ils ne le font généralement pas (dans notre travail, nous nous limitons à collecter des liens vers des images, rien de plus ... eh bien, parfois ils nous demandent de compter le nombre de photos, de suivre la disponibilité de la vidéo sur le produit et de donner un lien, etc.).
En ce qui concerne la collecte de contenu, la situation des descriptions de produits est plus intéressante. Récemment, nous avons reçu une commande pour collecter des données sur 50 sites de grandes pharmacies en ligne. En plus des informations sur l'assortiment et le prix, on nous a demandé de «spars» la description des dispositifs médicaux - ce qui est inclus dans chaque paquet est ce qu'on appelle. informations factuelles, c'est-à-dire est peu susceptible de tomber sous le droit d'auteur. Par conséquent, au lieu d'un ensemble manuel d'instructions, les clients n'auront qu'à apporter de petits ajustements aux modèles d'instructions, et c'est tout - le contenu du site est prêt. Mais oui, il peut également y avoir des descriptions par l'auteur de médicaments certifiés par un notaire et fabriqués spécifiquement comme une sorte de piège pour les voleurs de contenu :).
Pensez également à collecter des descriptions de livres, par exemple, avec OZON.RU ou Labyrinth.ru. Ici, la situation n'est pas aussi simple du point de vue juridique. D'une part, l'utilisation d'une telle description peut enfreindre le droit d'auteur, surtout si la description de chaque carte de produit a été notariée (ce dont je doute fortement - elle peut ne pas être certifiée, à l'exception des petites ressources qui veulent faire glisser des voleurs de contenu devant les tribunaux). Dans tous les cas, dans cette situation, vous devrez beaucoup "transpirer" pour prouver le caractère unique de cette description. Certains clients vont encore plus loin - ils connectent des synonymiseurs qui changent «à la volée» (bon ou mauvais) les mots de la description, tout en gardant un bon sens.
Une autre application de l'analyse est assez originale - «l'auto-analyse». Plusieurs objectifs sont poursuivis ici. Pour commencer, il s'agit de suivre ce qui se passe avec le contenu du site: où sont les liens cassés, où les descriptions manquent, duplication des marchandises, manque d'illustrations, etc. Une demi-heure de travail de l'analyseur - et maintenant vous avez un tableau prêt à l'emploi avec toutes les catégories et données. Idéalement! L '«auto-analyse» peut également être utilisée pour comparer les soldes sur le site avec leurs soldes d'entrepôt (il existe également de tels clients qui suivent les échecs des téléchargements sur le site). Une autre application de l'auto-analyse que nous avons rencontrée dans notre travail consiste à structurer les données d'un site Web pour les télécharger sur Yandex Market. C'était plus facile pour les gars de le faire que de le faire manuellement.
Les publicités sont également analysées, par exemple, sur CIAN-e, Avito, etc. Les objectifs ici peuvent être soit la revente de bases à des agents immobiliers ou des voyagistes, soit le spam par téléphone, le reciblage, etc. Dans le cas d'Avito, cela est particulièrement évident, car un tableau avec les téléphones des utilisateurs est compilé immédiatement (malgré le fait qu'Avito remplace les téléphones des utilisateurs pour la protection et les publie sous forme d'image, il n'est toujours pas possible d'obtenir quelque chose des appels entrants).
3. "Qu'est-ce que je trouve dans mon CV?" ou analyser HH.RU
Récemment, les demandes d'analyse du chasseur de têtes sont devenues pertinentes. Certes, au début, les gens sont invités à leur vendre une «base de chasseurs de têtes». Mais, lorsqu'ils comprennent déjà que nous n'avons pas et ne pouvons pas avoir de base, nous procédons à l'analyse syntaxique dans leur profil («avec un mot de passe»). C'est une direction particulière de l'analyse et, franchement, ce n'est pas très intéressant pour nous, mais cela vaut la peine d'en parler.
Quelle est la subtilité? Le client donne accès à son compte et définit la tâche de collecte des données selon ses besoins. C'est-à-dire Il a déjà payé l'accès à la base de données HH et, en signant un accord avec nous, nous confie la tâche de collecter automatiquement des informations dans son intérêt et sous son compte, qui est entièrement sous sa responsabilité. Si HH détecte une activité anormale, le compte sera bloqué. Par conséquent, nous essayons de simuler au mieux l'activité humaine dans la collecte de données.
Si HH (pour autant que je sache, ayant réussi avec succès ses expériences avec l'API) avait fourni (vendu) les données de la tablette par région, par exemple, les contacts de tous les directeurs marketing actuellement actifs à Moscou, personne ne serait venu nous voir. En attendant, les gens doivent faire ça avec des «stylos», ils viennent à nous. Après tout, lorsque vous avez une telle table, il est beaucoup plus pratique de se lancer dans le spam publicitaire - les appels à froid.
Je souligne encore une fois, nous n'avons pas de base de données HH, nous collectons simplement des données pour chaque client pour ses besoins, son compte et sa responsabilité. Et la violation du contrat d'offre n'est pas associée à l'utilisation du site par la partie analysante. En signant un accord avec nous, le client reçoit pour la course les contacts d'environ 450 décideurs, que nous lui mettons sur le serveur, puis son service commercial décidera quoi en faire. Eh, nous serions également «spammés» si nous avions une telle base. Je plaisante :)
Bien que, personnellement, je pense qu'il n'y a aucune possibilité d'analyser un mot de passe. L'analyse des ressources ouvertes est une autre question. Une fois que vous avez tout configuré et analysé en permanence, vous revendez l'accès à toutes les données collectées. C'est plus prometteur.
4. L'analyse est-elle légale?
Il n'y a aucun article dans la loi russe interdisant l'analyse. Le piratage, DDOS, le vol de contenu protégé par des droits d'auteur est interdit, et l'analyse n'est ni l'un ni l'autre, pas le troisième et, en conséquence, il n'est pas interdit.
Certaines personnes perçoivent l'analyse comme une attaque DDOS et en doutent. Cependant, ce sont des choses complètement différentes, et lors de l'analyse, nous essayons au contraire de charger le site cible le moins possible et de ne pas nuire à l'entreprise. Comme dans le cas d'un parasitisme sain, nous ne voulons pas que l'entreprise «laisse tomber ses sabots», sinon nous n'aurons rien à «parasiter».
Habituellement, ils demandent à analyser de grands sites, parmi les 300 à 500 premiers sites en Russie. Sur ces sites, le trafic est généralement de plusieurs millions par mois, voire plus. Et dans un tel contexte, l'analyse d'un produit par seconde ou deux est presque invisible (cela n'a aucun sens d'analyser plus souvent, 1-2 secondes par produit est la vitesse optimale pour les grands sites). En conséquence, il n'y a aucun indice d'une attaque DDOS dans nos actions. Très rarement, les gens nous demandent de mettre à jour, par exemple, l'intégralité du site BERU.RU par jour - disons le franchement, c'est exagéré et une charge trop élevée sur le site ... prend généralement 3-4 jours.
Permettez-moi de vous rappeler que l'analyse n'est qu'une collection de ce que nous pouvons voir de nos propres yeux sur le site et copier entre nos mains. Ainsi, seules les actions avec des informations déjà collectées, c'est-à-dire actions du client lui-même. C'est juste qu'une personne fait cela pendant longtemps lentement et avec des erreurs, et l'analyseur - rapidement et ne fait pas d'erreurs. Que faire en matière de collecte de données sur AliExpress ou Wildberies? Une telle tâche dépasse simplement le pouvoir de l'homme et l'analyse est la seule issue.
Certes, ils ont récemment demandé à analyser le site Web d'une organisation d'État - un tribunal, si je ne me trompe pas. Là toutes les informations sont dans le domaine public, mais nous (au cas où) avons refusé. :)
5. "Pourquoi nous analysez-vous, nous sommes le client" ou quelle est la différence entre l'analyse et la surveillance des prix?
La surveillance des prix est l'une des applications d'analyse les plus populaires. Mais ce n'est pas si simple avec lui - dans ce cas, non seulement nous devrons travailler, mais aussi le client lui-même.
Lors de la commande de surveillance des prix, nous avertissons immédiatement que nous analyserons non seulement les concurrents, mais aussi le client. Cela est nécessaire pour obtenir des tableaux similaires avec des produits et des prix, que nous pouvons mettre à jour automatiquement. Cependant, ces données à elles seules n'ont pas de valeur tant qu'elles ne sont pas interconnectées (ce que l'on appelle l'appariement des marchandises). Nous pouvons corréler automatiquement certaines positions de différents sites, mais, malheureusement, pour le moment, les «machines» ne sont toujours pas assez bonnes pour être garanties sans erreurs, et personne n'est meilleur qu'une personne (par exemple, travailler à distance chez un employé à temps partiel des régions) fera l'affaire.
Si tout le monde affichait un code-barres sur le site, ce serait bien, et nous pourrions faire tous les «bundles» automatiquement. Mais, malheureusement, ce n'est pas le cas, et même des entreprises différentes orthographient des noms de produits différents différemment.
Il est bon qu'un tel travail doive être effectué une fois, puis revérifié périodiquement et faire de petits ajustements, si nécessaire. S'il existe des liens, nous pouvons déjà mettre à jour ces tables automatiquement. De plus, généralement, les gens n'ont pas besoin de surveiller les prix pour tout: il y a conditionnellement 3 à 5 000 positions qui sont dans le haut, et une bagatelle n'est pas intéressante. Et un opérateur de la région peut facilement effectuer un tel travail pour environ 10 000 roubles par mois.
Le cas le plus réussi et correct dans ce cas, à mon avis, est de télécharger la liste de prix des concurrents directement sur votre 1C-ku (ou autre système ERP) et là, vous pouvez déjà effectuer la comparaison. La surveillance des prix est donc plus facile à mettre en œuvre dans les activités quotidiennes de leurs analystes. Et sans analyse, personne n'a besoin d'une telle analyse.
6. Comment vous protéger de l'analyse syntaxique?
Pas question. Et vaut-il la peine de se protéger de l'analyse syntaxique? Je ne le ferais pas. Il n’existe toujours pas de protection à 100% (plus précisément, nous ne nous sommes pas encore réunis), je ne vois donc pas grand-chose d’essayer de me défendre. La meilleure protection contre l'analyse est simplement de disposer la table finie sur le site et d'écrire - retirez-la d'ici, mettez à jour une fois tous les deux jours. Si les gens font cela, alors nous n'aurons pas de pain.
Soit dit en passant, ils ont récemment appelé le directeur informatique d'un grand réseau - ils voulaient tester leur protection contre l'analyse. Je lui ai directement demandé pourquoi ils ne le faisaient pas. En tant que spécialiste technique, il comprend parfaitement qu'aucune protection contre l'analyse ne sauvera, cela ne fera qu'effrayer les amateurs; mais les entreprises qui font de l'argent en analysant peuvent très bien se permettre des activités de recherche dans ce sens - pour comprendre la nouvelle protection pendant une longue et douloureuse période, et finalement la contourner ...
En règle générale, tout le monde utilise le même type de protection, et une telle étude sera utile plus d'une fois. Il s'est donc avéré que le service marketing n'était pas prêt pour cela: "Pourquoi simplifions-nous la vie des concurrents?" Cela semblerait logique, mais ... En conséquence, l'entreprise va dépenser de l'argent pour la protection, ce qui n'aidera pas, et la charge parasite sur le site restera. Bien que, pour être honnête, il convient de noter que les «étudiants» qui apprennent le python et planent tout ce qui «bouge» peuvent bien aider.
Soit dit en passant, Yandex et Google sont engagés dans l'analyse: ils vont sur le site et l'indexent - collectent des informations. Seul tout le monde veut que Yandex et Google indexent leurs sites pour des raisons évidentes, et personne ne veut être analysé :)
7. «J'ai regardé ici gratuitement ...» ou une histoire sur les vols
Une fois, nous avons été approchés avec une commande intéressante pour l'analyse syntaxique des tests. La société s'occupe des billets d'avion et ils étaient intéressés par les prix des concurrents pour quelques-unes des destinations les plus populaires. La tâche n'était pas anodine, car J'ai dû bricoler avec la substitution et la comparaison des vols. Il s'est avéré intéressant que les prix de «Onetwotrip», «Aviasales» et «Skyscanner» pour les mêmes vols soient légèrement différents (l'écart est d'environ 5-7%).
Le projet m'a paru très intéressant et j'ai posté un article à ce sujet sur les réseaux sociaux. À ma grande surprise, la discussion sous le poste a été assez agressive et je n'ai pas immédiatement compris pourquoi. Ensuite, le directeur général de l'une des sociétés du leader du marché de la vente de billets en Russie m'a écrit et la situation s'est éclaircie. Il s’est avéré que les demandes de prix des billets pour ces compagnies étaient payées, car ils prennent des informations des services internationaux payants. Et, en plus de la charge parasite, l'analyse est également financière pour eux.
Dans tous les cas, personne ne vous demande de paiement si vous recherchez personnellement des billets pour ces services, et les gens ordinaires font également beaucoup de demandes tout en triant les différentes options ... En général, il y a un tel dilemme commercial :)
8. «Recettes du chef-parseur». ou comment travaillons-nous?
Je pense que pour une meilleure compréhension de tous les aspects de l'analyse, cela vaut la peine d'ouvrir le voile de notre «cuisine intérieure».
Tout commence par une commande. Parfois, les clients nous contactent eux-mêmes et parfois nous appelons. Cela se révèle particulièrement bien avec les commandes de surveillance des prix. Dans ce cas, nous devons analyser non seulement les concurrents, mais aussi le client lui-même. Par conséquent, nous appelons parfois ceux que nous analysons d'une manière ou d'une autre, et nous en parlons ouvertement, en offrant nos services - le travail est déjà fait par nous. Au début, la réaction est très négative, mais quelques jours passent, les émotions se calment et les clients eux-mêmes rappellent en disant: «Bon sang! Qui analysez-vous encore? "
L'analyse de TRÈS de nombreux propriétaires des ressources visitées provoque des émotions. D'abord négatif, car c'est similaire à jeter un œil dans un trou de serrure. Elle se développe ensuite en intérêt, puis en prise de conscience de la nécessité. Les hommes d'affaires sont des gens intelligents. Lorsque les émotions sont vaines et que le calcul reste froid, la question se pose toujours: "Ou peut-être que nous étions sous-développés quelque part, et nous en avons également besoin?"
Grâce à ces émotions, nous nous développons et nous développons assez activement. À l'heure actuelle, nous analysons environ 300 sites par jour. Habituellement, nous commandons 8 à 15 sites chez nous, et l'analyse d'un coûte de 5 à 9 mille roubles par mois, selon la complexité de la connexion, car chaque site doit être connecté individuellement (cela prend environ 4 à 5 heures à la ressource). La difficulté est que certains sont protégés. La lutte n'est pas tant avec l'analyse qu'avec une charge parasitaire, ce qui ne leur apporte pas de profit, mais parfois il faut bricoler.
Dans tous les cas, TOUT est PAROISSE, même si le prix des marchandises est publié sur le site sous forme d'image :) Pour ceux qui veulent s'essayer à l'analyse, je recommande de travailler sur le site Web de la pharmacie Stolichki et de
fixer les prix .
Boutique en ligne d'un réseau de pharmacies «Stolichki» - les prix sont écrits en caractères internes et pour les analyser l'une des solutions sera la formation de l'image et sa reconnaissance. Nous le faisons au moins.Les données collectées sont transmises au client. Habituellement, nous les plaçons sur notre propre cloud, en les mettant constamment à jour, et nous leur fournissons un accès via l'API. Si quelque chose se passe soudainement avec les données (et cela arrive rarement - une fois tous les 3-4 mois), ils nous appellent immédiatement et nous écrivent, et nous essayons de résoudre le problème le plus rapidement possible. Ces échecs se produisent lorsqu'une nouvelle protection ou un nouveau bloc est installé et sont résolus à l'aide de la recherche et des proxys, respectivement. Dans un autre cas, lorsque quelque chose change sur le site, le bot cesse simplement de comprendre où il se trouve et notre programmeur doit le reconfigurer. Mais tout est résolu et les clients traitent généralement ces problèmes avec compréhension.
Je note que dans notre entreprise, l'identité du client n'a jamais été divulguée - nous sommes très sensibles à cela, et personne n'a annulé les clauses de l'accord de non-divulgation. Bien qu'il n'y ait rien de répréhensible dans l'analyse, beaucoup sont timides.
, - , (, , “ ” ), ( ).
PS: , . — , , ( .net) ..
,
xmldatafeed.com