In diesem Artikel werde ich versuchen, am einfachsten über Parsing-Sites und ihre Hauptnuancen zu sprechen. Mein Unternehmen analysiert seit mehr als drei Jahren Websites und wir analysieren jeden Tag etwa 300 Websites. Normalerweise schreibe ich offen darüber in sozialen Netzwerken (und wir veröffentlichen viele Ergebnisse der kostenlosen Analyse der größten Geschäfte in Russland - öffentlich), was zu heftigen Diskussionen und Missbilligungen bei den Nutzern führt. Nach dem Lesen der Kommentare ist es lustig, in Ihre PM zu schauen und Nachrichten mit Kooperationsangeboten von denselben Personen zu lesen, die uns gerade in den Kommentaren unter dem Beitrag verurteilt haben :) Der gesamte Artikel wird im Format der am häufigsten gestellten Fragen und ehrlichen Antworten (Marketingmaterial, nicht technisch) vorliegen )
1. Was ist Parsen?
Parsing ist per Definition die automatisierte Erfassung unstrukturierter Informationen, deren Transformation und Ausgabe in strukturierter Form. Ziemlich harmlos, nicht wahr? Die Gesellschaft behandelt dies jedoch ziemlich eigenartig als Masturbation bei Teenagern - viele haben es getan :), aber niemand spricht öffentlich darüber. Darüber hinaus wird das Parsen oft verpönt und als etwas beschämend angesehen. Der Grund liegt, wie in den meisten ähnlichen Fällen, in der falschen Wahrnehmung.
Ich werde Ihnen ein Geheimnis verraten: Jeder ist mit dem Parsen beschäftigt ... Zumindest alle wichtigen Akteure auf dem Markt. Vor einigen Jahren haben Vertreter von M-video, Svyaznoy und Citylink in einem der Artikel in Vedomosti sogar offen darüber gesprochen, als Reaktion auf das Interesse der FAS (siehe
hier ).
2. Wofür wird analysiert?
Das Ziel der Analyse ist zunächst die Preisintelligenz, die Sortimentsanalyse und die Verfolgung von Rohstoffaktien. "Wer, was, für wie viel und in welchen Mengen verkauft?" - Die Hauptfragen, die das Parsen beantworten sollte. Wenn Sie die Anzahl der Wettbewerber oder denselben Yandex.Market analysieren, werden die ersten drei Fragen genauer beantwortet.
Der Warenumlauf ist etwas komplizierter. Unternehmen wie „Wildberries“, „Lamoda“ und Leroy Merlin geben jedoch offen Auskunft über tägliche Verkäufe (Bestellungen) oder Produktbilanzen, auf deren Grundlage es nicht schwierig ist, eine allgemeine Vorstellung von Verkäufen zu gewinnen (ich höre oft die Meinung, dass diese Daten verzerrt sein könnten absichtlich - vielleicht, aber vielleicht auch nicht). Wir schauen uns an, wie viele Waren heute, morgen, übermorgen usw. einen Monat lang auf Lager waren, und der Zeitplan ist bereits fertig und die Dynamik der Änderung der Menge nach Position wurde erstellt (der Warenumsatz ist tatsächlich). Je höher die Dynamik, desto größer der Umsatz.
Möglicherweise möglicher Weg, um den Warenumsatz mithilfe einer täglichen Analyse der Rückstände der Leroy Merlin-Website zu ermitteln.Sie können sich natürlich auf den Warenverkehr zwischen Punkten beziehen. Wenn wir zum Beispiel Moskau nehmen, wird sich die Zahl insgesamt nicht wesentlich ändern, und es ist schwierig, an signifikante Warenbewegungen zwischen Regionen zu glauben.
Ähnlich verhält es sich mit den Verkaufsmengen. Es gibt natürlich Unternehmen, die Informationen in Form von vielen / wenigen veröffentlichen, aber selbst damit können Sie arbeiten, und die meistverkauften Positionen lassen sich leicht nachverfolgen. Vor allem, wenn Sie billige Positionen abschneiden und sich ausschließlich auf diejenigen konzentrieren, die den größten Wert haben. Zumindest haben wir eine solche Analyse durchgeführt - es stellte sich interessant heraus.
Zweitens wird das Parsen verwendet, um Inhalte abzurufen. Hier können bereits Geschichten im Stil von „legalen Grautönen“ stattfinden. Viele sind besessen von der Tatsache, dass das Parsen genau der Diebstahl von Inhalten ist, obwohl dies völlig nicht der Fall ist. Das Parsen ist nur eine automatisierte Sammlung von Informationen, nichts weiter. Das Parsen von Fotos, insbesondere von Fotos mit „Wasserzeichen“, ist beispielsweise reiner Diebstahl von Inhalten und Urheberrechtsverletzung. Daher tun sie dies normalerweise nicht (in unserer Arbeit beschränken wir uns darauf, Links zu Bildern zu sammeln, nichts weiter ... manchmal bitten sie uns, die Anzahl der Fotos zu zählen, die Verfügbarkeit von Videos auf dem Produkt zu verfolgen und einen Link anzugeben usw.).
In Bezug auf die Sammlung von Inhalten ist die Situation mit Produktbeschreibungen interessanter. Vor kurzem haben wir den Auftrag erhalten, Daten auf 50 Websites großer Online-Apotheken zu sammeln. Zusätzlich zu Informationen über das Sortiment und den Preis wurden wir gebeten, die Beschreibung der Medizinprodukte zu „ersparen“ - genau das, was in jeder Packung enthalten ist, ist das sogenannte sachliche Informationen, d.h. Es ist unwahrscheinlich, dass es unter das Urheberrecht fällt. Daher müssen Kunden anstelle eines manuellen Befehlssatzes nur geringfügige Anpassungen an den Anweisungsvorlagen vornehmen, und das ist alles - der Inhalt für die Website ist fertig. Aber ja, es kann auch Autorenbeschreibungen von Arzneimitteln geben, die von einem Notar zertifiziert und speziell als eine Art Falle für Inhaltsdiebe hergestellt wurden :).
Sammeln Sie auch Buchbeschreibungen, z. B. mit OZON.RU oder Labyrinth.ru. Hier ist die Situation aus rechtlicher Sicht nicht so einfach. Einerseits kann die Verwendung einer solchen Beschreibung das Urheberrecht verletzen, insbesondere wenn die Beschreibung jeder Produktkarte notariell beglaubigt wurde (was ich stark bezweifle - sie ist möglicherweise nicht zertifiziert, die Ausnahme sind kleine Ressourcen, die Inhaltsdiebe vor Gericht ziehen wollen). In dieser Situation müssen Sie in jedem Fall viel „schwitzen“, um die Einzigartigkeit dieser Beschreibung zu beweisen. Einige Kunden gehen sogar noch weiter - sie verbinden Synonymisierer, die "im laufenden Betrieb" die Wörter in der Beschreibung ändern (gut oder schlecht), während sie einen gesunden Menschenverstand bewahren.
Eine andere Anwendung der Analyse ist ziemlich originell - "Selbstanalyse". Hier werden mehrere Ziele verfolgt. Zunächst wird verfolgt, was mit dem Inhalt der Website geschieht: Wo sind fehlerhafte Links, wo fehlen Beschreibungen, doppelte Waren, fehlende Abbildungen usw. Eine halbe Stunde Arbeit des Parsers - und jetzt haben Sie eine vorgefertigte Tabelle mit allen Kategorien und Daten. Bequem! "Self-Parsing" kann auch verwendet werden, um die Salden auf der Site mit ihren Lagersalden zu vergleichen (es gibt auch solche Kunden, die die Fehler von Uploads auf die Site verfolgen). Eine andere Anwendung von „Self-Parsing“, auf die wir in unserer Arbeit gestoßen sind, ist die Strukturierung von Daten von einer Website zum Hochladen auf Yandex Market. Es war für die Jungs einfacher, dies zu tun, als es manuell zu tun.
Anzeigen werden beispielsweise auch auf CIAN-e, Avito usw. analysiert. Die Ziele hier können entweder der Weiterverkauf von Basen an Makler oder Reiseveranstalter oder direkter Telefon-Spam, Retargeting usw. sein. Im Fall von Avito ist dies besonders offensichtlich, weil Eine Tabelle mit Benutzertelefonen wird sofort erstellt (obwohl Avito die Telefone der Benutzer zum Schutz ersetzt und sie als Bild veröffentlicht, ist es immer noch nicht möglich, eingehende Anrufe zu tätigen).
3. "Was steht in meinem Lebenslauf für Sie?" oder Parsen von HH.RU.
In letzter Zeit sind Anfragen zum Parsen von Headhunter relevant geworden. Zwar werden die Leute zunächst gebeten, ihnen eine „Headhunter-Basis“ zu verkaufen. Wenn sie jedoch bereits verstehen, dass wir keine Basis haben und nicht haben können, sprechen wir über das Parsen in ihrem Profil ("mit einem Passwort"). Dies ist eine eigenartige Richtung des Parsens und ehrlich gesagt für uns nicht besonders interessant, aber es lohnt sich, darüber zu sprechen.
Was ist die Subtilität? Der Kunde gewährt Zugriff auf sein Konto und legt die Aufgabe der Datenerfassung an seine Bedürfnisse fest. Das heißt, Er hat bereits für den Zugriff auf die HH-Datenbank bezahlt und stellt uns mit der Unterzeichnung einer Vereinbarung die Aufgabe, automatisch Informationen in seinem Interesse und unter seinem Konto zu sammeln, das vollständig in seiner Verantwortung liegt. Wenn HH eine abnormale Aktivität feststellt, wird das Konto gesperrt. Daher versuchen wir, menschliche Aktivitäten bei der Datenerfassung so gut wie möglich zu simulieren.
Wenn HH (soweit ich weiß, "erfolgreich" seine Experimente mit der API nicht bestanden hätte) die Daten in einem Tablet nach Regionen geliefert (verkauft) hätte, beispielsweise die Kontakte aller derzeit tätigen Marketingleiter in Moskau, wäre niemand zu uns gekommen. In der Zwischenzeit müssen die Leute dies mit „Stiften“ tun, sie kommen zu uns. Wenn Sie einen solchen Tisch haben, ist es schließlich viel bequemer, Werbung für Spam zu tätigen - Kaltanrufe.
Ich betone noch einmal, wir haben keine HH-Datenbank, wir sammeln einfach Daten für jeden Kunden für seine Bedürfnisse, sein Konto und seine Verantwortung. Ein Verstoß gegen den Angebotsvertrag ist nicht mit der Nutzung der Website durch die Parsing-Partei verbunden. Durch die Unterzeichnung einer Vereinbarung mit uns erhält der Kunde für den Lauf Kontakte von rund 450 Entscheidungsträgern, die wir ihm auf den Server stellen, und dann entscheidet seine Verkaufsabteilung, was damit zu tun ist. Eh, wir wären auch "Spam", wenn wir eine solche Basis hätten. Nur ein Scherz :)
Obwohl ich persönlich denke, dass es keine Aussichten gibt, mit einem Passwort zu analysieren. Das Parsen offener Ressourcen ist eine andere Sache. Sobald Sie alles eingerichtet und ständig analysiert haben, verkaufen Sie den Zugriff auf alle gesammelten Daten weiter. Das ist vielversprechender.
4. Ist das Parsen legal?
Es gibt keinen Artikel im russischen Recht, der das Parsen verbietet. Hacking, DDOS und Diebstahl von urheberrechtlich geschütztem Inhalt sind verboten, und das Parsen ist weder das eine noch das andere, nicht das dritte und dementsprechend auch nicht verboten.
Einige Leute empfinden das Parsen als DDOS-Angriff und bezweifeln es. Dies sind jedoch völlig andere Dinge, und beim Parsen versuchen wir im Gegenteil, die Zielwebsite so wenig wie möglich zu laden und das Geschäft nicht zu schädigen. Wie im Fall eines gesunden Parasitismus möchten wir nicht, dass das Unternehmen „seine Hufe fallen lässt“, sonst haben wir nichts, worauf wir „parasitieren“ können.
Normalerweise bitten sie darum, große Websites von den 300-500 besten Websites in Russland zu analysieren. Auf solchen Websites beträgt der Datenverkehr in der Regel mehrere Millionen pro Monat, möglicherweise sogar mehr. Vor diesem Hintergrund ist das Parsen eines Produkts pro oder zwei Sekunden fast unsichtbar (es macht keinen Sinn, häufiger zu analysieren, 1-2 Sekunden pro Produkt sind die optimale Geschwindigkeit für große Websites). Dementsprechend gibt es in unseren Aktionen keinen Hinweis auf einen DDOS-Angriff. Sehr selten werden wir gebeten, beispielsweise die gesamte BERU.RU-Site pro Tag zu aktualisieren. Nehmen wir an, es ist übertrieben, und die Belastung der Site ist zu hoch. Normalerweise dauert es 3-4 Tage.
Ich möchte Sie daran erinnern, dass das Parsen nur eine Sammlung dessen ist, was wir mit eigenen Augen auf der Website sehen und in unsere Hände kopieren können. Somit werden nur Aktionen mit bereits gesammelten Informationen, d. H. Handlungen des Kunden selbst. Es ist nur so, dass eine Person dies für eine lange Zeit langsam und mit Fehlern tut, und der Parser - schnell und macht keine Fehler. Was tun, wenn Daten von AliExpress oder Wildberies gesammelt werden? Eine solche Aufgabe liegt einfach außerhalb der Macht des Menschen, und das Parsen ist der einzige Ausweg.
Zwar haben sie kürzlich darum gebeten, die Website einer staatlichen Organisation zu analysieren - eines Gerichts, wenn ich mich nicht irre. Dort sind alle Informationen gemeinfrei, aber wir haben (nur für den Fall) abgelehnt. :) :)
5. „Warum analysieren Sie uns, wir sind der Kunde?“ Oder was ist der Unterschied zwischen Analyse und Preisüberwachung?
Die Preisüberwachung ist eine der beliebtesten Anwendungen für das Parsen. Bei ihm ist das nicht so einfach - in diesem Fall müssen wir nicht nur arbeiten, sondern auch den Kunden selbst.
Bei der Bestellung der Preisüberwachung warnen wir sofort, dass wir nicht nur Wettbewerber, sondern auch den Kunden analysieren. Dies ist notwendig, um ähnliche Tabellen mit Waren und Preisen zu erhalten, die wir automatisch aktualisieren können. Solche Daten allein sind jedoch erst dann wertvoll, wenn sie miteinander verbunden sind (das sogenannte Match of Goods). Wir können einige Positionen von verschiedenen Standorten aus automatisch korrelieren, aber im Moment sind die „Maschinen“ leider nicht so gut, dass dies fehlerfrei garantiert wird, und niemand ist besser als eine Person (z. B. Remote-Arbeit bei einem Teilzeitbeschäftigten aus den Regionen). wird tun.
Wenn jeder auf der Website einen Barcode anzeigen würde, wäre dies großartig, und wir könnten alle „Bundles“ automatisch erstellen. Dies ist jedoch leider nicht der Fall, und selbst verschiedene Unternehmen schreiben unterschiedliche Produktnamen unterschiedlich.
Es ist gut, dass solche Arbeiten einmal ausgeführt und dann regelmäßig überprüft und gegebenenfalls geringfügig angepasst werden müssen. Wenn es Links gibt, können wir solche Tabellen bereits automatisch aktualisieren. Darüber hinaus müssen die Leute normalerweise nicht für alles die Preise überwachen: Es gibt bedingt 3-5 Tausend Positionen, die an der Spitze stehen, und eine Kleinigkeit ist nicht von Interesse. Und ein Bediener aus der Region kann solche Arbeiten problemlos für etwa 10.000 Rubel pro Monat ausführen.
Der erfolgreichste und korrekteste Fall in diesem Fall ist meiner Meinung nach, die Preisliste der Wettbewerber direkt auf Ihr 1C-ku (oder ein anderes ERP-System) hochzuladen, und dort können Sie den Vergleich bereits durchführen. Daher ist die Preisüberwachung am einfachsten in die täglichen Aktivitäten ihrer Analysten umzusetzen. Und ohne Analyse braucht niemand eine solche Analyse.
6. Wie schützen Sie sich vor dem Parsen?
Auf keinen Fall. Und lohnt es sich, sich vor dem Parsen zu schützen? Ich würde nicht. Es gibt immer noch keinen funktionierenden 100% igen Schutz (genauer gesagt, wir haben uns noch nicht getroffen), daher sehe ich keinen Sinn darin, mich zu verteidigen. Der beste Schutz gegen das Parsen besteht einfach darin, die fertige Tabelle auf der Site auszulegen und zu schreiben - nehmen Sie sie von hier und aktualisieren Sie sie alle paar Tage. Wenn die Leute das tun, werden wir kein Brot haben.
Übrigens haben sie kürzlich den IT-Direktor eines großen Netzwerks angerufen - sie wollten ihren Schutz vor Parsing testen. Ich fragte ihn direkt, warum sie es nicht tun. Als technischer Spezialist versteht er vollkommen, dass kein Schutz vor dem Parsen retten wird, sondern nur Amateure abschrecken wird. Aber Unternehmen, die mit dem Parsen Geld verdienen, können sich Forschungsaktivitäten in diese Richtung sehr gut leisten - um den neuen Schutz für eine lange und schmerzhafte Zeit zu verstehen und ihn schließlich zu umgehen ...
In der Regel verwendet jeder die gleiche Art von Schutz, und eine solche Studie wird mehr als einmal nützlich sein. Es stellte sich also heraus, dass die Marketingabteilung dafür nicht bereit ist: „Warum vereinfachen wir das Leben der Wettbewerber?“ Es scheint logisch, aber ... Infolgedessen wird das Unternehmen Geld für den Schutz ausgeben, was nicht hilft, und die parasitäre Belastung der Website bleibt bestehen. Obwohl es fairerweise erwähnenswert ist, dass von den "Schülern" das Erlernen von Python und das Hochfliegen von allem, was sich "bewegt", durchaus hilfreich sein kann.
Übrigens analysieren sowohl Yandex als auch Google: Sie gehen auf die Website und indizieren sie - sammeln Sie Informationen. Nur jeder möchte, dass Yandex und Google ihre Websites aus offensichtlichen Gründen indizieren, und niemand möchte analysiert werden :)
7. "Ich habe hier kostenlos gesucht ..." oder eine Geschichte über Flüge
Einmal wurden wir mit einem interessanten Auftrag zum Testen von Tests angesprochen. Das Unternehmen befasst sich mit Flugtickets und war an den Preisen der Wettbewerber für einige der beliebtesten Reiseziele interessiert. Die Aufgabe war nicht trivial, weil Ich musste an der Substitution und dem Vergleich von Flügen basteln. Es stellte sich als interessant heraus, dass die Preise für „Onetwotrip“, „Aviasales“ und „Skyscanner“ für dieselben Flüge leicht unterschiedlich sind (der Spread beträgt etwa 5-7%).
Das Projekt schien mir sehr interessant zu sein und ich habe einen Beitrag darüber in sozialen Netzwerken gepostet. Zu meiner Überraschung war die Diskussion unter dem Beitrag ziemlich aggressiv, und ich verstand nicht sofort, warum. Dann schrieb mir der Generaldirektor eines der Unternehmen des Marktführers im Ticketverkauf in Russland, und die Situation klärte sich auf. Es stellte sich heraus, dass Anfragen nach Ticketpreisen für solche Unternehmen bezahlt werden, weil Sie beziehen Informationen von internationalen kostenpflichtigen Diensten. Zusätzlich zur parasitären Belastung ist das Parsen für sie auch finanziell.
Auf jeden Fall verlangt niemand von Ihnen eine Zahlung, wenn Sie persönlich nach Tickets für diese Dienste suchen, und normale Leute stellen auch viele Anfragen, während sie verschiedene Optionen sortieren ... Im Allgemeinen gibt es ein solches Geschäftsdilemma :)
8. „Rezepte des Küchenchefs“. oder wie arbeiten wir
Ich denke, für ein besseres Verständnis aller Aspekte des Parsens lohnt es sich, den Schleier unserer „inneren Küche“ zu öffnen.
Alles beginnt mit einer Bestellung. Manchmal kontaktieren uns Kunden selbst und manchmal rufen wir an. Besonders gut fällt es bei Aufträgen zur Preisüberwachung aus. In diesem Fall müssen wir nicht nur die Wettbewerber, sondern auch den Kunden selbst analysieren. Deshalb rufen wir manchmal diejenigen an, die wir auf die eine oder andere Weise analysieren, und wir sprechen offen darüber und bieten unsere Dienste an - die Arbeit wird bereits von uns erledigt. Zuerst ist die Reaktion sehr negativ, aber ein paar Tage vergehen, die Emotionen lassen nach und die Kunden selbst rufen zurück und sagen: „Verdammt! Wen analysierst du noch? "
Das Parsen mit SEHR vielen Besitzern besuchter Ressourcen verursacht Emotionen. Zuerst negativ, weil es ähnlich ist, in ein Schlüsselloch zu gucken. Dann entwickelt es sich zu Interesse und dann zu einem Bewusstsein für die Notwendigkeit. Geschäftsleute sind kluge Leute. Wenn Emotionen umsonst sind und kalte Berechnungen bestehen bleiben, stellt sich immer die Frage: "Oder waren wir irgendwo unterentwickelt, und das brauchen wir auch?"
Dank dieser Emotionen wachsen und entwickeln wir uns sehr aktiv. Derzeit analysieren wir täglich etwa 300 Websites. Normalerweise bestellen sie 8 bis 15 Sites bei uns, und das Parsen kostet 5 bis 9 Tausend Rubel pro Monat, abhängig von der Komplexität der Verbindung, da jede Site einzeln verbunden werden muss (es dauert ungefähr 4 bis 5 Stunden, bis die Ressource verfügbar ist). Die Schwierigkeit ist, dass einige geschützt sind. , , , .
, :) , « »
.
- «» — . .. , , API. - ( – 3-4 ), -, . , . , - , , , . , .
, – , . , .
, - , (, , “ ” ), ( ).
PS: , . — , , ( .net) ..
,
xmldatafeed.com