Analyseseiten - und ist das in Russland generell legal?

Nach einer der Definitionen ist das Parsen ein Parsen von Informationen. Für eine Person, die nicht an den spezifischen Aufgaben des Sammelns und Verarbeitens von Informationen für Internetprojekte beteiligt ist, bedeutet dies nichts. Und genau diese Definition bedeutet, nur allgemein ausgedrückt, die enorme Menge an Arbeit, die Hunderte Millionen Menschen und Dutzende Millionen Roboter (obwohl virtuell, aber nicht weniger real) jede Minute auf der ganzen Welt erledigen. Aber diese Aufgabe ist für eine Person üblich - das Vergleichen der Preise von Tickets online, das Auswählen der richtigen Elektronik auf den Websites von Geschäften ... Wenn man Preise und Werbeaktionen in einer praktischen mobilen Anwendung des Supermarkts in der Nähe des Hauses betrachtet, wird keiner von uns daran denken, sich selbst als Parser zu bezeichnen.
Bild

Dennoch gibt es Business Parsing, funktioniert und ist natürlich Gegenstand lebhafter Diskussionen auf vielen Ebenen: ethisch, rechtlich, technologisch, finanziell und nicht nur.

Dieser Artikel gibt keine eindeutige Meinung ab, gibt keine Ratschläge und enthüllt keine Geheimnisse - hier werden wir nur einige Meinungen am Beispiel der interessantesten Kommentare zu einem separaten Artikel über das Parsen (50.000 Aufrufe und mehr als 400 Kommentare!) Zu Habré betrachten und sie aus der Perspektive von behandeln Erfahrung im Parsen von Webprojekten. Mit anderen Worten - wir haben viel Zeit verbracht und versucht, die interessantesten Leserkommentare zusammenzuführen und zu klassifizieren ... sozusagen weltliche Weisheit :)

Also, über das Parsen:

"Eine Frage der Technologie." Fantastische Proxies und wo sie leben.


So wie die Idee, sich selbst zu analysieren, natürlich ist (es ist immer interessant zu sehen, was die „Nachbarn“ dort tun), sind die grundlegenden Methoden ihrer Implementierung ebenso einfach. Wenn Sie wissen möchten, fragen Sie, aber wenn Sie die tatsächlichen Werte eines großen Datenfelds kennen möchten (ob es sich um den Preis der Waren, deren Beschreibungen, für Bestellungen verfügbare Mengen oder heiße Rabatte handelt), müssen Sie häufig und häufig nachfragen. Es ist klar, dass es niemandem in den Sinn kommen würde, diese Daten manuell zu sammeln (mit Ausnahme eines großen Teams fleißiger Kinder aus südlichen Ländern, die sich nicht von der humansten Art inspirieren ließen). Daher werden einfache, effektive Lösungen in der Stirn verwendet: um die Website zu „stapeln“, den Browser einzurichten, Sammeln Sie Bots - und tippen Sie auf die Zielwebsite, um interessante Indikatoren anzuzeigen. Notieren Sie die Antworten sorgfältig in einem Notizblock in einem praktischen Format, analysieren Sie die gesammelten Daten und wiederholen Sie den Vorgang.

Hier sind einige Ansätze zur "Parsing-Technik" von unseren Lesern und von uns:

  1. "Selenium Farm - Gehen Sie vorwärts!" (Dies bezieht sich auf kopflose Browser mit einer BeautifulSoup-ähnlichen Lösung wie Selenium / Splinter). Laut unserem Leser hat er seiner Frau eine kleine Website im Docker-Schwarm-Cluster geschrieben, um die Websites des Verkäufers (sie ist Importeurin) zu überwachen, damit diese nicht gegen die RRC / MRC-Richtlinie (empfohlene Einzelhandelspreise) verstoßen. Laut dem Autor funktioniert alles stabil, die Parsing-Wirtschaft konvergiert - "Alle Kosten sind 4 Knoten für 3 US-Dollar." Der stolze Autor hat zwar nur etwa tausend Produkte und Dutzende von Websites im Parsing, nicht mehr :)
  2. "Wir starten Chromium und alles ist in Ordnung, es stellt sich heraus, dass 1 Produkt in 4-5 Sekunden genommen werden kann ...". Es ist klar, dass sich kein Administrator über die übersprungene Last auf dem Server freuen wird. Die Seite ist natürlich zu diesem Zweck notwendig, um allen Interessierten Informationen zur Verfügung zu stellen, aber "es gibt viele von Ihnen, aber ich bin allein", daher werden diejenigen, die besonders interessiert sind, natürlich ignoriert. Nun, es spielt keine Rolle: Chromium kommt zur Rettung - wenn der Browser im Modus "Nur fragen" auf die Website klopft, kann dies ohne Wartezeit erfolgen. In der Tat wird in der allgemeinen Reihe von Parsing-Aufgaben das Parsen von HTML-Seiten in 90% der Fälle durchgeführt, und in "besonders schwierigen Fällen" (wenn Websites aktiv geschützt sind, wie derselbe Yandex.Market, der nach Captcha fragt), übernimmt Chromium dies.
  3. "Reinigen Sie Proxys mit Ihren eigenen Händen von LTE-Routern / Modems." Es gibt durchaus funktionierende Möglichkeiten, saubere Proxys zu konfigurieren, die zum Parsen von Suchmaschinen geeignet sind: eine 3G / 4G-Modemfarm oder den Kauf weißer Proxys anstelle einer Reihe zufälliger schmutziger Proxys. Es ist wichtig, welche Programmiersprache für ein solches industrielles Parsing verwendet wird - 300 Sites pro Tag (und die richtige Antwort lautet .Net! :). Tatsächlich ist das Internet voll von Websites mit offenen Proxy-Listen, von denen 50% gut funktionieren, und es ist nicht so schwierig, Proxy-Listen von diesen Websites zu analysieren und dann andere Websites mit ihrer Hilfe zu analysieren :)) Nun, wir tun es.
  4. Ein weiterer Fall zugunsten von Selen: „Ich analysiere mich selbst (aber nicht in RuNet, aber ich fange Bestellungen auf meinem geliebten upwork.com ab, wo es normalerweise als Scraping bezeichnet wird, ein passenderer Begriff, IMHO). Ich habe ein etwas anderes Verhältnis, irgendwo zwischen 75 und 25. Aber im Großen und Ganzen, ja, wenn es faul oder schwierig ist, dann ist noch niemand Selen ausgewichen :) Aber von mehreren hundert Standorten, mit denen ich arbeiten musste, wurde es nie erkannt Bilder, um Zieldaten zu erhalten. Wenn in HTML keine Daten vorhanden sind, werden diese normalerweise immer in einem JSON abgerufen (tatsächlich haben wir unten bereits ein Beispiel gezeigt).
  5. "Python Tamers." Und ein anderer Leserfall: „In meiner vorherigen Arbeit habe ich Python / Scrapy / Splash für mehr als 180 Websites pro Tag in verschiedenen Größen verwendet, von prisma.fi und verkkokauppa.com bis hin zu kleinen Dingen mit 3-5 Produkten. Ende letzten Jahres haben wir einen solchen Server von Hetzner (https://www.hetzner.com/dedicated-rootserver/ax60-ssd) mit Ubuntu Server an Bord gemietet. Die meisten Computerressourcen sind noch inaktiv.
  6. "WebDriver ist unser Alles." Engagiert in der allgemeinen Automatisierung (wo das Parsen bereits fällt), so zuverlässig wie möglich (QS-Aufgaben). Eine gute Workstation, ein Dutzend oder zwei Browser parallel - die Ausgabe ist eine sehr böse, schnelle Dreschmaschine.

Das "Gentleman-Set" eines schwebenden Geräts - 4 virtuelle Maschinen, unbegrenzter Datenverkehr, jeweils 4 Prozessoren, 8 GB Arbeitsspeicher, Windows Server ... Bisher reicht für jeden neuen Stapel von bedingt 50 Standorten Ihre eigene virtuelle Maschine aus. Aber es hängt sehr von den Websites selbst ab. Visual Studio verfügt auch über System.Net, das den in Windows installierten Internet Explorer verwendet. Es funktioniert auch.

„Wie kannst du dich (vor dem Parsen) in deinem Kopf schützen? Auf keinen Fall kriechen wir trotzdem. "


Das Parsen von Geschäftsideen, das Sprechen über unser Geschäft, wird uns ständig vorgeworfen.

  1. Problem Yandex Parsing, wie viele SEO-Dienste. „Dafür gibt es mehr Nachfrage, mehr Geld. Es stimmt, sie verkaufen im Grunde das gesamte SEO-Analysesystem. “ Aber wir analysieren die Ausgabe nicht - wir haben nicht gefragt, und es wird sofort nach 100 Anfragen Captcha geben, wir brauchen saubere Proxys, aber es ist schwierig, sie zu bekommen oder teure, es ist nicht so profitabel ... Natürlich ist es alles andere als einfach, große Spieler zu spielen, und die Leser sind bei uns Teilen Sie es (wir selbst analysieren Google und Yandex NICHT). Erfahrungsgemäß haben Yandex, Google und ähnliche große Unternehmen eine bestimmte Basis mit Subnetzen von Rechenzentren (schließlich werden Proxy-Datenbanken aktualisiert und von Hauptakteuren abonniert und gesperrt). Somit entspricht das erhöhte Proxy-Netzwerk an den IP-Adressen, die an die Rechenzentren ausgegeben wurden, perfekt dem Verbot mit der Ausgabe von Captcha und anderen Macken. Infolgedessen gibt es nur illegale Optionen beim Kauf von Proxies von den Eigentümern von Botnetzen und einem ähnlichen "Dreck". In diesem Fall haben Sie eine echte Benutzer-IP. Und trotzdem brauchen solche Unternehmen wirklich Cookies, mit denen Sie bereits seit einiger Zeit auf Websites „gecrawlt“ sind, auf denen sie Sie verfolgen können (z. B. Trefferzahlen). Aber wie unterscheiden sie Parser von NATs in Schlafbereichen? Bedingte 100 Anfragen sind überhaupt nichts.
  2. Schutz vor dem Parsen: Wenn wir das „Große und Schreckliche“ aus der Betrachtung entfernen, konzentrieren wir uns auf uns, „bloße Sterbliche“. Wenn es diejenigen gibt, die mit dem Parsen beschäftigt sind, muss es diejenigen geben, die versuchen, sie daran zu hindern. Es ist interessanter, mit lebenden Menschen zu spielen: Es tritt ein Element der Rivalität auf, jede Seite versucht, die andere zu überlisten. Und da immer noch niemand beabsichtigt, Informationen manuell zu sammeln, spielen sie, wer den Bot einer lebenden Person am ähnlichsten macht und wer diese Bots effizienter erkennen kann, während er weiterhin auf Anfragen von echten Benutzern reagiert - die Website soll Unternehmen helfen , das stößt uns ab. Und im Rahmen der Aufgabe der Geschäftseffizienz kann man nur die angemessene Allokation von Ressourcen und die Rentabilität von Maßnahmen berücksichtigen, um sie tatsächlich zu analysieren und zu kontern:

    • Sie können sich nicht vor dem Parsen schützen (außer vor „Schülern“), aber Sie können den Schwellenwert für die Ausgaben dafür erhöhen (sowohl Zeit als auch Geld). Infolgedessen ist es einfacher, die von uns geschützten Daten (mehrere Abschnitte der Website) nicht zu analysieren, sondern eine vorgefertigte Datenbank zu kaufen, genau wie wir sie kaufen. Es gibt Tabellen mit Parser-IP-Adressen im Netzwerk. Das Anzeigen von Captcha zu dieser Liste am Eingang ist kein Problem. Ebenso ist das Generieren von IDs und Klassen wie bei mail.ru kein Problem und erfordert keine großen Kosten. Ein neues Captcha von Google bestimmt im Allgemeinen sehr genau, ob der Roboter oder nicht. Wenn ein Verdacht besteht, ist es einfach, den Benutzer auszuschneiden und nach einem Captcha zu fragen. Am Ende hat niemand den HoneyPot-Köder für den Fang des Bots abgesagt. Nun, klassisch, ersetzen Sie die Buchstaben im Text, machen Sie Masken usw.
    • Und hier werden wir uns selbst widersprechen: Vielleicht hilft dies alles einzeln nicht, aber alles zusammen wird Ihr Leben so komplizieren, dass es unzweckmäßig wird. Darüber hinaus erfordern alle diese Techniken im Allgemeinen keine großen Ausgaben. All diese Techniken kosten zwar viel, daher gibt es im Wesentlichen keinen Schutz. Dynamische Proxys, Dienste, die Captcha von Indianern erkennen, und Selen mit einem genau definierten Aktionsalgorithmus. Alles, was erreicht werden kann - die Entwicklung des Parsers wird mehr kosten, es könnte jemanden abschrecken, aber wenn die Zielwebsite kein Katalog von anderthalb Seiten des örtlichen Büros der „Hörner und Hufe“ ist, erschreckt die Erhöhung der Kosten niemanden.
    • Bei der Verteidigung geht es immer darum, typische Verhaltensmodelle von echten Besuchern sowie Systeme zu verwenden, die „weiße“ Bots (Yandex, Google usw.) angemessen identifizieren. Und um sich an einen echten Besucher anzupassen, müssen Sie eine Reihe von Standardübergangskarten kennen. Und dann reicht ein einfacher Proxy-Pool beim Parsen nicht aus. Das System schützt nicht zu 100%, löst jedoch die Aufgabe. Laut Anzeigestatistik können Sie nachvollziehen, wann die gesamte Site gescannt wurde. Dies tun entweder Parser oder Suchmaschinen. Suchmaschinen reagieren jedoch auf robots.txt, Parser jedoch nicht.

„Oh wow. Wenn alle Menschen alles mit Bedacht tun würden ... Ich denke, es würde zehnmal mehr Arbeitslose geben. Genug für dein Alter. “

„Lebe ich ökologisch? Ja, aber vergebens "


  1. In der moralischen und ethischen Ebene der Betrachtung des Themas liegt ein wichtiger Punkt, der sowohl die technischen als auch die rechtlichen Aspekte der Analyse betrifft. Die robots.txt-Datei ist in ihrer Einfachheit prägnant und in ihrem Namen symbolisch, was unsere Leser und wir auf unterschiedliche Weise interpretieren:

    • Ihre Aktivität als "Treiber" eines Bots ist genauso "ethisch", wie Ihr Bot der robots.txt der von Ihnen besuchten Site folgt. Nicht basierend auf Annahmen des Formulars "Produktseiten werden nicht geschlossen", sondern das Auferlegen von Zulassungs- und Verbotsmasken für die angeforderten URLs. Fehlende robots.txt - zu Ihren Gunsten interpretieren; vorhanden, aber Sie verletzen es - definitiv, Sie verwenden die Website böswillig. Natürlich hat robots.txt nicht die Kraft des Gesetzes, aber wenn Sie es wirklich "backen", ist es keine Tatsache, dass es definitiv an den Anwälten vorbeigehen wird. "
    • Trotz der Tatsache, dass es unmöglich ist, mit Robotern zu verhandeln, ist es manchmal einfacher als mit Menschen, weil in Geschäften Schilder mit der Aufschrift "Fotos sind verboten" hängen, und dies ist illegal. Und unethisch. „Genau so eine Tradition. robots.txt ist eine Technik. Es geht nicht um Ethik. Wenn Sie angeben möchten, dass Sie keine Analyse durchführen möchten, erstellen Sie einen Abschnitt wie den folgenden: account.habr.com/info/agreement. Ich weiß nicht, ob eine solche Einschränkung legal ist, aber zumindest können Sie dort Ihre Wünsche in menschlicher Sprache ausdrücken (oder robots.txt erwähnen), dann können Sie über Ethik sprechen. " Unsere Anwälte erwidern: "Eine solche Einschränkung wird in keiner Weise legal sein."
    • Wir denken gleichzeitig über das Parsen und die weitere Verwendung von Informationen nach. „Bei Robots.txt geht es nicht so sehr um das Parsen, sondern um die weitere Veröffentlichung (z. B. in Suchergebnissen). Wenn Sie möchten, dass die Daten von niemandem empfangen werden, sollten Sie den Personenkreis einschränken, der sie sehen kann. Wenn Sie keine Vorhänge an den Fenstern haben, sollten Sie nicht nackt gehen. Es mag absichtlich sein, aus den Fenstern zu schauen und hässlich, aber ohne Vorhänge, was behauptet? "
    • Die Analyseethik ist neutral. Es kann unethisch sein, die erhaltenen Informationen zu verwenden. Im Allgemeinen hat jeder aus rein ethischer Sicht das Recht, öffentliche Informationen zu erhalten, die nicht privat oder speziell sind und nicht gesetzlich geschützt sind. Die Preise sind sicher öffentliche Informationen. Beschreibungen auch. Beschreibungen unterliegen möglicherweise dem Urheberrecht und sollten nicht ohne Erlaubnis veröffentlicht werden. Es wird jedoch keine Ethik verletzt, selbst wenn ich Websites analysieren und meine eigene öffentliche Website erstellen werde, die die Dynamik der Preise und den Vergleich der Wettbewerber widerspiegelt. Es ist sogar ethisch, da es sozial nützliche Informationen liefert. "
  2. "Hände können zusammengebaut werden, aber Roboter können nicht analysiert werden." Jedes „Böse“ mit der gebotenen Sorgfalt und Geschicklichkeit kann gerechtfertigt sein, und umso mehr, als es lebende Beispiele dafür gibt, wie es in jeder Hinsicht richtig verwendet wurde, zitieren wir unseren Leser: „Ich habe mich vor langer Zeit mit dem Parsen beschäftigt, aber ich habe immer gefragt Führen Sie eine völlig legale und moralisch korrekte Analyse durch. Zwischenhändler forderten mehrmals, dass der Großhändler analysiert werden sollte (um seine Waren zu verkaufen). Der Großhändler selbst hatte nichts dagegen, wollte aber nicht in die Entwicklung der API investieren (oder konnte dies aus technischen Gründen nicht). Einmal bat ein Vermittler eines chinesischen Geschäfts um Integration, aber dort war die API des chinesischen Geschäfts so beschissen und begrenzt, dass es teilweise notwendig war, Informationen zu analysieren. Sobald der Autor und Eigentümer der Website und des Forums von einer kostenlosen Website migrieren wollte, die die Datenbank „geklemmt“ hat; Er hat auch die Website des Literaturwettbewerbs und seines Forums integriert, sodass beim Hinzufügen einer neuen Geschichte das Thema im Forum automatisch angezeigt wird (aus technischen Gründen wäre dies nicht anders möglich). “

„Wurde der Anwalt gerufen? Zitat kann nicht analysiert werden "


Unabhängig davon, für welche Seite Sie sich bei der Bestimmung der Machtquelle entscheiden: Geld oder Wahrheit - eines ist klar: Wenn Geld gefunden wird, wird es immer schwieriger, die Wahrheit zu finden. Bei einer Diskussion über die Möglichkeit, alles und jeden, einschließlich des Gesetzes selbst und seiner Vertreter, über den Rahmen dieses Artikels hinaus zu erwerben, werden wir einige rechtliche Aspekte berücksichtigen, die in den Kommentaren angesprochen werden:

  1. "Vom Gucken zum Diebstahl ist ein Schritt." Selbst wenn alles, was nicht verboten ist, erlaubt ist, glauben unsere Leser: „Ein Blick in das Schlüsselloch ist zumindest hässlich, und wenn der Klient dann auch das Sparsial als sein eigenes abgibt, dann ist dies direkter Diebstahl. Natürlich ist es klar, dass dies in der Wirtschaft jeder tut. Aber in einer anständigen Gesellschaft ist es immer noch üblich, darüber zu schweigen. " Für jemanden zu analysieren und den Sparsen als seinen eigenen auszugeben, wie sie sagen, sind jedoch zwei große Unterschiede: „Sie verwechseln das Weiche und das Kalte. Wir bieten wirklich Parsing-Services. Aber genau so können Sie Hersteller, zum Beispiel Waffen, beschuldigen, ihn getötet zu haben. Wir machen Geschäfte, aber im Geschäft gibt es eine Regel - ist es legal oder nicht. Mein Punkt ist ... Wenn Kunden zu uns kommen und bereit sind, viel zu bezahlen, um Daten zu erhalten, ist das wirklich schlecht ... "
  2. "Ich habe einen Antrag für eine Medienseite gestellt - für eine Beschwerde genagelt." Forbes-Website, Analyse, Anwendung auf Google Play - was könnte schief gehen? „Einmal habe ich beschlossen, mich für die Forbes-Website zu bewerben. Um Artikel von den Site-analysierten Seiten zu erhalten. Ich habe alles im automatischen Modus konfiguriert und eine Anwendung für Android erstellt. Ich habe die Anwendung auf den Markt gebracht. Ein Jahr später kontaktierte mich ein Anwalt und forderte, den Antrag zu entfernen, da ich Urheberrechte verletze. Ich habe nicht gestritten. Es ist eine Schande, dass Forbes selbst keine Anwendung für eigene Artikel von der Website hat. Es gibt nur eine Seite. Und ihre Seite ist langsam, lange geladen und voller Werbung ... "
  3. "Meine Datenbank ist meine Arbeit unter Schutz!" Das Urheberrecht ist ein weiteres Konzept, das einem Dutzend Diskussionsseiten gewidmet werden kann (zusätzlich zu Hunderttausenden von vorhandenen), aber ganz zu schweigen davon, dass es auch falsch ist. Unser Leser gab das Konzept heraus: „Jemand hat eine Warendatenbank erstellt. Wir haben eine Menge Ressourcen aufgewendet, um Informationen zu finden, diese Informationen zu systematisieren und Daten in die Datenbank zu stellen. Auf Wunsch eines Konkurrenten analysieren Sie diese Basis und geben sie für Geld an denselben Konkurrenten weiter. Denken Sie, dass es keine ethischen Fragen gibt? In Bezug auf die Rechtsstaatlichkeit weiß ich nicht, wie es in der Russischen Föderation ist, aber in der Ukraine kann eine Datenbank dem Urheberrecht unterliegen. "

    Die Verantwortung für die Nutzung der Dienstleistung oder des Produkts liegt jedoch weiterhin bei dem, der sie zu welchem ​​Zweck erwirbt: „... auch in Russland. Wir bieten Datenerfassungsdienste. Und für diesen Service bitten wir um Geld. Wir verkaufen die Daten nicht selbst. "Übrigens warne ich alle Kunden, dass sie gegen das Gesetz verstoßen können, wenn sie beispielsweise Beschreibungen verwenden."
  4. "Formal hast du recht, aber ich habe einen Artikel über dich gefunden!" Das Strafgesetzbuch der Russischen Föderation (Artikel 146) beschreibt nur das Ausmaß von Verstößen, die es ermöglichen, Urheberrechtsverletzungen als „Straftaten“ einzustufen. Die Rechte selbst sind im Bürgerlichen Gesetzbuch beschrieben - und das Ausmaß, in dem die Handlung als „kriminelle“, regelmäßige Analyse eingestuft werden kann, so dass sich die Frage stellt, ob die Website ausfällt, erstreckt sich problemlos. Aber Aspekte sind wichtig:

    • Dort ist "groß" nicht die Anzahl der analysierten Seiten, sondern das Geld. Wie bewerten Sie das Parsen (und seine Regelmäßigkeit) als Urheberrechtsverletzung (!) In Geld? Und wie wird das normalerweise in solchen Fällen gemacht und woher kann eine Geldstrafe von Hunderttausenden von Dollar pro Exemplar des Films kommen? Der „entgangene Gewinn“ wird mit dem entsprechenden Koeffizienten berechnet. - — «». , , ( ), «». : , -? , .
    • ( . : — 30 , — 1000, « », ). , ? , « ».

Zusammenfassend: „- Wie ist das Parsen einer Urheberrechtsverletzung gleichgekommen? - Keine. Der Verstoß besteht darin, das Parsen bei uns zu bestellen und dann den Inhalt auf Ihrer Website zu sichern. Das Einfügen einer Website ist ein weiterer Artikel. “

Maxim Kulgin, xmldatafeed.com

Source: https://habr.com/ru/post/de450834/


All Articles