Der Algorithmus zur Ermittlung von Bots und Angeboten auf Vkontakte

Es wird keine neuronalen Netze und komplexen Formeln unter der Katze geben, nur die Zeichen, anhand derer ich Bots auf meinem Knie gefangen habe, werden beschrieben, ein Vergleich des Filterergebnisses für diese Zeichen mit der Filterung durch einen beworbenen Dienst und ein Link zu einer Seite mit js-Implementierung, nach der jeder den Filter selbst testen kann eigene Liste oder testen Sie die letzten, die ihrer Community beigetreten sind.

Bild, um Aufmerksamkeit zu erregen:



Hintergrund


Vor kurzem musste ich Statistiken über die wöchentliche Anzahl neuer Abonnenten in kommerziellen Hochzeitsgemeinschaften sammeln. Für diese Aufgabe wurde ein Skript geschrieben, das neue Teilnehmer in den erforderlichen Communities sammelte und auf den ersten Blick helle Zahlen erzeugte. Es ist nur so, dass sie nicht mehr rosig wirkten, nachdem sie zufällige Konten aus der zusammengestellten Liste überprüft hatten: Einige wurden am Tag der Abholung vom sozialen Netzwerk gesperrt, andere erwiesen sich als offene Bots oder Angebote (in Zukunft werde ich beide Bots nennen).

Um reelle Zahlen zu erhalten, war es notwendig, den ungefähren Anteil der Bots in den gesammelten Abonnenten herauszufinden. Ich habe versucht, das Publikum mit einem Zieljäger von Bots zu säubern (der erste Dienst, der mir aufgefallen ist, mit dem Sie Bots kostenlos filtern können), aber die Reinigungsqualität erwies sich als mittelmäßig (unter den übrigen gab es gefälschte Accounts und ziemlich viele). Ich habe mich entschieden, keine Dienste wie "Bezahlen, und dann zeigen wir Ihnen, was wir können" zu nutzen - Geld ist schade und daher die gleiche Black Box und das zweifelhafte Ergebnis. Ich beschloss, die Seiten der Bots zu studieren und meinen eigenen Filter zu schreiben.

Wen wir filtern


Zunächst möchte ich klarstellen, dass mein Ziel darin bestand, Konten herauszufiltern, die ich als trashig empfand, um sie zu kommerziellen Hochzeitsgemeinschaften einzuladen. Diese Definition umfasst beide Bots, die auf dem Computer eingegeben werden, und bietet an, dass jemand jeweils 100.500 verdient und diese dann als vermeintliche „Live-Abonnenten“ verkauft. Offensichtlich kaufen die Angebote, die der Schüler manuell einholt, nichts auf die gleiche Weise wie die Bots, die mit dem Skript eingeholt werden. Was sie gut machen können, ist die Statistik der Anzeigen mit Zahlung für 1000 Impressionen zu zeichnen. Es kann auch ganz reale Leute fangen, aber was nützt es ihnen in der Community, wenn sie seinen Beitrag nicht sehen (und es macht keinen Sinn, ihnen Community-Anzeigen zu zeigen)?

So filtern Sie


Die einfachste Idee schien mir, jedes Konto auf einer Skala von 0 bis 100 zu bewerten, nach der explizite Bots 100 Punkte erzielten und normale Menschen im Bereich von 0 blieben (idealerweise. In der Praxis können einige echte Menschen 50 Punkte erzielen). Die Technik ist nicht perfekt (wie alles im Schild gegen den Schwertkrieg), aber wie die Praxis gezeigt hat, kümmern sich die Schöpfer der Bots nicht wirklich darum, ihre Fälschungen zu erstellen (ein perfekter Bot kostet mehr als der Kunde, der von der Werbung angezogen wird), also funktioniert es im Moment. Um die Skala zu füllen, wurden mehrere Zeichen ausgewählt, von denen jedes eine bestimmte Anzahl von Punkten hinzufügen oder verringern kann, und Konten, die eine bestimmte Anzahl von Punkten erzielen (in meinem Fall 70-100), werden als minderwertig und gefiltert betrachtet. Ich werde nicht schreiben, wie viele Punkte zugewiesen werden, wenn ein bestimmtes Attribut gefunden wird. Sie können sie in dem Beispiel sehen, das sich am Ende des Artikels befindet. Dort können sie geändert werden. Wenn der Schwellenwert überschritten wird, wird das Konto den Bots gutgeschrieben. Und jetzt gehen wir die markierten Schilder durch:

Konto gesperrt


Das erste, worauf ich Benutzer filtere. Ich weiß nicht, warum die Dienste solche Konten verlassen (und der oben genannte Dienst "tx" hat sie verlassen). Eine lebende Person, die ein soziales Netzwerk nutzt, erhält wieder Zugang. Für einen Spammer oder einen Bot-Treiber mit tausend Konten ist es einfacher, nach dem Verbot ein neues Konto zu erstellen. Und es ist immer noch unmöglich, Anzeigen für gesperrte Live-Nutzer zu drehen.

Seitenlink nicht geändert


Mit Vkontakte können Benutzer einen eindeutigen Link zu ihrer Seite anstelle einer unbenannten ID12345678 eingeben. Dies ist kein sehr wichtiges Zeichen, da nicht alle lebenden Menschen es ändern und gestohlene Kontakte einen solchen Link haben können. Für neu registrierte Bots bleibt ein solcher Link jedoch unverändert.

Kein Avatar


Im Jahr 2018 ist dies für Bots nicht mehr relevant. Das Fehlen eines Avatars ist eher typisch für Fälschungen völlig fauler Leute, aber ich denke, dieses Publikum ist nicht sehr hochwertig. In jedem Fall ist dies auch kein sehr wichtiges Zeichen.

Es gibt Links zu anderen sozialen Netzwerken


Dies ist ein gutes Zeichen für eine lebende Person. Ich habe keine Möglichkeit gefunden, einen Link zu Facebook / Instagram über die API zu setzen. Vielleicht sah er schlecht aus oder vielleicht auch nicht. Es ist jedoch schwieriger, einen Link für den Bot zu erstellen: Sie müssen dieses Konto mindestens im sozialen Netzwerk erstellen und mit der VKontakte-Oberfläche verknüpfen. Daher werden durch das Vorhandensein solcher Links im Profil einige Punkte auf dem Zähler der Bot-ID zurückgesetzt.

Ging nicht länger als 1-3 Monate online


In einem Jahrhundert, in dem jeder einen Social-Media-Client auf seinem Telefon installiert hat, scheint eine derart geringe Aktivität verdächtig. Auch wenn es sich nicht um einen vom Eigentümer vergessenen Bot handelt, ist es viel schwieriger, mit einer solchen Person durch Werbung zu arbeiten. Wenn Sie ein heißes Publikum benötigen, das zu spät ist, um den Service in einem Monat anzubieten (es wird bereits einen anderen Anbieter finden), und diese Person offline ist und Sie ihn nicht erreichen können. Ich wiederhole, was am Anfang des Artikels gesagt wurde - ich habe das Publikum zu Hochzeitsthemen studiert, denn ihr heißer Kontakt ist relevant. Wenn Sie sich dafür entscheiden, ein Unterhaltungspublikum oder ein Geschäft zu fördern, das auf den Hobbys der Menschen basiert, ist dieses Symptom für Sie möglicherweise weniger wichtig.

Abonniert 500-1500 und mehr Communities


Ein großartiges und bedeutendes Zeichen für Junk-Accounts. Der Hauptartikel zum Verdienen von Bots ist das Beitreten zu verschiedenen Gruppen (na ja, Likes und Reposts). Und es ist unwahrscheinlich, dass die Besitzer der Botofarm sie verstecken können. Aus dem gleichen Grund können Sie übrigens versuchen, diejenigen zu filtern, die ihre Gruppen vor neugierigen Blicken verbergen (Paranoiker werden in diesem Fall ebenfalls herausgefiltert, aber es gibt einige von ihnen unter den VKontakte-Zuschauern). Selbst wenn Sie eine lebende Person auf dieser Basis filtern, wird nichts Schlimmes passieren. Es ist unwahrscheinlich, dass sie die Nachrichten Ihrer Community in ihrem Feed sieht und 1000 andere abonniert.

Mitglied der Community für gegenseitige Förderung


Solche sollten nur übrig bleiben, wenn Ihre Zielgruppe Schulkinder mit mangelnder Aufmerksamkeit, mangelnden Interessen und viel Freizeit sind. Persönlich betrachte ich ein solches Publikum nicht nur als Müll, sondern als ein helles Signal, dass es nicht real ist.

Besteht aus vielen Gemeinden über verschiedene Städte


Ehrlich gesagt habe ich keinen einzigen Grund gefunden, warum ein gewöhnlicher Mensch daran interessiert sein könnte, gleichzeitig die Nachrichten über die Reparatur der Kasaner Waschmaschine, die Außenwerbung von Omsk, die Innenarchitekturgruppen von Kaluga und ein Dutzend anderer Handelsgemeinschaften in verschiedenen Städten zu verfolgen. Insbesondere angesichts der Qualität des Inhalts in 95% dieser Communities. Aber der Bot, der mit dem Beitritt zur Community verdient, ist sehr profitabel.

Mitglied einer Gruppe ohne Avatar


Ich halte dieses Zeichen nicht für signifikant, aber während des Testens erschien ein Artikel über die Erkennung von Bots auf dieser Basis. Im Allgemeinen können solche Communities als technisches Trainingsgelände genutzt werden (von Programmierern, um auf den Community-Schlüssel zuzugreifen). Sie können einfach sehr jung sein. Aber als sie dieses Zeichen mit ihren Freunden besprachen, sagten sie mir, dass sie solchen Gemeinschaften nicht beitreten würden. Im Allgemeinen ist dieses Zeichen für mich das zweideutigste, voller Geheimnisse und Geheimnisse (sowie die Existenz von Gemeinschaften ohne Avatare) geblieben.

Niemand schaut sich Benutzerbeiträge an


Dieses Symptom ist viel einfacher. Wenn der Benutzer eine Reihe von Freunden hat, aber gleichzeitig fast keine Ansichten an der Wand hat, sind seine Freunde normalerweise eine Nachahmung. Und warum brauchen Sie jedoch die Nachahmung von Freunden, um einem gefälschten Konto Realität zu geben?

Auf dem Foto anderer Benutzer markiert


Im Moment haben Bots nicht die Angewohnheit, sich gegenseitig auf dem Foto zu markieren, aber echte Menschen bemerken dies sogar, zumal das soziale Netzwerk dies sehr aufdringlich anbietet (so sehr, dass sie mir anbietet, mich auf meinem eigenen Profilbild zu markieren). Das Vorhandensein einer solchen Marke weist normalerweise entweder auf ein entführtes Konto oder einen Live-Benutzer hin.

Filterprüfung


Um die Effektivität der Suche nach Bots anhand dieser Parameter zu überprüfen, wurde ein kleiner Dienst geschrieben, mit dem Sie die heruntergeladene Kontaktliste überprüfen können. Damit die Studie für die Menschen von praktischem Wert ist, wurde dem Service die Möglichkeit hinzugefügt, Ihre Community zu überprüfen. Wenn Sie eine Community moderieren, können Sie automatisch die neuesten Mitglieder herunterladen und überprüfen. Dies ist nützlich, wenn Sie eine Person für die Werbung eingestellt haben und diese Ihnen Statistiken über das Wachstum der Abonnenten liefert. Gleichzeitig sehen Sie jedoch keinen wirklichen Anstieg der Bestellungen / Kommentare / Likes.

Der Algorithmus verwendet die wall.get-Methode, um Datensätze von der Wand zu überprüfen. Die Anzahl der Anrufe pro Tag ist auf 1000 begrenzt. Wenn Sie dieses Skript verwenden, können Sie also nicht mehr als 1000 Personen überprüfen. Dies reicht jedoch aus, um die Qualität des Publikums zu beurteilen. Darüber hinaus können Sie mit dem Skript Ihre eigenen Gewichtswerte für jedes Attribut und den Schwellenwert für die Bestimmung des Bots festlegen. Wenn Sie also nicht einverstanden sind, dass dieser oder jener Parameter die Bots definiert, können Sie ihn auf 0 setzen oder umgekehrt den Wert erhöhen.

Prüfung und Vergleich der Ergebnisse


Basierend auf den Ergebnissen des Audits filterte ein Zieljäger 877 Bots aus einem Testpublikum von 2935 Personen heraus. Das Filtern nach dem beschriebenen Algorithmus eliminierte 1984 Personen. Wenn Sie den Filter verschärfen und nur die bösartigsten Bots identifizieren (abonniert von 500 bis 1000 Communitys, von denen ein erheblicher Teil Communitys verschiedener Städte sind, die entweder gesperrt sind oder aus Werbegruppen bestehen), verringert sich die Anzahl der erkannten Personen auf 1215 Personen, was jedoch auch das Ergebnis übersteigt der oben genannte Service. Ich habe mir jedoch ungefähr zwei Dutzend Seiten mit Benutzern angesehen, die der Zieljäger als normale Benutzer betrachtete, und mein Algorithmus als Bots und all diese Benutzer schienen mir zweifelhaft. Viele Seiten enthielten Reposts zweifelhafter Dienste (Casinos, Dating für Erwachsene, Teilnahme an Wettbewerben, Sportvorhersagen) oder geringe Anzahl von Datensatzansichten. Ich bin auch auf Konten gestoßen, die kommerziellen Konten ähneln, die für einige Dienste geworben haben, aber ich persönlich bin bereit, sie zu vernachlässigen, insbesondere angesichts der Tatsache, dass sie neben den von mir benötigten Communities in kurzer Zeit Dutzende anderer abonnieren und sich für das von mir benötigte Thema interessieren. Ein weicherer Filter kann zwar solche Konten hinterlassen. Und natürlich verstehe ich, dass 20 Seiten nicht ausreichen, um die Qualität aller Konten von 1984 zu beurteilen.

Auf jeden Fall habe ich zufriedenstellende Ergebnisse erzielt, obwohl es in der Freizeit möglich wäre, die Zeichen für die Suche nach Bots deutlich zu erweitern. Die oben beschriebenen reichen jedoch (im Moment) völlig aus, um ein qualitatives Ergebnis zu erzielen. Und noch einmal ein Link zur Implementierung des Algorithmus , um den Artikel nicht zu überspringen.

Source: https://habr.com/ru/post/de413855/


All Articles