Il est vraiment difficile de distinguer les bots des gens. Je ne peux vraiment pas le faire moi-même. Mais d'un autre côté, j'ai trouvé un bon
vélo ... une méthode pour distinguer en VK les "gens intéressants" de "pas très intéressants". En termes de communication réseau, bien sûr, et pas dans la vie.
Si quelqu'un frappe à vos amis, mais à première vue, vous ne pouvez pas comprendre que c'est une personne normale ou que l'enfer sait, cette méthode peut fournir des informations utiles sur l'utilisateur. Il est peu probable qu'il l'utilise pour identifier les groupes cibles pertinents, car
VK a limité la possibilité de télécharger le contenu des murs d'utilisateurs , et il est lent à blesser. C'est-à-dire c'est possible, mais il faut affiner, optimiser et esquiver fortement pour contourner les restrictions.
Idée principale
L'idée principale est que les robots, les personnalités ennuyeuses (en termes de réseau), toutes sortes de collecteurs de masse d'amis-abonnés ne se soucient pas vraiment de qui ils sont amis, bien qu'ils puissent "écrire" beaucoup de messages significatifs sur leurs murs. Mais les personnalités ennuyeuses ne lisent pas spécialement leur bande et les bots n'en ont pas du tout besoin. De plus, cela n'est pas nécessaire pour les collecteurs de masse d'abonnés et d'étoiles.
Mais pour les personnes qui ont au moins certains intérêts communicatifs concernant VK, il est très important de savoir avec qui ils sont amis. Et, bien sûr, ils ne pourront pas collecter 6000 mecs chez leurs amis qui ne partageront que des reposts, des photos de femmes nues et des publicités de
barils de
vidange à prix réduit dans un entrepôt à Novy Urengoy.Et sur cette base, vous pouvez essayer de définir un critère permettant de distinguer les personnes intéressées par le contenu de leur flux. Ces personnes montrent les caractéristiques d'une vraie personne. Une personne qui, au minimum, accomplit un acte de communication unilatéral significatif. De nos jours, ce n'est pas si petit.
Deux critères me sont immédiatement venus à l'esprit:
- Dictionnaire moyen des amis d'une personne pour les N derniers messages.
- Pourcentage de messages sans SMS d'amis de la personne contrôlée.
Et sur la base de quelque chose comme ça, vous pouvez déjà essayer de construire une sorte de modèle qui distinguerait les personnes intéressantes des personnes pas très intéressantes.
Et comment ai-je fini par vérifier ça?
J'ai choisi 50 amis au hasard et 50 followers au hasard qui répondaient à certains critères qui couperaient les faux très évidents, les enfants ou les personnes qui ne l'utilisaient pas tout. Tapez que l'utilisateur ne doit pas être désactivé et doit en même temps avoir plus de 50 amis existants.
J'ai regardé à travers toutes ces personnes et identifié lequel d'entre eux est un «bot» et lequel ne l'est pas. Naturellement, la plupart des amis étaient réels, et la plupart des abonnés proposaient d'acheter quelque chose (mais quelques vraies personnes étaient là).
De plus, j'ai pris les 100 premiers messages de chacun des amis de la personne contrôlée, s'il y en avait tellement sur le mur. Pour chaque personne, j'ai considéré deux de ces facteurs:
- Taille moyenne du dictionnaire d'amis d'une personne pour ses 100 premiers messages. C'est-à-dire 50 amis, chacun avec environ 100 messages. Pour chaque ami, tous les mots de 100 messages sont ratissés en tas, estampillés et le nombre de mots uniques d'un ami est pris en compte. De plus, la moyenne des 50 amis est prise en compte. De cette valeur, la racine a été prise - SQRT (Dic).
- Si un ami a plus de 60 messages sur 100 sans mots, il est marqué comme «perdu». Le pourcentage de personnes «perdues» chez des amis est le deuxième facteur - le pourcentage.
Un autre facteur est apparu par hasard. Ceci est le logarithme d'Idy dans VK log10 (ID)
À ce sujet, j'ai formé tout le monde à
la régression logistique , et j'ai obtenu ceci:
log (OR) = 9,92-1,537 * log10 (ID) + 0,067 * SQRT (Dic) -0,023 * Pourcentage
Pour la partie test de l'échantillon, nous avons obtenu un très bon classificateur avec AUC = 0,93. Voici une telle
courbe ROC :
Courbe ROC du classificateur qui détermine le contenu de la page d'une personne
Certaines questions sont soulevées par l'importance de VC ID pour classer le contenu d'une personne, mais il semble, hélas, que cela fonctionne. Plus l'ID est éloigné de 1, plus il est probable qu'il ne s'agit que d'un bot destiné à annoncer des microcrédits. Sans ID, le classificateur fonctionne également, mais pire. ASC = 0,78. Ce n'est pas directement bon, mais pas non plus direct.
Dans tous les cas, la décision finale sur l'utilité du personnage appartient au décideur.
Vérification supplémentaire
J'ai pris tous ses 5000 abonnés à l'un de mes camarades, où, naturellement, 95% des scories publicitaires ont été envoyées et la régression s'est déroulée sans formation supplémentaire. Avec un seuil de 20%, les résultats sont sortis tels
TP = 78%, FP = 11% . C'est, en général, sur une personne arbitraire, cela fonctionne aussi plus ou moins moins.
Peuvent-ils créer des robots qui réussissent ce test?
Oui, il est assez facile de générer un bot avec des messages pseudo-significatifs entourés d'amis, mais jusqu'à présent, personne n'en a besoin. Eh bien, il est difficile de s'embêter avec un contenu différent, car si tous les bots génèrent la même chose, c'est aussi facile à reconnaître.
Est-il possible de faire une application qui vérifie les personnes par ID?
Probablement possible, mais je le décompose pour faire bonjour VK. Si quelqu'un veut, laissez-le faire. Il semble que la méthode soit décrite, son idée est simple.
Est-ce trop banal?
Assez. Mais soudain, quelqu'un sera utile comme base pour leurs développements. Cette méthode peut facilement être compliquée, par exemple, en considérant non seulement la longueur des dictionnaires, mais aussi le contenu. Ici, vous pouvez déjà utiliser toute la puissance de la
PNL et vous entraîner dans le contenu. Vous pouvez toujours prendre des classificateurs plus complexes: arbres, réseaux de neurones, etc. Tout cela peut être compliqué, mais il est important que même les plus simples donnent quelque chose d'intéressant.