O algoritmo para determinar bots e ofertas no Vkontakte

Não haverá redes neurais e fórmulas complexas sob o gato, apenas os sinais pelos quais peguei bots no joelho serão descritos, uma comparação do resultado da filtragem desses sinais com a filtragem por um serviço anunciado e um link para uma página com a implementação js, ​​segundo a qual qualquer pessoa pode testar o filtro por conta própria própria lista ou teste os últimos que ingressaram em sua comunidade.

Imagem para atrair atenção:



Antecedentes


Recentemente, eu precisava coletar estatísticas sobre o número semanal de novos assinantes em comunidades comerciais de casamentos. Para essa tarefa, foi escrito um roteiro que reunia novos participantes nas comunidades necessárias e produzia números brilhantes, à primeira vista. É que eles deixaram de parecer otimistas depois de verificar contas aleatórias da lista montada: algumas foram banidas pela rede social no dia da coleta, outras acabaram sendo bots abertos ou ofertas (no futuro chamarei os dois bots).

Para obter números reais, foi necessário descobrir a parcela aproximada de bots nos assinantes coletados. Tentei limpar o público dos bots por um caçador de alvos (o primeiro serviço que me chamou a atenção que permite filtrar bots gratuitamente), mas a qualidade da limpeza acabou sendo muito boa (entre os demais, havia contas falsas e muito). Decidi não usar serviços como “pagar e depois mostraremos o que podemos” - o dinheiro é uma pena e, como resultado, a mesma caixa preta e resultado duvidoso. Decidi estudar as páginas de bots e escrever meu próprio filtro.

Quem estamos filtrando


Para começar, vou esclarecer que meu objetivo era filtrar as contas que eu considerava inúteis em termos de convidá-las para comunidades comerciais de casamentos. Essa definição inclui os dois robôs que entram na máquina e oferece a alguém que faz 100.500 cada um e depois os vende como supostamente "assinantes ao vivo". Obviamente, as ofertas que o aluno alcança manualmente não compram nada da mesma maneira que os bots apanhados com o script. O que eles podem fazer bem é elaborar as estatísticas dos anúncios com pagamento por 1000 impressões. Também pode atrair pessoas bastante reais, mas qual é a utilidade delas na comunidade se elas não vêem a postagem (e não faz sentido exibir anúncios da comunidade)?

Como filtrar


A idéia mais simples pareceu-me avaliar cada conta em uma escala de 0 a 100, segundo a qual os bots explícitos obtiveram 100 pontos, e as pessoas comuns ficam na região de 0 (idealmente. Na prática, na prática, algumas pessoas reais podem marcar 50 pontos). A técnica não é perfeita (como tudo no escudo contra a guerra das espadas), mas, como a prática demonstrou, os criadores de bots realmente não se incomodam em criar suas falsificações (um bot perfeito custará mais do que o cliente atraído pelo anúncio), então, no momento, ele funciona. Para preencher a escala, vários sinais foram selecionados, cada um dos quais pode adicionar ou diminuir um certo número de pontos, e as contas que obtiverem um certo número de pontos (70-100 no meu caso) são consideradas de baixa qualidade e filtradas. Não escreverei quantos pontos são atribuídos ao encontrar um atributo específico, você pode vê-los no exemplo que estará no final do artigo, onde eles podem ser alterados, bem como o limite, quando excedido, a conta é creditada nos bots. E agora vamos examinar os sinais marcados:

Conta banida


A primeira coisa em que filtro os usuários. Não sei por que os serviços deixam essas contas (e o serviço acima mencionado "tx" as deixou). Uma pessoa viva que usa uma rede social recuperará o acesso. É mais fácil para um remetente de spam ou um driver de bot com mil contas criar uma nova conta após a proibição. E ainda é impossível distorcer anúncios em usuários ativos banidos.

O link da página não foi alterado


O Vkontakte permite que os usuários insiram um link exclusivo para sua página em vez de um id12345678 sem nome. Esse não é um sinal muito significativo, pois nem todas as pessoas vivas o alteram e os contatos roubados podem ter esse link, mas ainda assim, para os bots recém-registrados, esse link permanece inalterado.

Nenhum avatar


Em 2018, isso não é mais relevante para bots. Em vez disso, a falta de um avatar é típica para falsificações de pessoas completamente preguiçosas, mas acho que esse público não é de alta qualidade. De qualquer forma, esse também não é um sinal muito significativo.

Existem links para outras redes sociais


Este é um bom sinal de uma pessoa viva. Não encontrei uma maneira de definir um link para o facebook / instagram via API. Talvez ele estivesse parecendo mal ou talvez não estivesse. Mas colocar um link para o bot é mais difícil: você deve pelo menos criar essa conta na rede social e vinculá-la à interface do VKontakte. Portanto, a presença desses links no perfil redefine alguns pontos no contador do identificador de bot.

Não ficou online por mais de 1-3 meses


Em um século em que todo mundo tem um cliente de mídia social instalado em seu telefone, essa baixa atividade parece suspeita. Mesmo que não seja um bot esquecido pelo proprietário, é muito mais difícil trabalhar com essa pessoa por meio de publicidade. Quando você precisar de um público entusiasmado, que será tarde demais para oferecer o serviço em um mês (eles já encontrarão outro provedor), essa pessoa estará offline e você não poderá entrar em contato com ele. Repito o que foi dito no início do artigo - estudei a audiência sobre os tópicos do casamento, pois seu contato quente é relevante. Se você decidir promover um público de entretenimento ou uma loja com base nos hobbies das pessoas, esse sintoma poderá ser menos importante para você.

Inscrito em 500-1500 e mais comunidades


Um ótimo e significativo sinal de contas indesejadas. O artigo principal de ganhar em bots é juntar vários grupos (bem, sim, curtidas e republicações). E é improvável que os proprietários do botofarm sejam capazes de escondê-lo. Pela mesma razão, a propósito, você pode tentar filtrar aqueles que escondem seus grupos de olhares indiscretos (paranóicos também serão filtrados nesse caso, mas existem alguns deles entre o público do VKontakte). Mesmo se você filtrar uma pessoa viva com base nisso, nada de ruim acontecerá; é improvável que ela veja as notícias da sua comunidade em seu feed, sendo inscrita em outras 1000.

Membro da Comunidade de Promoção Mútua


Esses devem ser deixados apenas se o seu público-alvo for crianças em idade escolar com falta de atenção, falta de interesse e muito tempo livre. Pessoalmente, considero esse público não apenas lixo, mas um sinal claro de que eles não são reais.

Consiste em muitas comunidades sobre diferentes cidades


Francamente, não encontrei uma única razão pela qual uma pessoa comum possa estar interessada em acompanhar as notícias sobre o reparo de máquinas de lavar roupa de Kazan, publicidade externa de Omsk, grupos de design de interiores de Kaluga e dez outras comunidades comerciais em cidades diferentes ao mesmo tempo. Especialmente considerando a qualidade do conteúdo em 95% dessas comunidades. Mas o bot, ganhando em ingressar na comunidade, é muito lucrativo.

Membro de um grupo sem avatar


Não considero esse sinal significativo, no entanto, durante o teste, surgiu um artigo sobre a detecção de bots nessa base. Em geral, essas comunidades podem ser usadas como campo de treinamento técnico (pelos programadores para acessar a chave da comunidade), elas podem ser simplesmente muito jovens. Mas, quando discutiram esse sinal com seus amigos, eles me disseram que não se juntariam a essas comunidades. Em geral, esse sinal permaneceu para mim o mais ambíguo, cheio de segredos e mistérios (assim como a própria existência de comunidades sem avatares).

Ninguém está assistindo postagens de usuários


Este sintoma é muito mais simples. Normalmente, se o usuário tem um monte de amigos, mas ao mesmo tempo quase não tem vistas na parede, seus amigos são uma imitação. E por que você precisa de imitação de amigos, no entanto, para dar realidade a uma conta falsa?

Marcado na foto de outros usuários


No momento, os bots não têm o hábito de marcar um ao outro na foto, mas as pessoas reais realmente notam, especialmente porque a rede social se oferece para fazer isso de forma muito intrusiva (tanto que me permite marcar-me na minha própria foto de perfil). A presença dessa marca geralmente indica uma conta invadida ou um usuário ativo.

Verificação de filtro


Para verificar a eficácia da pesquisa de bots por esses parâmetros, foi criado um pequeno serviço que permite verificar a lista de contatos baixados. Além disso, para que o estudo tenha um valor prático para as pessoas, a capacidade de verificar sua comunidade foi adicionada ao serviço - se você moderar uma comunidade, poderá fazer o download automático dos membros mais recentes e verificá-los. Isso é útil se você contratou uma pessoa para anunciar e ela fornece estatísticas sobre o crescimento de assinantes, mas ao mesmo tempo você não vê um aumento real de pedidos / comentários / curtidas.

O algoritmo usa o método wall.get para verificar registros da parede; ele tem um limite de 1000 chamadas por dia; portanto, ao usar esse script, você não pode verificar mais de 1000 pessoas. No entanto, isso é suficiente para avaliar a qualidade do público. Além disso, o script permite que você defina seus próprios valores de peso para cada atributo e o limite para determinar o bot; portanto, se você não concorda que este ou aquele parâmetro define os bots, pode configurá-lo para 0 ou vice-versa, para aumentar seu valor.

Teste e comparação de resultados


Com base nos resultados da auditoria, um caçador de alvos filtrou 877 bots de uma audiência de 2935 pessoas. A filtragem pelo algoritmo descrito eliminou 1984 pessoas. Se você apertar o filtro e revelar apenas os bots mais maliciosos (inscritos em 500-1000 comunidades, das quais uma parte significativa são comunidades de cidades diferentes, banidas ou consistindo em grupos de promoção), o número de detectados diminuirá para 1215 pessoas, o que, no entanto, também excede o resultado o serviço acima. No entanto, observei cerca de duas dúzias de páginas de usuários que o caçador de alvos considerava usuários normais, e meu algoritmo como bots e todos esses usuários me pareciam duvidosos; muitas páginas continham republicações de serviços duvidosos (cassinos, namoro adulto, participação em competições, previsões esportivas) ou baixo número de visualizações de registros. Também deparei com contas semelhantes às comerciais que promoviam alguns serviços, mas estou pessoalmente pronto para negligenciá-los, especialmente considerando que eles, além das comunidades de que preciso, assinam dezenas de outras em pouco tempo e se estão interessados ​​no tópico de que preciso. Embora um filtro mais suave possa deixar essas contas. E, claro, entendo que 20 páginas não são suficientes para julgar a qualidade de todas as contas de 1984.

De qualquer forma, obtive resultados satisfatórios, embora, se houvesse tempo livre, seria possível expandir significativamente os sinais de busca por bots. Mas os descritos acima são suficientes (no momento) para obter um resultado qualitativo. E mais uma vez um link para a implementação do algoritmo , para não pular o artigo.

Source: https://habr.com/ru/post/pt413855/


All Articles