Neste artigo, tentarei falar simplesmente sobre sites de análise e suas principais nuances. Minha empresa analisa sites há mais de três anos e todos os dias analisamos cerca de 300 sites. Geralmente escrevo abertamente sobre isso nas redes sociais (além de publicarmos muitos resultados da análise das maiores lojas da Rússia de graça - publicamente), o que causa discussões acaloradas e desaprovação dos usuários. Depois de ler os comentários, é engraçado consultar seu PM e ler mensagens com ofertas de cooperação das mesmas pessoas que acabaram de nos condenar nos comentários do post :) O artigo inteiro estará no formato das perguntas mais frequentes e respostas honestas (material de marketing, não técnico )
1. O que está analisando?
Por definição, a análise é a coleta automatizada de informações não estruturadas, sua transformação e saída de forma estruturada. Muito inofensivo, não é? No entanto, a sociedade trata isso de maneira bastante peculiar como masturbação na adolescência - muitos fizeram isso :), mas ninguém fala sobre isso publicamente. Além disso, a análise é frequentemente desaprovada e considerada um tanto vergonhosa. A razão, como na maioria dos casos semelhantes, está na percepção errada.
Vou lhe contar um segredo: todo mundo está envolvido na análise ... pelo menos, todos os principais players do mercado. Há alguns anos, em um artigo na Vedomosti, representantes da M-video, Svyaznoy e Citylink chegaram a falar abertamente sobre isso em resposta ao interesse da FAS (veja
aqui ).
2. O que é a análise?
Primeiro, o objetivo da análise é "inteligência" de preços, análise de sortimento e rastreamento de estoques de mercadorias. "Quem, o quê, por quanto e em que quantidades vende?" - As principais perguntas que a análise deve responder. Mais detalhadamente, a análise do leque de concorrentes ou do mesmo Yandex.Market responde às três primeiras perguntas.
Com a circulação de mercadorias é um pouco mais complicado. No entanto, empresas como “Wildberries”, “Lamoda” e Leroy Merlin fornecem abertamente informações sobre vendas diárias (pedidos) ou saldos de produtos, com base nas quais não é difícil formar uma idéia geral de vendas (geralmente ouço a opinião de que esses dados podem estar distorcidos intencionalmente - talvez, mas talvez não). Observamos quantas mercadorias estavam em estoque hoje, amanhã, depois de amanhã e assim por diante durante um mês, e o cronograma já está pronto e a dinâmica da mudança na quantidade por posição foi estabelecida (a rotatividade de mercadorias é realmente). Quanto maior a dinâmica, maior a rotatividade.
Uma maneira potencialmente possível de descobrir a rotatividade de mercadorias usando uma análise diária dos resíduos do site da Leroy Merlin.Obviamente, você pode se referir à movimentação de mercadorias entre pontos. Mas, no total, se considerarmos, por exemplo, Moscou, o número não mudará muito e é difícil acreditar em movimentos significativos de mercadorias entre regiões.
A situação é semelhante aos volumes de vendas. É claro que existem empresas que publicam informações na forma de muitos / poucos, mas mesmo com isso você pode trabalhar, e as posições mais vendidas são facilmente rastreadas. Especialmente se você cortar posições baratas e se concentrar apenas naquelas que são de maior valor. Pelo menos fizemos essa análise - acabou sendo interessante.
Em segundo lugar, a análise é usada para obter conteúdo. Aqui, histórias no estilo de "tons legais de cinza" já podem ocorrer. Muitos estão obcecados com o fato de que a análise é precisamente roubo de conteúdo, embora esse não seja o caso. A análise é apenas uma coleta automatizada de informações, nada mais. Por exemplo, analisar fotos, especialmente aquelas com "marcas d'água", é puro roubo de conteúdo e violação de direitos autorais. Portanto, eles geralmente não fazem isso (em nosso trabalho, nos restringimos a coletar links para imagens, nada mais ... bem, às vezes eles nos pedem para contar o número de fotos, rastrear a disponibilidade de vídeo no produto e fornecer um link etc.).
Em relação à coleta de conteúdo, a situação com as descrições dos produtos é mais interessante. Recentemente, recebemos um pedido para coletar dados em 50 sites de grandes farmácias on-line. Além de informações sobre a variedade e o preço, fomos solicitados a "poupar" a descrição dos dispositivos médicos - exatamente o que está incluído em cada embalagem é o chamado. informação factual, isto é, é improvável que se enquadre na lei de direitos autorais. Como resultado, em vez de digitar manualmente as instruções, os clientes terão apenas que fazer pequenos ajustes nos modelos de instruções, e isso é tudo: o conteúdo do site está pronto. Mas sim, também pode haver descrições dos autores de medicamentos certificados por um notário e feitos especificamente como uma espécie de armadilha para ladrões de conteúdo :).
Considere também coletar descrições de livros, por exemplo, com OZON.RU ou Labyrinth.ru. Aqui a situação não é tão direta do ponto de vista jurídico. Por um lado, o uso dessa descrição pode violar os direitos autorais, especialmente se a descrição de cada cartão de produto tiver sido reconhecida em cartório (o que duvido muito - pode não ser certificada, a exceção são os pequenos recursos que eles desejam arrastar ladrões de conteúdo pelos tribunais). De qualquer forma, nessa situação, você terá que "suar" muito para provar a singularidade dessa descrição. Alguns clientes vão ainda mais longe - eles conectam sinônimos, que "em tempo real" alteram (boas ou ruins) as palavras na descrição, mantendo um bom senso.
Outra aplicação de análise é bastante original - "auto-análise". Vários objetivos são perseguidos aqui. Para começar, ele acompanha o que está acontecendo com o conteúdo do site: onde estão os links quebrados, onde faltam descrições, duplicação de mercadorias, falta de ilustrações etc. Meia hora do trabalho do analisador - e agora você tem uma tabela pronta com todas as categorias e dados. Convenientemente! A "análise automática" também pode ser usada para comparar os saldos no site com os saldos do armazém (também existem clientes que rastreiam as falhas dos uploads no site). Outra aplicação de “auto-análise” que encontramos em nosso trabalho é a estruturação de dados de um site para carregá-los no Yandex Market. Era mais fácil para os caras fazerem isso do que manualmente.
Os anúncios também são analisados, por exemplo, no CIAN-e, Avito etc. Os objetivos aqui podem ser revenda de bases para corretores de imóveis ou operadoras de turismo ou spam definitivo por telefone, redirecionamento etc. No caso do Avito, isso é especialmente óbvio, porque uma tabela com os telefones dos usuários é compilada imediatamente (apesar do Avito substituir os telefones dos usuários por proteção e publicá-los como uma imagem, ainda não é possível obter chamadas das chamadas recebidas).
3. "O que está no meu currículo para você?" ou analisando HH.RU
Recentemente, os pedidos de análise do Headhunter tornaram-se relevantes. É verdade que, a princípio, as pessoas são solicitadas a vender uma "base para caçadores de talentos". Porém, quando eles já entenderem que não temos e não podemos ter base, passamos a falar sobre a análise no perfil deles ("com uma senha"). Essa é uma direção peculiar de análise e, francamente, não é particularmente interessante para nós, mas vale a pena falar sobre isso.
Qual é a sutileza? O cliente fornece acesso à sua conta e define a tarefa de coletar dados de acordo com suas necessidades. I.e. Ele já pagou pelo acesso ao banco de dados HH e, assinando um contrato conosco, nos define a tarefa de coletar automaticamente informações em seus interesses e em sua conta, que é completamente de sua responsabilidade. Se o HH detectar atividade anormal, a conta será bloqueada. Portanto, tentamos simular a atividade humana na coleta de dados da melhor maneira possível.
Se o HH (tanto quanto eu sei, "com êxito" falhou em seus experimentos com a API) forneceu (vendeu) os dados em um tablet por região, digamos, os contatos de todos os diretores de marketing atualmente trabalhando em Moscou, ninguém teria nos procurado. Enquanto isso, as pessoas precisam fazer isso com "canetas", elas vêm até nós. Afinal, quando você tem uma mesa dessas, é muito mais conveniente participar de spam de publicidade - chamadas frias.
Enfatizo novamente, não temos um banco de dados HH, simplesmente coletamos dados de cada cliente para suas necessidades, sua conta e sua responsabilidade. E a violação do contrato de oferta não está associada ao uso do site pela parte analisadora. Ao assinar um contrato conosco, o cliente recebe pelos contatos de execução de cerca de 450 tomadores de decisão, que colocamos nele no servidor, e seu departamento de vendas decide o que fazer com ele. Ah, também seríamos "spam" se tivéssemos essa base. Brincadeirinha :)
Embora, pessoalmente, eu pense que não há perspectivas em analisar com uma senha. Analisar recursos abertos é outra questão. Depois de configurar tudo e analisar constantemente, revende o acesso a todos os dados coletados. Isso é mais promissor.
4. A análise é legal?
Não há nenhum artigo na lei russa que proíba a análise. Hacking, DDOS, roubo de conteúdo protegido por direitos autorais é proibido e a análise não é nem uma nem outra, nem a terceira e, portanto, não é proibida.
Algumas pessoas percebem a análise como um ataque DDOS e duvidam disso. No entanto, essas são coisas completamente diferentes e, ao analisar, tentamos, pelo contrário, carregar o site de destino o mínimo possível e não prejudicar os negócios. Como no caso do parasitismo saudável, não queremos que a empresa "largue os cascos", caso contrário não teremos nada para "parasitar".
Geralmente eles pedem para analisar sites grandes, dos 300 a 500 sites principais na Rússia. Nesses sites, o tráfego, em regra, é de vários milhões por mês, talvez até mais. E nesse cenário, analisar um produto por segundo ou dois é quase invisível (não faz sentido analisar com mais frequência, 1-2 segundos por produto é a velocidade ideal para sites grandes). Consequentemente, não há indícios de um ataque DDOS em nossas ações. Muito raramente, as pessoas nos pedem para atualizar, por exemplo, todo o site BERU.RU por dia - digamos que seja franco, é um exagero e a carga no site é muito alta ... geralmente leva de 3 a 4 dias.
Deixe-me lembrá-lo de que a análise é apenas uma coleção do que podemos ver com nossos próprios olhos no site e copiar em nossas mãos. Assim, apenas ações com informações já coletadas, ou seja, ações do próprio cliente. É que uma pessoa faz isso por um longo tempo lentamente e com erros, e o analisador - rapidamente e não comete erros. O que fazer quando se trata de coletar dados do AliExpress ou Wildberies? Tal tarefa está simplesmente além do poder do homem, e a análise é a única saída.
É verdade que eles recentemente pediram para analisar o site de uma organização estatal - um tribunal, se não me engano. Todas as informações são de domínio público, mas nós (apenas no caso) recusamos. :)
5. “Por que você está nos analisando, nós somos o cliente” ou qual é a diferença entre análise e monitoramento de preços?
O monitoramento de preços é um dos aplicativos mais populares para análise. Mas não é tão simples com ele - nesse caso, não apenas teremos que trabalhar, mas também o próprio cliente.
Ao solicitar o monitoramento de preços, alertamos imediatamente que analisaremos não apenas os concorrentes, mas também o cliente. Isso é necessário para obter tabelas semelhantes com mercadorias e preços, que podemos atualizar automaticamente. No entanto, esses dados por si só não carregam valor até serem interconectados (a chamada correspondência de mercadorias). Podemos correlacionar automaticamente algumas posições de locais diferentes, mas, infelizmente, no momento as “máquinas” não são tão boas para garantir isso sem erros, e ninguém é melhor que uma pessoa (por exemplo, trabalhando remotamente em um funcionário de meio período das regiões) vai fazer.
Se todos exibissem um código de barras no site, seria ótimo e poderíamos fazer todos os "pacotes" automaticamente. Infelizmente, porém, não é assim, e mesmo empresas diferentes escrevem nomes de produtos diferentes de maneira diferente.
É bom que esse trabalho precise ser realizado uma vez e, depois, periodicamente verificado novamente e, se necessário, faça pequenos ajustes. Se houver links, já podemos atualizar essas tabelas automaticamente. Além disso, geralmente as pessoas não precisam monitorar os preços de tudo: existem condicionalmente 3-5 mil posições que estão no topo e uma ninharia não é interessante. E um operador da região pode fazer esse trabalho facilmente por cerca de 10.000 rublos por mês.
O caso mais bem-sucedido e correto nesse caso, na minha opinião, é fazer o upload da lista de preços dos concorrentes diretamente para o seu 1C-ku (ou outro sistema ERP) e aí você já pode realizar a comparação. Portanto, o monitoramento de preços é mais fácil de implementar nas atividades diárias de seus analistas. E sem análise, ninguém precisa dessa análise.
6. Como se proteger da análise?
De jeito nenhum. E vale a pena proteger-se da análise? Eu não. Ainda não existe uma proteção 100% funcional (mais precisamente, ainda não nos encontramos), por isso não vejo muito sentido em me defender. A melhor proteção contra a análise é simplesmente colocar a tabela pronta no site e escrever - pegue a partir daqui, atualize a cada dois dias. Se as pessoas fizerem isso, não teremos pão.
A propósito, eles recentemente telefonaram para o diretor de TI de uma grande rede - eles queriam testar sua proteção contra a análise. Perguntei-lhe diretamente por que não. Como especialista técnico, ele entende perfeitamente que nenhuma proteção contra a análise salvará, apenas assustará os amadores; mas as empresas que ganham dinheiro com a análise podem muito bem pagar atividades de pesquisa nessa direção - para entender a nova proteção por um longo e doloroso tempo e, eventualmente, contorná-la ...
Como regra, todos usam o mesmo tipo de proteção, e esse estudo será útil mais de uma vez. Portanto, o departamento de marketing não está pronto para isso: "Por que simplificamos a vida dos concorrentes?" Parece lógico, mas ... Como resultado, a empresa gastará dinheiro com proteção, o que não ajudará, e a carga parasitária no site permanecerá. Embora, para ser justo, vale a pena notar que os alunos aprendem python e aumentam tudo o que "se move" pode muito bem ajudar.
A propósito, Yandex e Google estão envolvidos na análise: eles acessam o site e o indexam - coletam informações. Somente todo mundo quer que o Yandex e o Google indexem seus sites por razões óbvias, e ninguém quer ser analisado :)
7. “Procurei aqui de graça ...” ou uma história sobre voos
Uma vez, fomos abordados com uma ordem interessante para análise de teste. A empresa lida com passagens aéreas e eles estavam interessados nos preços dos concorrentes para alguns dos destinos mais populares. A tarefa não foi trivial, porque Eu tive que mexer na substituição e comparação de vôos. Acabou sendo interessante que os preços do "Onetwotrip", "Aviasales" e "Skyscanner" para os mesmos voos sejam ligeiramente diferentes (o spread é de cerca de 5-7%).
O projeto me pareceu muito interessante, e eu postei um post sobre isso nas redes sociais. Para minha surpresa, a discussão no post foi bastante agressiva, e eu não entendi imediatamente o porquê. Então, o diretor geral de uma das empresas líderes de mercado na venda de ingressos na Rússia escreveu para mim, e a situação foi esclarecida. Verificou-se que os pedidos de preços de bilhetes para essas empresas são pagos, porque eles recebem informações de serviços pagos internacionais. E, além da carga parasitária, a análise também é financeira para eles.
De qualquer forma, ninguém está exigindo pagamento de você, se você procura pessoalmente bilhetes para esses serviços, e as pessoas comuns também fazem muitos pedidos enquanto selecionam opções diferentes ... Em geral, existe um dilema comercial :)
8. “Receitas do chef-parser”. ou como trabalhamos?
Penso que, para uma melhor compreensão de todos os aspectos da análise, vale a pena abrir o véu da nossa "cozinha interior".
Tudo começa com um pedido. Às vezes, os clientes entram em contato conosco e às vezes ligamos. Acontece especialmente bem com pedidos para monitoramento de preços. Nesse caso, temos que analisar não apenas os concorrentes, mas também o próprio cliente. Portanto, às vezes chamamos aqueles a quem analisamos de um jeito ou de outro, e falamos sobre isso abertamente, oferecendo nossos serviços - o trabalho já está sendo feito por nós. No início, a reação é muito negativa, mas alguns dias se passam, as emoções diminuem e os próprios clientes ligam de volta, dizendo: “Droga! Quem você ainda está analisando?
A análise com MUITOS proprietários de recursos visitados causa emoções. No primeiro ponto negativo, porque é semelhante a espiar em um buraco de fechadura. Em seguida, ele se desenvolve em interesse e depois em uma consciência da necessidade. Empresários são pessoas inteligentes. Quando as emoções não dão em nada e o cálculo frio permanece, a pergunta sempre surge: "Ou talvez estivéssemos subdesenvolvidos em algum lugar, e também precisamos disso?"
Graças a essas emoções, estamos crescendo e desenvolvendo ativamente. No momento, analisamos cerca de 300 sites por dia. Normalmente, encomendamos de 8 a 15 sites, e a análise de um custa de 5 a 9 mil rublos por mês, dependendo da complexidade da conexão, porque cada site precisa ser conectado individualmente (leva de 4 a 5 horas para o recurso). A dificuldade é que alguns estão protegidos. A luta não é tanto com a análise, mas com uma carga parasitária, o que não lhes traz lucro, mas às vezes é preciso mexer.
De qualquer forma, TUDO É PARISHED, mesmo que o preço dos produtos seja publicado no site como uma figura :) Para aqueles que querem experimentar a análise, eu recomendo trabalhar no site da Stolichki Pharmacy e
preços .
Loja online de uma rede de farmácias “Stolichki” - os preços são escritos em fonte interna e, para analisá-los, uma das soluções será a formação da imagem e seu reconhecimento. Fazemos isso pelo menos.Os dados coletados são transmitidos ao cliente. Normalmente, nós os colocamos em nossa própria nuvem, atualizando constantemente e fornecemos ao cliente acesso a eles por meio da API. Se algo repentinamente ficar errado com os dados (e isso acontecer raramente - uma vez a cada 3-4 meses), eles imediatamente ligam e escrevem para nós, e tentamos resolver o problema o mais rápido possível. Essas falhas ocorrem quando uma nova proteção ou bloco é instalado e são resolvidas usando pesquisas e proxies, respectivamente. Em outro caso, quando algo muda no site, o bot simplesmente deixa de entender onde está localizado, e nosso programador precisa reconfigurá-lo. Mas tudo está resolvido, e os clientes geralmente tratam esses problemas com compreensão.
Observo que em nossos negócios a identidade do cliente nunca foi divulgada - somos bastante sensíveis a isso e ninguém cancelou as cláusulas do contrato de não divulgação. Embora não haja nada repreensível na análise, muitos são tímidos.
Na verdade, para resumir, se você é um negócio em crescimento, comercializa produtos comuns ou trabalha em um ambiente em rápida mudança (como contratar funcionários ou oferecer serviços específicos para uma determinada categoria de criadores, currículos e o conteúdo de outros "quadros de mensagens" na Internet), é cedo ou mais tarde, encontre a análise (como cliente ou como destino).PS: se gostarmos do artigo, escreveremos sobre o lado técnico das coisas - como contornamos a proteção, quais capacidades usamos, o que está escrito (spoiler .net) etc.Maxim Kulgin, xmldatafeed.com