Análise de sites - e isso geralmente é legal na Rússia?

De acordo com uma das definições, a análise é uma análise de informações. Para uma pessoa que não está envolvida nas tarefas específicas de coleta e processamento de informações para projetos da Internet, isso não significa nada. E a própria definição, apenas em termos gerais, indica a enorme quantidade de trabalho que centenas de milhões de pessoas e dezenas de milhões de robôs (embora virtuais, mas não menos reais) realizam em todo o mundo a cada minuto. Mas essa tarefa é comum para uma pessoa - ou seja, comparar os preços dos ingressos on-line, escolher os eletrônicos certos nos sites das lojas ... Observando preços e promoções no conveniente aplicativo móvel do supermercado mais próximo da casa, nenhum de nós sequer pensa em se chamar um analisador.
imagem

No entanto, a análise de negócios existe, funciona e, é claro, é objeto de animada discussão em vários níveis de consideração: ético, jurídico, tecnológico, financeiro e não apenas.

Este artigo não expressa uma opinião definida, não dá conselhos e não revela segredos - aqui consideraremos apenas algumas opiniões sobre o exemplo dos comentários mais interessantes em um artigo separado sobre análise (50k visualizações e mais de 400 comentários!) Em Habré, tratando-os da perspectiva de experiência em analisar projetos web. Em outras palavras - passamos muito tempo e tentamos reunir e classificar os comentários dos leitores mais interessantes ... sabedoria mundana, por assim dizer :)

Então, sobre a análise:

"Uma questão de tecnologia." Proxies fantásticos e onde eles moram.


Assim como a idéia de analisar a si mesma é natural (é sempre interessante ver o que os "vizinhos" estão fazendo lá), os métodos básicos de sua implementação são igualmente simples. Se você quiser saber, pergunte, mas se quiser saber os valores reais de um grande conjunto de dados (seja o preço dos produtos, suas descrições, volumes disponíveis para pedidos ou descontos), será necessário "pedir" muitas e muitas vezes. É claro que nunca ocorreria a ninguém tentar coletar esses dados manualmente (exceto por uma grande equipe de crianças trabalhadoras dos países do sul que não eram inspiradas pela maneira mais humana), soluções tão simples e eficazes são usadas na testa: para "empilhar" o site, configurar o navegador, colete bots - e “toque” no site de destino para obter indicadores de interesse, anote cuidadosamente as respostas em um “bloco de notas” em um formato conveniente, analise os dados coletados e repita.

Aqui estão algumas abordagens para a "técnica de análise" de nossos leitores e de nós:

  1. “Fazenda Selenium - vá em frente!” (Refere-se a navegadores sem cabeça com uma solução do tipo BeautifulSoup, como Selenium / Splinter). De acordo com o nosso leitor, ele escreveu um pequeno site no enxame de estivadores para sua esposa para monitorar os sites dos vendedores (ela é uma importadora) para que eles não violem a política do RRC / MRC (preços de varejo recomendados). Segundo o autor, tudo funciona de forma estável, a economia de análise converge - "todos os custos são 4 nós por US $ 3". É verdade que o autor orgulhoso tem apenas cerca de mil produtos e dezenas de sites em análise, não mais :)
  2. "Lançamos o Chromium e está tudo bem, acontece que um produto em 4-5 segundos pode ser usado ...". É claro que nenhum administrador ficará satisfeito com a carga saltada no servidor. O site, é claro, é para esse propósito necessário fornecer informações a todos aqueles que estão interessados, mas "existem muitos de vocês, mas estou sozinho"; portanto, aqueles que estão especialmente ansiosos por se interessar são, é claro, ignorados. Bem, isso não importa: o Chromium vem em socorro - se o navegador estiver batendo no site no modo "peça apenas para nós" - isso pode ser feito sem esperar na fila. De fato, no conjunto geral de tarefas de análise, a análise de páginas html é feita em 90% dos casos e em "casos especialmente difíceis" (quando os sites são protegidos ativamente, como o mesmo Yandex.Market solicitando captcha), o Chromium lida com isso.
  3. "Limpe proxies com suas próprias mãos dos roteadores / modems LTE." Existem várias maneiras de configurar proxies limpos adequados para analisar os mecanismos de pesquisa: um farm de modem 3G / 4G ou comprar proxies brancos em vez de um monte de proxies sujos aleatórios. É importante qual linguagem de programação é usada para essa análise industrial - 300 sites por dia (e a resposta correta é .Net! :). De fato, a Internet está cheia de sites com listas de proxy abertas, 50% dos quais funcionam bastante, e não é tão difícil analisar listas de proxy desses sites e depois analisar outros sites com a ajuda deles :)) Bem, fazemos isso.
  4. Outro caso a favor do Selenium: “Eu me analiso (mas não no RuNet, mas recebo pedidos no meu upwork.com favorito, lá é geralmente chamado de raspagem, um termo mais adequado, IMHO). Eu tenho uma proporção um pouco diferente, algo em torno de 75 a 25. Mas, no geral, sim, se é preguiça ou difícil, ninguém ainda se esquivou do selênio :) Mas, dentre várias centenas de sites com os quais tive que trabalhar, ele nunca foi reconhecido. imagens para obter dados de destino. Normalmente, se não houver dados em html, eles sempre serão atraídos por algum json (bem, na verdade, já mostramos um exemplo abaixo).
  5. "Domadores de Python". E o caso de outro leitor: "No meu trabalho anterior, usei o Python / Scrapy / Splash em mais de 180 sites por dia, de tamanhos diferentes, de prisma.fi e verkkokauppa.com a algo pequeno com 3-5 produtos. No final do ano passado, alugamos esse servidor da Hetzner (https://www.hetzner.com/dedicated-rootserver/ax60-ssd) com o Ubuntu Server a bordo. A maioria dos recursos de computação ainda está ociosa.
  6. "O WebDriver é o nosso tudo". Envolvido em automação geral (onde a análise já cai), o mais confiável possível (tarefas de controle de qualidade). Uma boa estação de trabalho, uma dúzia ou dois navegadores em paralelo - a saída é uma debulhadora muito má e rápida.

O “conjunto dos cavalheiros” do pairador - 4 máquinas virtuais, tráfego ilimitado, 4 processadores em cada um, 8 GB de memória, Windows Server ... Até agora, o suficiente para cada novo lote de 50 sites condicionalmente - você precisa de sua própria máquina virtual. Mas isso depende muito dos próprios sites. O Visual Studio também possui o System.Net, que realmente usa o Internet Explorer instalado no Windows. Isso também funciona.

“Como se proteger (de analisar) em sua mente? De jeito nenhum, nós rastrearemos de qualquer maneira "


A análise de idéias de negócios, falando sobre nossos negócios, é constantemente lançada para nós.

  1. Emita a análise Yandex, assim como muitos serviços de SEO. “Há mais demanda por isso, mais dinheiro. É verdade que eles basicamente vendem todo o sistema de análise de SEO. ” Mas não analisamos a emissão - não perguntamos, e haverá captcha imediatamente após 100 solicitações, precisamos de proxies limpos, mas eles são difíceis de obter ou caros, não são tão lucrativos ... É claro que está longe de ser fácil jogar com grandes jogadores e os leitores estão conosco compartilhá-lo (nós mesmos NÃO analisamos o Google e o Yandex). Segundo a experiência, a Yandex, o Google e grandes empresas similares têm uma certa base com sub-redes de data centers (afinal, os bancos de dados de proxy são atualizados e os principais players os assinam e proíbem). Assim, a rede proxy elevada nos endereços IP emitidos para os data centers voa perfeitamente para a proibição com a emissão de captcha e outras peculiaridades. Como resultado, existem apenas opções ilegais com a compra de proxies dos proprietários de botnets e uma "sujeira" semelhante; nesse caso, você terá um ip de usuário real. E, mesmo assim, essas empresas realmente precisam que você tenha "resolvido" os cookies com os quais você já "rastreou" por algum tempo em sites onde eles podem rastrear você (por exemplo, contagem de ocorrências). Mas como eles distinguem os analisadores dos NATs nas áreas de dormir? 100 solicitações condicionais não são nada.
  2. Proteção contra análise: removendo os “grandes e terríveis” da consideração, focalizaremos em nós, “meros mortais”. Se houver pessoas envolvidas na análise, deve haver pessoas que tentarão impedi-las de fazer isso. É mais interessante brincar com pessoas vivas: um elemento de rivalidade aparece, cada lado tenta enganar o outro. E, como ninguém ainda pretende coletar informações manualmente, eles jogam quem tornará o bot o mais parecido com uma pessoa viva e quem será capaz de reconhecer esses bots com mais eficiência, continuando a responder a solicitações de usuários reais - o site foi projetado para ajudar os negócios , somos repelidos por isso. E, permanecendo no âmbito da tarefa de eficiência nos negócios, não se pode deixar de levar em consideração a alocação razoável de recursos e a lucratividade das medidas para, de fato, analisá-las e combatê-las:

    • Você não pode se proteger da análise (exceto dos "alunos"), mas pode aumentar o limite para gastar com isso (tempo e dinheiro). Como resultado, os dados que protegemos (várias seções do site) são mais fáceis de analisar, mas de comprar um banco de dados pronto, assim como o compramos. Existem tabelas de endereços IP do analisador na rede, mostrando o captcha a esta lista na entrada não é um problema. Da mesma forma, gerar id e classes, como o mail.ru, também não é um problema e não exige grandes despesas. Um novo captcha do Google geralmente determina com muita precisão se o robô é ou não. Se houver uma suspeita, cortar o usuário e solicitar um captcha é simples. No final, ninguém cancelou a isca HoneyPot por capturar o bot. Bem, clássico, substitua as letras no texto, faça máscaras, etc.
    • E aqui nos oporemos a nós mesmos: talvez, individualmente, tudo isso não ajude, mas todos juntos complicarão tanto sua vida que ela se tornará inconveniente. Além disso, todas essas técnicas geralmente não requerem grandes despesas. É verdade que todas essas técnicas custam muito, portanto, em essência, não há proteção. Proxies dinâmicos, serviços que reconhecem captcha pelos índios e selênio com um algoritmo de ação bem definido. Tudo o que pode ser alcançado - o desenvolvimento do analisador custará mais, pode assustar alguém, mas se o site de destino não for um catálogo de uma página e meia do escritório local do "Horns and Hooves", poucas pessoas ficarão assustadas com o aumento dos custos.
    • Ao defender, trata-se sempre de usar modelos comportamentais típicos de visitantes reais, além de sistemas que identificam adequadamente os robôs "brancos" (Yandex, Google, etc.). E para se adaptar a um visitante real, você precisa conhecer um conjunto de mapas de transição padrão. E, em seguida, um simples pool de proxy ao analisar não é suficiente. O sistema não protege 100%, mas resolve a tarefa - de acordo com as estatísticas de exibição, você pode entender quando todo o site foi verificado. Analisadores ou mecanismos de pesquisa fazem isso. Mas os mecanismos de pesquisa respondem ao robots.txt, mas os analisadores não.

“Uau. Se todas as pessoas fizessem tudo com sabedoria ... acho que haveria 10 vezes mais desempregados. O suficiente para a sua idade.

“Vivo ambientalmente? Sim, mas em vão "


  1. No plano moral e ético da consideração da questão, reside um ponto importante relacionado aos aspectos técnicos e legais da análise. O arquivo robots.txt é conciso em sua simplicidade e simbólico em seu nome, que nossos leitores e nós interpretamos de diferentes maneiras:

    • Sua atividade como "motorista" de um bot é "ética" exatamente da mesma forma que o seu bot segue o robots.txt do site que você visita. Não com base em suposições do formulário "as páginas do produto não fecham", mas literalmente impondo máscaras de permissão e proibição nos URLs solicitados. Robots.txt ausente - interprete a seu favor; presente, mas você o viola - definitivamente, você está usando o site com intuito malicioso. É claro que o robots.txt não tem força de lei, mas se você realmente o "assa", não é fato que ele definitivamente passará pelos advogados. "
    • Apesar de ser impossível negociar com robôs, às vezes é mais fácil do que com as pessoas, porque nas lojas eles penduram placas "fotos são proibidas", e isso é ilegal. E antiético. “Apenas essa tradição. robots.txt é uma técnica. Não é sobre ética. Se você deseja indicar que não deseja analisar, faça uma seção como esta: account.habr.com/info/agreement. Não sei se essa restrição será legal, mas pelo menos você pode expressar seus desejos em linguagem humana (ou mencionar robots.txt), então pode falar sobre ética ". Nossos advogados replicam: "De maneira alguma essa restrição será legal".
    • Pensamos simultaneamente na análise e no uso posterior de informações. “Robots.txt não é tanto sobre análise, mas sobre publicação adicional (por exemplo, nos resultados de pesquisa). Se você deseja que os dados não sejam recebidos por ninguém, limite o círculo de pessoas que podem vê-lo. Se você não tem cortinas nas janelas, não deve ficar nu. Pode ser deliberado olhar pelas janelas e feio, mas sem cortinas o que afirma?
    • A análise da ética é neutra. Pode ser antiético usar as informações obtidas. Em geral, puramente do ponto de vista ético, todos têm o direito de receber informações públicas que não são particulares ou de natureza especial e não são protegidas por lei. Os preços são com certeza informações públicas. Descrições também. As descrições podem estar sujeitas a direitos autorais e não devem ser publicadas sem permissão. Mas nenhuma ética é violada, mesmo que eu analise sites e crie meu próprio site público, o que refletirá a dinâmica dos preços e a comparação dos concorrentes. É até ético, pois fornece informações socialmente úteis ".
  2. "As mãos podem ser montadas, mas o robô não pode ser analisado." Qualquer “mal” com a devida diligência e habilidade pode ser justificado e analisado ainda mais - especialmente porque existem exemplos vivos de como ele foi usado em todos os sentidos corretamente, citamos nosso leitor: “Eu estava envolvido na análise há muito tempo, mas sempre perguntei faça uma análise completamente legal e moralmente correta. Várias vezes, os intermediários solicitaram que o atacadista fosse analisado (para vender seus produtos), o próprio atacadista não se importava, mas não iria investir no desenvolvimento da API (ou não por razões técnicas); uma vez que um intermediário de uma loja chinesa solicitou integração, mas a API da loja chinesa estava tão danada e limitada que, em parte, era necessário obter a análise de informações; uma vez que o autor e o proprietário do site e o fórum desejavam migrar de um site gratuito que "fixava" o banco de dados; ele também fez a integração do site do concurso literário e de seu fórum, para que, ao adicionar uma nova história, o tópico no fórum aparecesse automaticamente (por razões técnicas, não poderia ser feito de outra maneira). ”

O advogado foi chamado? A cotação não pode ser analisada "


Independentemente de qual lado você escolher para determinar a fonte de poder: dinheiro ou verdade - uma coisa é clara: onde o dinheiro começa a ser encontrado, encontrar a verdade se torna cada vez mais difícil. Fazendo a discussão sobre a possibilidade de adquirir tudo e tudo para o “den.znaki”, incluindo a própria lei e seus representantes, além do escopo deste artigo, consideraremos alguns aspectos legais levantados nos comentários:

  1. "De espiar a roubar é um passo." Mesmo que tudo o que não é proibido seja permitido, nossos leitores acreditam que “espiar pelo buraco da fechadura é pelo menos feio, e se o cliente também emitir o esparsial como seu, então isso é um roubo direto. Obviamente, é claro que nos negócios todos fazem isso. Mas em uma sociedade decente, ainda é costume permanecer calado sobre isso. " No entanto, analisar alguém e repassar os esparsos como eles próprios, como dizem, são duas grandes diferenças: “Você confunde o suave e o frio. Nós realmente fornecemos serviços de análise. Mas é exatamente da mesma maneira que você pode culpar os fabricantes, por exemplo, armas, por matá-lo. Fazemos negócios, mas nos negócios há uma regra - é legal ou não. O que quero dizer é ... se os clientes vêm até nós e estão dispostos a pagar muito para obter dados - realmente é ruim ... "
  2. "Formou um aplicativo para um site de mídia - preso por uma reclamação." Site, análise e aplicativo da Forbes no Google Play - o que poderia dar errado? “Houve um tempo em que decidi fazer uma inscrição no site da Forbes. Para obter artigos das páginas analisadas pelo site. Eu configurei tudo no modo automático e fiz um aplicativo para Android. Publiquei o aplicativo no mercado. Um ano depois, um advogado entrou em contato comigo e exigiu a remoção do pedido, porque viole os direitos autorais. Eu não discuti. É uma pena que a própria Forbes não tenha um aplicativo para seus próprios artigos no site. Existe apenas um site. E o site deles é lento, carregado por um longo tempo e cheio de publicidade ... "
  3. "Meu banco de dados é meu trabalho sob proteção!" O copyright é outro conceito que pode ser dedicado a uma dúzia de páginas de discussões (além de centenas de milhares de páginas existentes), mas sem mencionar que também está errado. Nosso leitor divulgou o conceito: “Alguém criou um banco de dados de mercadorias. Gastou muitos recursos na busca de informações, sistematizando essas informações e colocando dados no banco de dados. A pedido de um concorrente, você está analisando essa base e entregando-a ao mesmo concorrente por dinheiro. Você acha que não há questões éticas? Em relação ao estado de direito, não sei como é na Federação Russa, mas na Ucrânia um banco de dados pode estar sujeito a direitos autorais. "

    No entanto, a responsabilidade de usar o serviço ou produto ainda é de quem o adquire / com que finalidade: “... também na Rússia. Nós fornecemos serviços de coleta de dados. E para este serviço, pedimos dinheiro. Nós não vendemos os dados por conta própria. "A propósito, aviso a todos os clientes que eles podem infringir a lei se usarem, por exemplo, descrições".
  4. "Formalmente, você está certo, mas eu encontrei um artigo sobre você!" O Código Penal da Federação Russa (artigo 146) descreve apenas a extensão das violações que permitem classificar a violação de direitos autorais como um "crime". Os direitos em si são descritos no Código Civil - e a extensão em que o ato pode ser classificado como uma análise "criminosa" e regular, de modo que a questão de "o site será desativado" se estende sem problemas. Mas os aspectos são importantes:

    • Lá, "tamanho grande" não está no número de páginas analisadas, mas em dinheiro. Como você classifica a análise (e sua regularidade) como violação de direitos autorais (!) Em dinheiro? E como é geralmente feito nesses casos e de onde pode resultar uma multa de centenas de milhares de dólares por cópia do filme? O "lucro perdido" é calculado com o coeficiente correspondente. - — «». , , ( ), «». : , -? , .
    • ( . : — 30 , — 1000, « », ). , ? , « ».

: «— ? — . — , . «» — .»

, xmldatafeed.com

Source: https://habr.com/ru/post/pt450834/


All Articles