解析网站-在俄罗斯一般合法吗?

根据其中一种定义,解析是信息的解析。 对于不参与Internet项目的收集和处理信息的特定任务的人员,这没有任何意义。 仅从广义上讲,这个定义表示每分钟全世界有成千上万的人和数以千万计的机器人(虽然是虚拟的,但并非不真实)所做的大量工作。 但这对于一个人来说是很常见的-在网上比较门票价格,在商店现场选择合适的电子产品...在离家最近的超市的便捷移动应用中观看价格和促销活动,我们谁都不会想到将自己称为解析器。
图片

尽管如此,业务解析仍然存在,有效,并且在许多方面都需要进行热烈的讨论:伦理,法律,技术,财务以及不仅如此。

本文没有表达明确的意见,没有提供建议,也没有透露秘密-在这里,我们将仅就某有关解析的特定文章中最有趣的评论(50k视图和超过400条评论!)的示例考虑一些观点。解析Web项目的经验。 换句话说-我们花费了大量时间,试图将最有趣的读者评论汇总在一起并归类在一起……世俗的智慧,可以这么说:)

因此,关于解析:

“技术问题。” 神奇的代理以及他们的住所。


正如解析本身的想法是自然的一样(看看“邻居”在这里所做的事情总是很有趣),实现它的基本方法也很简单。 如果您想知道,可以询问,但是如果您想知道大型数据数组的实际值(无论是商品价格,其描述,可订购的数量还是热门折扣),则您将不得不经常“多次询问”。 很显然,任何人都不会尝试手动收集这些数据(来自南方国家的一大批勤奋的孩子,他们的灵感不是以最人道的方式获得的),因此在额头上使用了简单有效的解决方案:“堆放”网站,设置浏览器,收集机器人-并“点击”目标站点以获取感兴趣的指标,以方便的格式在“记事本”中仔细写下答案,分析收集到的数据,然后重复。

这是读者和我们采取的“解析技术”的一些方法:

  1. “硒农场-前进!” (这是指采用类似BeautifulSoup的解决方案(如Selenium / Splinter)的无头浏览器)。 据我们的读者说,他在码头工人群上写了一个小站点给他的妻子,以监视卖方的站点(她是进口商),以使它们不违反RRC / MRC政策(建议零售价)。 根据作者的说法,一切工作稳定,解析经济趋于一致-“所有成本均为4节点,即3美元。” 诚然,这位骄傲的作者在解析时只有大约一千种产品和数十个站点,没有更多:)
  2. “我们启动了Chromium,一切正常,结果可以在4-5秒钟内拿出1个产品……”。 显然,没有一位管理员会对服务器上的负载增加感到高兴。 当然,出于这个目的,该站点必须向所有感兴趣的人提供信息,但是“你们中有很多人,但我一个人”,因此,那些特别渴望感兴趣的人当然会被忽略。 嗯,没关系:Chromium可以提供帮助-如果浏览器以“仅询问我们”模式敲入该网站-无需排队就可以完成。 实际上,在一般的解析任务数组中,html页面的解析是在90%的情况下完成的,在“特别困难的情况下”(当网站受到积极保护时,例如同一Yandex.Market要求提供验证码),Chromium会处理。
  3. “用自己的双手从LTE路由器/调制解调器中清洁代理。” 有很有效的方法来配置适合解析搜索引擎的干净代理:3G / 4G调制解调器场或购买白色代理,而不是一堆随机的脏代理。 对于这种工业解析,使用哪种编程语言很重要-每天有300个站点(正确的答案是.Net!:)。 实际上,Internet上到处都是具有开放代理列表的站点,其中50%的站点运行良好,并且从这些站点解析代理列表,然后与它们解析其他站点并不是那么困难:):好的,我们做到了。
  4. 另一个赞成Selenium的案例:“我确实解析自己(但不是在RuNet中解析,但我在我钟爱的upwork.com上接到订单,通常将其称为刮板,更合适的术语,恕我直言)。 我的比率略有不同,大约在75到25之间。但是,总的来说,是这样,如果它很懒惰或很困难-到目前为止,还没有人躲过硒:)但是,在我必须使用的数百个站点中,它从未被人发现图片以获取目标数据。 通常,如果html中没有数据,则总是将它们放入一些json中(实际上,我们已经在下面显示了一个示例)。
  5. “ Python驯服者”。 另一个读者的情况是:“在我以前的工作中,我每天使用Python / Scrapy / Splash处理180多个站点,大小不同,从prisma.fi和verkkokauppa.com到带有3-5种产品的小东西。 去年年底,我们从Hetzner(https://www.hetzner.com/dedicated-rootserver/ax60-ssd)租用了这样的服务器,并安装了Ubuntu Server。 大多数计算资源仍处于空闲状态。
  6. “ WebDriver是我们的一切。” 从事尽可能可靠的常规自动化(已解析的工作)(QA任务)。 一个好的工作站,可以并行运行十二个或两个浏览器-输出结果非常糟糕,快速脱粒。

悬停一个虚拟机的“绅士风度”-4个虚拟机,无限制的流量,每个虚拟机上有4个处理器,8 GB内存,Windows Server ...到目前为止,对于每一批有条件的50个站点而言,就足够了-您需要自己的虚拟机。 但这很大程度上取决于网站本身。 Visual Studio还具有System.Net,它实际上使用Windows中安装的Internet Explorer。 它也可以。

“如何保护自己的思想(免受解析)? 没办法,我们还是会爬行”


不断地向我们抛出分析业务想法,谈论我们的业务的想法。

  1. 与许多SEO服务一样,发出Yandex解析。 “对此有更多的需求,更多的钱。 没错,他们基本上出售了整个SEO分析系统。” 但是我们不解析发行-我们没有要求,在100个请求之后将立即提供验证码,我们需要干净的代理,但很难获得或昂贵的代理,它的利润不那么高...当然,要发挥大的角色远非易事,读者会与我们同在分享(我们自己不会解析Google和Yandex)。 根据经验,Yandex,Google和类似的大型公司在数据中心的子网中具有一定的基础(毕竟,代理数据库已更新,大型参与者进行了订阅和禁止)。 因此,在发布到数据中心的IP地址处建立的代理网络完全可以通过发布验证码和其他功能来完全禁止。 结果,只有从僵尸网络所有者那里购买代理和类似的“污垢”的非法选择,在这种情况下,您将拥有真实的用户ip。 即便如此,此类公司确实需要您在可以跟踪您的网站(例如,点击数)上“结算” cookie,并且已经“抓取”了一段时间。 但是,它们如何区分解析器和睡眠区中的NAT? 有条件的100个请求完全没有。
  2. 避免解析:从考虑中消除“伟大而可怕”,我们将专注于我们“凡人”。 如果有人从事解析,那么必须有人试图阻止他们这样做。 与有生命的人一起玩更有趣:竞争的元素出现了,双方都试图胜过对方。 而且,由于没有人仍然打算手动收集信息,因此他们扮演谁将使该机器人与在世人员最相似,谁将能够更有效地识别这些机器人,同时继续响应真实用户的请求-该网站旨在帮助企业,我们对此感到排斥。 并且,在业务效率任务框架内,人们只能考虑合理分配资源以及为分析和应对资源而采取的措施的获利能力:

    • 您无法保护自己免遭解析(“学生”除外),但是您可以增加花在该上面的门槛(时间和金钱)。 因此,我们保护的数据(站点的多个部分)更容易解析,而不是解析,而是去购买现成的数据库,就像我们购买它一样。 网络上有解析器IP地址表,在入口处显示对此列表的验证码不是问题。 同样,生成id和class(如mail.ru一样)也不是问题,并且不需要任何大笔费用。 来自Google的新验证码通常可以非常准确地确定是否是机器人。 如果有怀疑,将用户驱散并要求提供验证码很简单。 最后,没有人因为抓到机器人而取消了HoneyPot诱饵。 好吧,经典,请替换文字中的字母,制作遮罩等。
    • 在这里,我们将反对自己:也许,单独地,所有这些都无济于事,但所有这些共同会使您的生活变得如此复杂,以至于变得不合时宜。 而且,所有这些技术通常不需要大量的花费。 的确,所有这些技术都花费很多,因此实质上没有保护。 动态代理,可识别印第安人验证码的服务以及具有明确定义的动作算法的硒。 所有可以实现的-解析器的开发将花费更多,这可能会吓跑一个人,但是如果目标站点不是“角和蹄”本地办公室的一个半页目录,那么很少有人会对成本增加感到恐惧。
    • 进行辩护时,通常要使用真实访客的典型行为模型,以及能够充分识别“白色”机器人(Yandex,Google等)的系统。 为了适应真正的访客,您需要了解一组标准的过渡地图。 然后解析时仅使用一个简单的代理池是不够的。 该系统不能100%保护您,但可以解决任务-根据查看统计信息,您可以了解何时扫描整个站点。 解析器或搜索引擎都可以这样做。 但是搜索引擎会响应robots.txt,但解析器不会。

“哦,哇。 如果所有人都明智地做所有事情……我认为失业人数会增加十倍。 足够您的年龄了。”

“我是否环保? 是的,但徒劳无功”


  1. 在道德和伦理层面上,对问题的审议涉及与解析的技术和法律方面均相关的重要点。 robots.txt文件简洁明了,名称象征性,我们的读者和我们用不同的方式解释:

    • 您作为机器人的“驱动程序”的活动完全是“道德的”,与您的机器人遵循您所访问站点的robots.txt的程度一样。 不是基于“产品页面无法关闭”形式的假设,而是在所请求的URL上实际使用了允许和禁止掩码。 缺少robots.txt-以您的要求进行解释; 目前,但您违反了它-绝对是您在恶意使用该网站。 当然,robots.txt没有法律效力,但是,如果您真的“烘焙”了它,那么它肯定会被律师通过并不是事实。”
    • 尽管无法与机器人进行谈判,但有时比与人进行谈判更容易,因为在商店里他们悬挂着“禁止拍照”的标志,这是违法的。 而且不道德。 “就是这样的传统。 robots.txt是一种技术。 这与道德无关。 如果要表明您不想进行解析,请进行如下所示的部分:account.habr.com/info/agreement。 我不知道这样的限制是否合法,但是至少您可以用人类语言在那里表达您的愿望(或提及robots.txt),然后您可以谈论道德。” 我们的律师反驳说:“这种限制绝不是合法的。”
    • 我们同时考虑解析和信息的进一步使用。 “ Robots.txt与解析无关,而与进一步发布(例如,在搜索结果中)有关。 如果您不希望任何人接收数据,则应限制可以看到数据的人的圈子。 如果窗户上没有窗帘,则不要裸身。 望窗外丑陋的是故意的,但没有窗帘是什么呢?”
    • 解析伦理是中立的。 使用获得的信息可能是不道德的。 一般而言,纯粹从道德角度而言,每个人都有权获得非私人或特殊性质且不受法律保护的公共信息。 价格肯定是公共信息。 也有描述。 说明可能受版权保护,未经允许不得发布。 但是,即使我将解析站点并创建自己的公共站点,也不会违反任何道德规范,这将反映价格动态和竞争对手的比较。 它提供了对社会有用的信息,甚至具有道德意义。”
  2. “可以组装手,但是不能解析机器人。” 任何具有尽职调查和技巧的“邪恶”都可以辩解,甚至可以更合理地进行解析-尤其是因为有活生生的例子说明了如何正确地使用它,因此我们引用读者的话:“我很久以前就从事解析,但是我总是问进行完全合法和道德正确的解析。 中间商几次要求解析批发商(出售其商品),批发商本人并不介意,但不打算投资API的开发(或者由于技术原因而无法投资); 曾经有一家中国商店的中介要求整合,但是那里的中国商店的api太烂了,局限了,部分原因是有必要进行信息解析。 该网站和论坛的作者和所有者曾经想从“限制”数据库的免费网站进行迁移; 他还整合了文学竞赛网站及其论坛,以便在添加新故事时,论坛上的主题会自动出现(由于技术原因,否则无法完成)。”

“律师打过电话吗? 引用无法解析“


无论您选择哪一方来决定权力的来源:金钱还是真理-显而易见的是,在哪里开始找到金钱的地方,找到真理变得越来越困难。 在讨论超出本文讨论范围的获取一切事物的可能性时,包括法律本身及其代表,我们将考虑注释中提出的一些法律方面:

  1. “从偷窥到盗窃是一步。” 我们的读者认为,即使允许所有不被禁止的事物,“窥探钥匙孔至少也是丑陋的,如果客户随后还散发了自己的零星产品,那么这就是直接盗窃。 当然,很明显,在业务中每个人都这样做。 但是在一个体面的社会中,对此保持沉默是惯例。” 但是,正如他们所说,为某人解析并以他们自己的方式传播稀疏是两个很大的区别:“您将软和冷混淆了。 我们确实提供解析服务。 但这完全可以用同样的方式责怪制造商(例如武器)杀死他。 我们做生意,但是在生意上有一个规则-是否合法。 我的意思是...如果客户来找我们并且愿意花很多钱来获取数据,那真的很糟糕...”
  2. “为媒体网站提出了申请-被投诉。” 福布斯网站,Google Play上的解析,应用程序-可能出什么问题了? “一次,我决定为《福布斯》网站提出申请。 从网站获取文章-解析页面。 我以自动模式配置了所有内容,并为Android开发了一个应用程序。 我已将应用程序发布到市场上。 一年后,由于我侵犯了版权,律师联系了我,并要求删除该应用程序。 我没有争论。 很遗憾,《福布斯》本身没有该站点上自己的文章应用程序。 只有一个站点。 他们的网站运行缓慢,加载时间很长,并充满了广告……”
  3. “我的数据库是我受保护的工作!” 版权是另一个可以用于十几页讨论的概念(除了成千上万的现有讨论),但更不用说它也是错误的。 我们的读者提出了一个概念:“有人创建了商品数据库。 在寻找信息,系统化信息,将数据放入数据库中花费了大量资源。 应竞争对手的要求,您正在解析此基础并将其提供给同一竞争对手以获取金钱。 您认为没有道德问题吗? 关于法治,我不知道俄罗斯联邦的情况如何,但在乌克兰,数据库可能受版权保护。”

    但是,使用服务或产品的责任仍然取决于谁获得服务或出于什么目的:“ ...在俄罗斯也是如此。 我们提供数据收集服务。 为此服务,我们要钱。 我们不会自行出售数据。 “顺便说一句,我警告所有客户,如果他们使用描述,他们可能会违反法律。”
  4. “从表面上看,您是对的,但我发现了一篇关于您的文章!” 俄罗斯联邦《刑法》(第146条)仅描述了将版权侵权归类为“刑事犯罪”的侵犯程度。 权利本身在《民法典》中进行了描述,并且该行为在多大程度上被归类为“刑事”,定期解析,因此出现了“该场地将倒塌”的问题,毫无疑问地得以延伸。 但是方面很重要:

    • 在那里,“大尺寸”不是在解析的页面数中,而是金钱。 您如何将解析(及其规律性)视为侵犯版权(!)的金钱形式? 在这种情况下通常如何做?从每部电影的副本中可以罚款数十万美元? 用相应的系数计算“亏损利润”。 - — «». , , ( ), «». : , -? , .
    • ( . : — 30 , — 1000, « », ). , ? , « ».

: «— ? — . — , . «» — .»

, xmldatafeed.com

Source: https://habr.com/ru/post/zh-CN450834/


All Articles