Web 2.0时代的页面排名-第1部分

图片
举行选举是为了找出谁的选举预测结果更为准确。 (c)罗伯特·奥本
要评估Google对搜索引擎发展的贡献,您需要搬迁大约20年前。 在那些动荡的时期,Internet上的信息量比现在少了数百倍,但是搜索正确的信息要困难得多。 用户可能会在搜索引擎网站上花费很长时间,试图对搜索引擎提出不同的查询,但仍然无法获得所需的结果。 甚至有一些机构提供金钱搜索服务。 在搜索引擎出现之初,页面的重要性由许多主观因素决定,例如html标记,术语数,标题和页面上字体的粗体性。 经常出现的是,特别创建的页面或原始页面的副本充满了必要的标题和术语,位于顶部。 而且,从人的角度来看,它绝对没有意义,但是在搜索引擎中的评价很高。

1997年,斯坦福大学的两名学生提出了著名的Page Rank算法。 实际上,这是罕见的情况,因为工程师跳出了长期的沼泽,找到了一种简单而优雅的解决方案,该解决方案只需一步就可以解决问题,并预先确定CEO和搜索引擎之间的战斗结果将持续很多年。 Page Rank的本质是网络世界中的“民主”。 包含指向另一个站点的链接的站点上的每个页面都会对其进行“投票”。 因此,最常被引用的,权威的原始资源网站上升到了顶部。 网页排名有助于将最受欢迎的网站排在首位,例如,水中的气泡会根据大量不太受欢迎的网站的“意见”而弹出。 这种方案在2000年代初的生态系统中效果很好,在该生态系统中,小型Internet站点占据了主导地位,网站管理员和内容管理员参加了这些内容。 随着Web 2.0的出现,Internet用户本身成为Internet上的主要信息来源,从而改变了Internet。 首先,来自用户的大量信息流导致了数以百万计,有时甚至数以亿计的页面的巨大站点的出现。 其次,网站开始包含大量针对搜索引擎的非结构化和非自适应信息,大量的本地模因和语法错误。 一旦创建了主题,例如在论坛或博客上的某个标题下说,它就可以轻松移至另一个区域进行讨论。 在此类站点上进行搜索时,主要问题不是确定站点的权限,而是在站点本身内正确地对页面进行排名,因为现在成千上万的页面可能属于搜索查询范围。 当然,在这种情况下,网页排名不起作用,并且许多搜索引擎都使用“ Google之前”时代的技巧,例如分析标题,标签等。

在下一部分中,我将告诉您是否可以借助机器学习来解决此问题,以及如何使用站点上的搜索示例给出其独特的术语,从而在站点本身内对机器进行排名。

Source: https://habr.com/ru/post/zh-CN429902/


All Articles