今天南昌网络公司-南昌莫非传媒带大家来讨论一个名词(Hilltop),这是将来搜索引擎的排名算法重要参考标准之一。Hilltop算法是由Krishna Baharat 研究的,于2001年申请专利,但是有很多朋友以为Hilltop算法是由谷歌研究的。只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师,然后授权给Google使用的。
什么是Hilltop算法
HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“SEO”相关知识的,有10个链接都是从“SEO”相关的网站链接过来,那这10个链接比另外10个从“家电、物流”等网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。
与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中, HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的做弊方法。
HillTop算法就尝试矫正这种由外部链接提升(PR值)或排名的漏洞。HillTop算法同样是计算链接关系,只不过它更关注来自主题与自己网站相关度更高的链接权重。在HillTop算法中把这种主题相关页面称为专家文件,显然针对不同主题或搜索词有不同的专家文件。
据以上对HillTop算法的一些介绍,不难看出HillTop算法更看中链接的相关性。而搜索引擎也努力往用户体验方面去进化,所以HillTop算法的重要性很有可能会超越PR值。下面我们来简单的分析一下:
HillToP算法基本过程可以分为两步:首先,根据查询寻找“专家网页”,专家网页是关于一定主题、指向许多非隶属网页、其中至少有一个短语包含查询关键词的网页。其次,给顶部专家网页链向的目标网页打分,这个过程综合了它与所有相关专家网页的链接关系。基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,目前,Google首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先级。
作为对原始PageRank算法的补充,Hilltop算法具有以下优点:与原始的PageRank相比,Hilltop是主题灵敏的,通过来自“权威性”文挡的链接来确定网页的可信度。对于具有同样主题、PR相近的网页排序,HillTop算法显得非常重要。与以购买离题链接而获得高排名相比,这更难以人为操作。Hilltop解决了这个问题,随意性链接已经失去往日的作用,即使仍有一定的价值,但与来自于专家网站的链接相比,不能相提并论。Hilltop与Trust Rank相似,但更加自动化。它依赖于专家文档和源于这些文档的链接,如X链接到Y,Y链接到Z,那么X和Z也相关。
然而,Hiltop在应用中还存在如下一些问题:专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。Hiltop忽略了大多数非专家页面的影响。在Hiltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。Hiltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hiltop适合于对查询排序进行求精,而不能覆盖。这意味着 Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的HITS算法一样会影响查询响应时间。随着专家页面集合的增大,算法的可伸缩性存在不足之处。