pagerank 订阅
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。 展开全文
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
信息
外文名
google pagerank
开发公司
美国Google
中文名
网页排名
性    质
计算机领域的算法
google pagerank概念
PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。PageRank将对页面的链接看成投票,指示了重要性。
收起全文
精华内容
下载资源
问答
  • PageRank

    2019-04-09 10:14:13
    为了衡量网页的重要性,pagerank是一种基于网络图计算每个页面的排名的方法。 通常来说高连接的页面比少连接的页面更重要。 pagerank的直观描述:一个页面有高rank如果它的反向链接的rank和是高的。这包括两种情况...
    1.  
    2. 为了衡量网页的重要性,pagerank是一种基于网络图计算每个页面的排名的方法。
    3. 通常来说高连接的页面比少连接的页面更重要。
    4. pagerank的直观描述:一个页面有高rank如果它的反向链接的rank和是高的。这包括两种情况,一个页面有很多反向链接和一个页面有一些高rank的反向链接
    5.  以上是一个简单的ranking定义
    6. 随机游走模型,“random surfer”简单地随机点击持续的链接,当进入一个网页的小循环时,不可能永远循环下去,所以就会跳到其他页面,额外的因子E可以被视作一种定义这种行为的方式:surfer阶段性地“gets bored”并且根据E的分布跳到一个随机的页面。
    7. S是网页的任何向量,d因子增长了收敛的速度和维持||R1||。一个可选的标准化是用适当的因子乘以R。d的使用可能对E有一个小的影响。
    8. Dangling Links
    9. 这个模型的一个问题是悬空链接。悬空链接只是指向没有传出链接的任何页面的链接。他们影响模型是因为他们的权重无法分配,而且他们有很多。这些悬空链接通常只是我们尚未下载的页面,因为很难对整个web进行抽样(在我们目前下载的2400万个页面中,有5100万个url尚未下载,因此是悬空的)。因为悬空链接不直接影响其他其他页面的ranking,我们只需将它们从系统中删除,直到计算出所有的pagerank。在所有的pagerank

      计算完成后,他们可以添加回来,不会产生大的影响。

    10. Implementation
    11. 我们已经建立了一个完整的爬行和索引系统,目前代表2400万个网页.任何web爬虫都需要保存一个url数据库,以便能够发现web上的所有url.要实现PageRank, web爬虫只需要在爬

      虫时构建链接索引。

      我们将每个URL转换为一个惟一的整数,并使用该整数将每个hyperlink存储在数据库中

      标识页面的id。首先,我们按父ID对链接结构进行排序。然后从链接数据库中删除悬空链

      接,原因已经讨论过(经过几次迭代,删除了大量悬空链接).我们需要对rank进行初步分配。这项任务可以由几种策略中的一种来完成。如果它将迭代直到收敛,通常初值不会影响最后的值,仅仅影响收敛速度。但我们可以通过初始赋值来加快收敛速度。我们相信小心地选择初始值和有限数量的迭代可以产生优良的或改进的性能。

      内存是为每个页面的权重而设置的。在权重趋于一致之后,我们将悬空链接添加回来并重新计算排名。注意,在添加悬空链接之后,我们需要重复删除悬空链接所需的次数。否则,一些悬空链接的权重将为零。收敛准则越宽松,优化程度越高,计算速度越快。或者更有效地估计特征向量的技术可以用于提升表现。与构建全文索引所需的成本相比,计算

      pagerank的成本是不重要的。

    12. Convergence Properties一个图上的随机游走是一个随机的过程,在任何给定的时间步长,我们都在图中一个特定的节点,随机选择一个出边在下一次步长决定访问的节点。一个图被称为扩展器如果节点S的每个子集有一个邻居大于某些因子α乘|S|;这里α叫做拓展因子。一个图有好的扩展因子仅当最大特征值充分地大于第二大的特征值。图上的随机游走被称作快速混合如果它快速地收敛到一个受限的分布在图上的节点集合。将所有这些与pagerank计算关联起来,注意到它本质上是决定在网络图中随机游走的极限分布。事实是pagerank计算在对数时间内结束,这相当于随机游走是快速混合,基本图有一个好的扩展因子。
    13.  
    14.  

    展开全文
  • pagerank

    2019-09-04 00:05:33
    Pagerank介绍 PageRank算法以前就是Google的网页排序算法。PageRank算法,对每个目标网页进行附上权值,权值大的就靠前显示,权值小的就靠后显示。PageRank算法就是给每个网页附加权值的。PageRank算法借鉴学术界...

    一. Pagerank介绍
    PageRank算法以前就是Google的网页排序算法。PageRank算法,对每个目标网页进行附上权值,权值大的就靠前显示,权值小的就靠后显示。PageRank算法就是给每个网页附加权值的。PageRank算法借鉴学术界论文重要性的评估方法:谁被引用的次数多,谁就越重要。
    注:PageRank算法不单单是按照“被索引数”来给网页付权值的,用PR值表示每个网页被PageRank算法附加的权值。

    二. PageRank算法的核心细想
    (1)如果一个网页被很多其他网页链接到的话,说明这个网页比较重要,也就是PageRank值会相对较高
    (2)如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高

    三. 基本概念
    (1)出链

    如果在网页A中附加了网页B的超链接B-Link,用户浏览网页A时可以点击B-Link然后进入网页B。上面这种A附有B-Link这种情况表示A出链B。可知,网页A也可以出链C,如果A中也附件了网页C的超链接C-Link。

    (2)入链

    上面通过点击网页A中B-Link进入B,表示由A入链B。如果用户自己在浏览器输入栏输入网页B的URL,然后进入B,表示用户通过输入URL入链B

    (3)无出链

    如果网页A中没有附加其他网页的超链接,则表示A无出链

    (4)只对自己出链

    如果网页A中没有附件其他网页的超链接,而只有他自己的超链接A-Link,则表示A只对自己出链

    (5)PR值

    一个网页的PR值,概率上理解就是此网页被访问的概率,PR值越高其排名越高。

    四. 几种网页出入链关系
    case1:网页都有出入链

    case1


    此种情况下的网页A的PR值计算公式为:

     

    case2:存在没有出链的网页

     

    case2

     

    网页C是没有出链。因为C没有出链,所以对A,B,D网页没有PR值的贡献。PageRank算法的策略:从数学上考虑,为了满足Markov链,设定C对A,B,C,D都有出链(也对他自己也出链~)。你也可以理解为:没有出链的网页,我们强制让他对所有的网页都有出链,即让他对所有网页都有PR值贡献。
    此种情况PR(A)的计算公式:

     

    case3:存在只对自己出链的网页

     

    case3

     

    C是只对自己出链的网页。

    此时访问C时,不会傻乎乎的停留在C页面,一直点击C-Link循环进入C,即C网页只对自己的网页PR值有贡献。正常的做法是,进入C后,存在这种情况:在地址输入栏输入A/B/C/D的URL地址,然后跳转到A/B/C/D进行浏览,这就是PageRank算法解决这种情况的策略:设定存在一定概率为α,用户在地址栏输入A/B/C/D地址,然后从C跳转到A/B/C/D进行浏览。
    此时PR(A)的计算公式为:

     

    五. 算法公式
    一般情况下,一个网页的PR值计算公式为:


    注:Mpi是有出链到pi的所有网页集合,L(pj)是有网页pj的出链总数,N是网页总数,α一般取值为0.85

     

    所有网页PR值一直迭代计算,停止直到下面两种情况之一发生:每个网页的PR值前后误差小于自定义误差阈值,或者迭代次数超过了自定义的迭代次数阈值

    六. PageRank算法的缺点
    这是一个天才的算法,原理简单但效果惊人。然而,PageRank算法还是有一些弊端。

    第一,没有区分站内导航链接。很多网站的首页都有很多对站内其他页面的链接,称为站内导航链接。这些链接与不同网站之间的链接相比,肯定是后者更能体现PageRank值的传递关系。

    第二,没有过滤广告链接和功能链接(例如常见的“分享到微博”)。这些链接通常没有什么实际价值,前者链接到广告页面,后者常常链接到某个社交网站首页。

    第三,对新网页不友好。一个新网页的一般入链相对较少,即使它的内容的质量很高,要成为一个高PR值的页面仍需要很长时间的推广。

    针对PageRank算法的缺点,有人提出了TrustRank算法。其最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站。TrustRank算法的工作原理:先人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TR值也高,与“种子”页面的链接越远,页面的TR值越低。“种子”页面可选出链数较多的网页,也可选PR值较高的网站。

    TrustRank算法给出每个网页的TR值。将PR值与TR值结合起来,可以更准确地判断网页的重要性。

    补充:
    谷歌用PR值来划分网页的等级,有0~10级,一般4级以上的都是比较好的网页了。谷歌自己PR值为9,百度也是9,博客园的PR值则为6。

    如今PR值虽不如以前重要了(没有区分页面内的导航链接、广告链接和功能链接导致PR值本身能够反映出的网页价值不精确,并且对新网页不友好),但是流量交易里PR值还是个很重要的参考因素。

    展开全文
  • Pagerank

    2019-08-12 20:18:39
    PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。 主要思想:...

          PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。

    主要思想:  常言道,看一个人怎样,看他有什么朋友就知道了。也就是说,一个人有着越多牛X朋友的人,他是牛X的概率就越大。将这个知识迁移到网页上就是“被越多优质的网页所指的网页,它是优质的概率就越大”。

          一个网页的Pagerank计算如下,其中R(j)是第j个指向它的网页的Pagerank,N(j)是第j个指向它网页所指向的全部网页数,C是一个系数。

          计算网页的Pagerank时,实际是通过“幂法”计算矩阵的按模为最大的特征值和相应的特征向量,因此网页的Pagerank和计算时设定的初始值无关,但此时应加入逃脱因子E(i)来跳出网页之间的链接的死循环来避免特征值和特征向量的不收敛。

    优点: 1)是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。

    缺点: 1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低

              2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。

     

     

    参考文献:http://www.cnblogs.com/FengYan/archive/2011/11/12/2246461.html

    转载于:https://www.cnblogs.com/maxiaoxin/p/3626935.html

    展开全文
  • pageRank

    2016-01-27 15:51:32
    结合实例告诉大家PageRank是怎么工作的


    早起的搜索引擎是基于信息检索的,但是后来人们发现,只是根据相似度来返回用户需要的内容,效果不是很好。于是提出了Hyperlinks的思想。
    其中两个比较经典的算法是PageRank和HITS。而Google就是靠着PageRank发家致富。下面结合实例让大家知道PageRank是怎么工作的。

    pagerank,顾名思义,就是为每一个网页计算出一个值,按照这个值来给网页排序,值一般就是1-10,值越大,表示网页越重要。

    pagerank有两个思想:越多的网页指向自己,说明自己越重要;网页的重要性不同,指向的权值也不一样。

    有些网页不指向其他网页,为了解决这个问题,提出了一个阻尼系数q,表示继续往下浏览的概率,一般取0.85 。

    如果没有q的存在,A矩阵直接就可以用概率转置矩阵。

    不断地进行AX=R迭代,直到R收敛(基本保持不变)。

    R向量中的每一个值都表示一个网页的最终的pagerank值。

    x表示每个网页初始的pagarank值,一般设为1 。




    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 19,094
精华内容 7,637
关键字:

pagerank