pagerank 订阅
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。 展开全文
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
信息
外文名
google pagerank
开发公司
美国Google
中文名
网页排名
性    质
计算机领域的算法
google pagerank概念
PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。PageRank将对页面的链接看成投票,指示了重要性。
收起全文
精华内容
下载资源
问答
  • PageRank

    2019-12-22 11:17:37
    PageRank1 PageRank1.1 算法原理1.2 线代法求解Reference 1 PageRank rank(排序学习) 有 pageRank、Learning To Rank(LTR)等 rank类型pointwise pairwise listwise三者区别 1.1 算法原理 PageRank公式推导 详解...

    1 PageRank

    rank(排序学习) 有 pageRank、Learning To Rank(LTR)等
    rank类型pointwise pairwise listwise三者区别

    1.1 算法原理

    PageRank公式推导 详解PageRank:随机游走模型一
    迭代法求解出最终页面评分 PageRank算法原理与实现

    PR(A)=(1d)1N+d(PR(T1)1C(T1)++PR(Tn)1C(Tn)) PR(A)=(1-d)\frac{1}{N}+d\left( PR({{T}_{1}})\frac{1}{C({{T}_{1}})}+\cdots +PR({{T}_{n}})\frac{1}{C({{T}_{n}})} \right)
    PR(A)PR(A) 页面A的PRPR
    PR(Ti)PR({T_i}) 页面TiT_iPRPR值,在这里,是页面TiT_i在指向AA的所有页面中的某个页面
    C(Ti)C(T_i) 页面TiT_i的出度(从TiT_i链接出页面的个数)
    dd 阻尼系数,其意义是,在任何时刻,用户到达某页面后并继续向后浏览的概率,该数值是根据上网者使用浏览器书签的平均频率估算而得,通常d=0.85d=0.85

    1.2 线代法求解

    在这里插入图片描述
    图解释:A点有两条出路径到B和C点(概率各取1/2),B点只有一条路径到C(概率全为1),其他类推,则得到该网络的转移矩阵:
    M=[A?B?C?A001B1/200C1/210]=[0011/2001/210] M=\left[ \begin{matrix} {} & A\to ? & B\to ? & C\to ? \\ A & 0 & 0 & 1 \\ B & 1/2 & 0 & 0 \\ C & 1/2 & 1 & 0 \\ \end{matrix} \right]\text{=}\left[ \begin{matrix} 0 & 0 & 1 \\ 1/2 & 0 & 0 \\ 1/2 & 1 & 0 \\ \end{matrix} \right]
    则可将上面的公式进一步推导为:
    PRt+1=(1d)1N+dMPRt PR_{t+1}=(1-d)\frac{1}{N}+d*M\cdot PR_t
    采用线性代数法,直接求PRtPR_t,得到:
    PRt=(1d)1N+dMPRt PR_{t}=(1-d)\frac{1}{N}+d * M\cdot PR_t
    于是( 令PRPRRR ):
    (EdM)R=(1d)nER=(EdM)11dnE (E-dM)R=\frac{(1-d)}{n}E \\ \\ R={{(E-d M)}^{-1}}\frac{1-d}{n}E
    则当0<d<10<d<1时,如上方程解存在且唯一,这样(EdM)1{{(E-d M)}^{-1}}是逆矩阵就成立啦。幕法求解不作介绍。

    Reference

    李航.机器学习
    详解PageRank:随机游走模型一
    PageRank算法原理与实现
    pointwise pairwise listwise三者区别

    展开全文
  • pagerank

    2019-09-04 00:05:33
    Pagerank介绍 PageRank算法以前就是Google的网页排序算法。PageRank算法,对每个目标网页进行附上权值,权值大的就靠前显示,权值小的就靠后显示。PageRank算法就是给每个网页附加权值的。PageRank算法借鉴学术界...

    一. Pagerank介绍
    PageRank算法以前就是Google的网页排序算法。PageRank算法,对每个目标网页进行附上权值,权值大的就靠前显示,权值小的就靠后显示。PageRank算法就是给每个网页附加权值的。PageRank算法借鉴学术界论文重要性的评估方法:谁被引用的次数多,谁就越重要。
    注:PageRank算法不单单是按照“被索引数”来给网页付权值的,用PR值表示每个网页被PageRank算法附加的权值。

    二. PageRank算法的核心细想
    (1)如果一个网页被很多其他网页链接到的话,说明这个网页比较重要,也就是PageRank值会相对较高
    (2)如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高

    三. 基本概念
    (1)出链

    如果在网页A中附加了网页B的超链接B-Link,用户浏览网页A时可以点击B-Link然后进入网页B。上面这种A附有B-Link这种情况表示A出链B。可知,网页A也可以出链C,如果A中也附件了网页C的超链接C-Link。

    (2)入链

    上面通过点击网页A中B-Link进入B,表示由A入链B。如果用户自己在浏览器输入栏输入网页B的URL,然后进入B,表示用户通过输入URL入链B

    (3)无出链

    如果网页A中没有附加其他网页的超链接,则表示A无出链

    (4)只对自己出链

    如果网页A中没有附件其他网页的超链接,而只有他自己的超链接A-Link,则表示A只对自己出链

    (5)PR值

    一个网页的PR值,概率上理解就是此网页被访问的概率,PR值越高其排名越高。

    四. 几种网页出入链关系
    case1:网页都有出入链

    case1


    此种情况下的网页A的PR值计算公式为:

     

    case2:存在没有出链的网页

     

    case2

     

    网页C是没有出链。因为C没有出链,所以对A,B,D网页没有PR值的贡献。PageRank算法的策略:从数学上考虑,为了满足Markov链,设定C对A,B,C,D都有出链(也对他自己也出链~)。你也可以理解为:没有出链的网页,我们强制让他对所有的网页都有出链,即让他对所有网页都有PR值贡献。
    此种情况PR(A)的计算公式:

     

    case3:存在只对自己出链的网页

     

    case3

     

    C是只对自己出链的网页。

    此时访问C时,不会傻乎乎的停留在C页面,一直点击C-Link循环进入C,即C网页只对自己的网页PR值有贡献。正常的做法是,进入C后,存在这种情况:在地址输入栏输入A/B/C/D的URL地址,然后跳转到A/B/C/D进行浏览,这就是PageRank算法解决这种情况的策略:设定存在一定概率为α,用户在地址栏输入A/B/C/D地址,然后从C跳转到A/B/C/D进行浏览。
    此时PR(A)的计算公式为:

     

    五. 算法公式
    一般情况下,一个网页的PR值计算公式为:


    注:Mpi是有出链到pi的所有网页集合,L(pj)是有网页pj的出链总数,N是网页总数,α一般取值为0.85

     

    所有网页PR值一直迭代计算,停止直到下面两种情况之一发生:每个网页的PR值前后误差小于自定义误差阈值,或者迭代次数超过了自定义的迭代次数阈值

    六. PageRank算法的缺点
    这是一个天才的算法,原理简单但效果惊人。然而,PageRank算法还是有一些弊端。

    第一,没有区分站内导航链接。很多网站的首页都有很多对站内其他页面的链接,称为站内导航链接。这些链接与不同网站之间的链接相比,肯定是后者更能体现PageRank值的传递关系。

    第二,没有过滤广告链接和功能链接(例如常见的“分享到微博”)。这些链接通常没有什么实际价值,前者链接到广告页面,后者常常链接到某个社交网站首页。

    第三,对新网页不友好。一个新网页的一般入链相对较少,即使它的内容的质量很高,要成为一个高PR值的页面仍需要很长时间的推广。

    针对PageRank算法的缺点,有人提出了TrustRank算法。其最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站。TrustRank算法的工作原理:先人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TR值也高,与“种子”页面的链接越远,页面的TR值越低。“种子”页面可选出链数较多的网页,也可选PR值较高的网站。

    TrustRank算法给出每个网页的TR值。将PR值与TR值结合起来,可以更准确地判断网页的重要性。

    补充:
    谷歌用PR值来划分网页的等级,有0~10级,一般4级以上的都是比较好的网页了。谷歌自己PR值为9,百度也是9,博客园的PR值则为6。

    如今PR值虽不如以前重要了(没有区分页面内的导航链接、广告链接和功能链接导致PR值本身能够反映出的网页价值不精确,并且对新网页不友好),但是流量交易里PR值还是个很重要的参考因素。

    展开全文
  • Pagerank

    2019-08-12 20:18:39
    PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。 主要思想:...

          PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。

    主要思想:  常言道,看一个人怎样,看他有什么朋友就知道了。也就是说,一个人有着越多牛X朋友的人,他是牛X的概率就越大。将这个知识迁移到网页上就是“被越多优质的网页所指的网页,它是优质的概率就越大”。

          一个网页的Pagerank计算如下,其中R(j)是第j个指向它的网页的Pagerank,N(j)是第j个指向它网页所指向的全部网页数,C是一个系数。

          计算网页的Pagerank时,实际是通过“幂法”计算矩阵的按模为最大的特征值和相应的特征向量,因此网页的Pagerank和计算时设定的初始值无关,但此时应加入逃脱因子E(i)来跳出网页之间的链接的死循环来避免特征值和特征向量的不收敛。

    优点: 1)是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。

    缺点: 1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低

              2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。

     

     

    参考文献:http://www.cnblogs.com/FengYan/archive/2011/11/12/2246461.html

    转载于:https://www.cnblogs.com/maxiaoxin/p/3626935.html

    展开全文
  • pageRank

    2016-01-27 15:51:32
    结合实例告诉大家PageRank是怎么工作的


    早起的搜索引擎是基于信息检索的,但是后来人们发现,只是根据相似度来返回用户需要的内容,效果不是很好。于是提出了Hyperlinks的思想。
    其中两个比较经典的算法是PageRank和HITS。而Google就是靠着PageRank发家致富。下面结合实例让大家知道PageRank是怎么工作的。

    pagerank,顾名思义,就是为每一个网页计算出一个值,按照这个值来给网页排序,值一般就是1-10,值越大,表示网页越重要。

    pagerank有两个思想:越多的网页指向自己,说明自己越重要;网页的重要性不同,指向的权值也不一样。

    有些网页不指向其他网页,为了解决这个问题,提出了一个阻尼系数q,表示继续往下浏览的概率,一般取0.85 。

    如果没有q的存在,A矩阵直接就可以用概率转置矩阵。

    不断地进行AX=R迭代,直到R收敛(基本保持不变)。

    R向量中的每一个值都表示一个网页的最终的pagerank值。

    x表示每个网页初始的pagarank值,一般设为1 。




    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,067
精华内容 1,626
关键字:

pagerank