精华内容
下载资源
问答
  • 第二章 Web搜索引擎工作原理和体系结构基本要求能够接受用户通过浏览器提交查询词或者短语,记作q。在一个可以接受时间内返回一个和用户查询匹配网页信息列表,记作L。注意:“可以接受时间”即是响应时间。...

    搜素引擎,应用软件系统,网络应用软件系统。三个功能模块,或说三个子系统:即网页搜集、预处理和查询服务。相互独立它们的工作形成了搜索引擎工作的三个阶段,通常分别由人工启动。
    第二章 Web搜索引擎工作原理和体系结构
    基本要求
    能够接受用户通过浏览器提交的查询词或者短语,记作q。在一个可以接受的时间内返回一个和用户查询匹配的网页信息列表,记作L。
    注意:
    “可以接受的时间”即是响应时间。保证秒级响应时间。
    “匹配”指的是网页中以某种形式包含q的内容。其中最简单、最常见的形式就是q在其中直接出现。
    “列表”,这蕴含这一种“序”。在绝大多数情况下,L是相当长的。不仅是因为Web的信息量大,也是由于搜索引擎的查询方式简单。简单意味着抽象;抽象意味着有更多的具体事务可能是它的体现。很多都没用。
    网页搜集
    工作方式,这个软件系统操作的数据不仅包括内容不可预测的用户查询,还要包括在数量上动态变化的海量网页,并且这些网页不会主动送到系统来,而是需要由系统去抓取。
    首先,考虑抓取时机:预先抓取搜集一批网页,而不是即时查询时去抓取。 那么这一批网页如何维护?两种考虑:
    定期搜集,每次搜集替换上一次的内容,我们称之为ie“批量搜索”。花销很大,因此通常两次搜集的间隔时间不会很短(例如早期天网的版本大约每3个月一次,Google在一段时间曾是28天来一次)。好处是系统实现比较简单,缺点是“时新性”(freshness)不高,还有重复搜集带来的额外带宽的消耗。
    增量搜集,开始搜集一批,往后只是(1)搜集新出现的网页,(2)搜集那些在上次搜集后有过改变的网页,(3)发现自从上次搜集后已经不再存在的网页,并从库中删除。由于除新闻网站外,许多网页的内容变化不是很经常的(有研究指出50%网页的平均生命周期大约50天),这样搜集量不会很大,于是每天可以启动搜集过程。

    这是系统网页数据库维护的基本策略。具体搜集过程中,如何抓取一篇篇的网页:“爬取”,看成“有向图”,集合S,遍历。真正的系统其实是多个“蜘蛛”同时在爬。这样可以搜集尽量重要的网页,研究表明,先宽搜索方式得到的网页集合比先深搜索得到的集合重要。向大型商业搜索引擎提交网址。
    预处理
    一个合适的数据结构是查询子系统工作的核心和关键。现行最有效的数据结构是“倒排文件”(inverted file);倒排文件是用文档中所含关键词作为索引,文档作为索引目标的一种数据结构(类似于普通书籍中,索引是关键词,书的页面是索引目标)。
    预处理主要包括四个方面:关键词的提取,“镜像网页”(网页内容完全相同,未加修改)或“转载网页”(near-replicas,主题内容基本相同但可能有一些额外的编辑信息等,转载网页也称为“近似镜像网页”)的消除,链接分析和网页重要程度的计算。
    关键词的提取
    对中文来说,就是要根据一个词典,用一个所谓“切词软件”,从网页中切出字典中所含的词语来。从效果和效率考虑,去掉没意义的词,称为“停用词”(stop Word)
    重复和转载页面的消除
    因为网页重复率太高,消耗资源和时间。
    链接分析
    网页重要程度的计算
    核心想法“被引用多的就是重要的”。Google创立核心技术PageRank就是这种思路。
    查询服务
    查询方式和匹配
    结果排序
    文档摘要
    体系结构

    搜苏引擎学习笔记-第二章 Web搜索引擎工作原理和体系结构 - 贝壳 - 大浪淘贝

     

    “控制器”大规模搜索引擎文档的提供网页数据,每天要搜集上百万网页,而且是持续进行,情况很复杂,核心是要综合解决效率、质量和“礼貌”的问题,这就是“控制器”的作用。
    所谓效率,就是如何利用尽量少的资源(计算机设备、网络带宽、时间)来完成预定的网页搜集量。由于网页之间的独立性,利用多台计算机同事做这项工作很不错。但这里要注意三点:第一,即是用一台计算机来搜集网页,也应该注意并发性的开发和利用。第二点,并不是设备越多越好。设备多带宽就会成为瓶颈。第三点,发生在网络的另一端,即服务方,它可能来不及提供所需的网页。
    将搜集活动过多的集中在几个网站上,或者在一小段时间里从一个网站抓取太多的网页还可能引起其他的严重后果,即所谓“礼貌”问题。不加控制的网页抓取给网站造成的现象有时候和制造拒绝服务(Denial of Servide, DoS)攻击的黑客造成的现象一样。
    所谓质量问题,指的是,在有限的时间内搜集有限的网页,希望它们尽量是比较重要的网页,或者说不漏掉那些很重要的网页。
    还有一个问题,就是要保证每个网页不被重复抓取。多次被抓取,遇到循环链接的情况,还会使爬取器陷死。解决这个问题的有效办法是使用两个表,unvisited_table和visited_table。前者包含尚未访问的URL,后者记录已经访问的URL。
    展开全文
  • Web搜索引擎工作原理和体系结构

    千次阅读 2015-11-03 15:51:01
    1、Web搜索引擎的基本要求搜索引擎是一个网络应用软件系统,如下图所示,对它有如下基本要求。 能够接受用户通过浏览器提交的查询词或者短语,记作q,例如“大数据”,“Spark”等等。 在一个可以接受的时间内返回...

    1、Web搜索引擎的基本要求

    搜索引擎是一个网络应用软件系统,如下图所示,对它有如下基本要求。
    能够接受用户通过浏览器提交的查询词或者短语,记作q,例如“大数据”,“Spark”等等。
    在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表,记作L。这个列表的每一条目至少包含三个元素(标题,网址链接,摘要)。
    示意图:
    搜索引擎示意图

    可以接受的时间”,也就是响应时间,这个时间不能太长,通常也就在“秒”这个量级。这是衡量搜索引擎可用性的一个基本指标。
    更进一步的,这样的响应时间要求不仅要能满足单个用户查询,而且要能在系统设计负载的情况下满足所有的用户。也就是说,系统应该在额定吞吐率的情况下保证秒级响应时间。

    匹配”,指的是网页中以某种形式包含有q的内容,最简单最常见的形式就是q在其中直接出现。(当然,如果一个搜索引擎就是以百分之百满足这种简单的包含关系为目标,即使实现了也并不意味着达到了最好的效果。)

    列表”,就是一种序列(rank)。大多数情况下,L特别长,例如上万条数目等。这不仅是由于Web上的信息量大,也由于搜索引擎的查询方式简单。简单,意味着抽象;抽象,意味着有更多的具体事物可能是它的体现。
    有分析统计表明,用户平均察看返回结果不超过2页。
    现代大规模高质量搜索引擎一般采用下图三段式的工作流程,即:网页搜集、预处理和查询服务:

    三段式


    2、网页搜集

    大规模搜索引擎服务的基础应该是一批预先搜集好的网页,如何维护?

    1)定期搜集,每次搜集替换上一次的内容,我们称之为“批量搜集”。由于每次都是重新来一次,对于大规模搜索引擎来说,每次搜集的时间通常会花几周。而由于这样做开销较大,通常两次搜集的间隔时间也不会很短。这样做的好处是系统实现比较简单,主要缺点是“时新性”(freshness)不高,还有重复搜集所带来的额外带宽的消耗。

    2)增量搜集,开始时搜集一批,往后只是:
    (1)搜集新出现的网页
    (2)搜集那些在上次搜集后有过改变的网页
    (3)发现自从上次搜集后已经不再存在了的网页,并从库中删除。
    这样的系统表现出来的信息时新性就会比较高,主要缺点是系统实现比较复杂;这种复杂还不仅在于搜集过程,而是还在于建索引的过程。


    搜集方式:

    最常见的一种是所谓“爬取”:将Web上的网页集合看成是一个有向图,搜集过程从给定起始URL集合S开始,沿着网页中的链接,按照先深、先宽、或者某种别的策略遍历,不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的那些URL加入集合S。整个过程可以形象地想象为一个蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)。一般真正的系统其实是多个“蜘蛛”同时在爬。

    另外一种可能的方式是在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集直接基于这个集合。每搜到一个网页,如果它发生变化并含有新的URL,则将它们对应的网页也抓回来,并将这些新URL也放到集合S中;如果S中某个URL对应的网页不存在了,则将它从S中删除。这种方式也可以看成是一种极端的先宽搜索,即第一层是一个很大的集合,往下最多只延伸一层。

    还有一种方法是让网站拥有者主动向搜索引擎提交它们的网址,系统在一定时间内定向向那些网站派出“蜘蛛”程序,扫描该网站的所有网页并将有关信息存入数据库中。大型商业搜索引擎一般都提供这种功能。


    3、预处理

    一个合适的数据结构是查询子系统工作的核心和关键。这里只是指出:现行最有效的数据结构是“倒排文件”(inverted file);倒排文件是用文档中所含关键词作为索引,文档作为索引目标的一种结构
    下面讨论从网页集合形成这样的倒排文件过程中的几个主要问题,即我们所说的 “预处理”。主要包括四个方面,关键词的提取,“镜像网页”(网页的内容完全相同,未加任何修改)或“转载网页”(near-replicas,主题内容基本相同但可能有一些额外的编辑信息等,转载网页也称为“近似镜像网页”)的消除,链接分析和网页重要程度的计算。


    1、关键词的提取

    随便取一篇网页的源文件,我们可以看到其中的情况纷乱繁杂。除了我们从浏览器中能够正常看到的文字内容外,还有大量的HTML标记。根据天网统计,网页文档源文件的大小(字节量)通常大约是其中内容大小的4倍。另外,由于HTML文档产生来源的多样性,许多网页在内容上比较随意,不仅文字不讲究规范、完整,而且还可能包含许多和主要内容无关的信息。

    于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词

    对于中文来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所含的词语来。之后,一篇网页主要就由一组词来近似代表了,p = {t1, t2, …, tn}。
    一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现。从效果(effectiveness)和效率(efficiency)考虑,不应该让所有的词都出现在网页的表示中,要去掉诸如“的”,“在”等没有内容指示意义的词,称为“停用词”(stop word)。


    2、重复或转载网页的消除

    我们看到Web上的信息存在大量的重复现象。
    例如,一条新闻总是会有十多个不同的URL也给出相同或者基本相似的内容。这种现象对于广大的网民来说是有正面意义的,因为有了更多的信息访问机会。但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给我一个就够了”。

    因此,消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。


    3、链接分析
    前面提到,大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。

    HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。


    4、 网页重要程度的计算
    搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个问题。

    如何讲一篇网页比另外一篇网页重要?

    人们参照科技文献重要性的评估方式,核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链在网页之间体现得非常好。
    除此以外,人们还注意到网页和文献的不同特点,即一些网页主要是大量对外的链接,其本身基本没有一个明确的主题内容,而另外有些网页则被大量的其他网页链接。从某种意义上讲,这形成了一种对偶的关系,这种关系使得人们可以在网页上建立另外一种重要性指标。这些指标有的可以在预处理阶段计算,有的则要在查询阶段计算,但都是作为在查询服务阶段最终形成结果排序的部分参数。


    4、查询服务

    从一个原始网页集合S开始,预处理过程得到的是对S的一个子集的元素的某种内部表示,这种表示构成了查询服务的直接基础。

    对每个元素来说,这种表示至少包含如下几个方面:

     原始网页文档
     URL和标题
     编号
     所含的重要关键词的集合(以及它们在文档中出现的位置信息)
     其他一些指标(例如重要程度,分类代码等)

    而系统关键词总体的集合和文档的编号一起构成了一个倒排文件结构,使得一旦得到一个关键词输入,系统能迅速给出相关文档编号的集合输出。
    然而,用户通过搜索引擎看到的不是一个“集合”,而是一个“列表”。

    如何从集合生成一个列表,是服务子系统的主要工作。

    对服务子系统的要求和其工作原理,主要有三个方面:

    1、查询方式和匹配

    查询方式指的是系统允许用户提交查询的形式。考虑到各种用户的不同背景和不同的信息需求,不可能有一种普适的方式。一般认为,对于普通网络用户来说,最自然的方式就是“要什么就输入什么”。

    用一个词或者短语来直接表达信息需求,希望网页中含有该词或者该短语中的词,依然是主流的搜索引擎查询模式。
    这不仅是因为它的确代表了大多数的情况,还因为它比较容易实现。这样,一般来讲,系统面对的是查询短语。就英文来说,它是一个词的序列;就中文来说,它是包含若干个词的一段文字。
    一般地,我们用q0表示用户提交的原始查询,例如,q0 =“网络与分布式系统实验室”。它首先需要被“切词”(segment)或称“分词”,即把它分成一个词的序列。如上例,某分词算法将其分为“网络 与 分布式 系统 实验室”。然后需要删除那些没有查询意义或者几乎在每篇文档中都会出现的词(例如“的”),在本例中即为“与”。最后形成一个用于参加匹配的查询词表,q = {t1, t2, …, tm},在本例中生成的词表就是q = {网络,分布式,系统,实验室}。

    倒排文件就是用词来作为索引的一个数据结构,显然,上例q中的词必须是包含在倒排文件词表中才有意义。有了这样的q,它的每一个元素都对应倒排文件中的一个倒排表(文档编号的集合),记作L(ti),它们的交集即为对应查询的结果文档集合,从而实现了查询和文档的匹配。

    上述过程的基本假设是一般情况:用户是希望网页包含所输入查询文字的。


    2、 结果排序
    用户查询的这个集合的元素需要以一定的形式通过计算机显示屏呈现给用户。就目前的技术情况看,列表是最常见的形式。

    给定一个查询结果集合,R={r1, r2, …, rn},所谓列表,就是按照某种评价方式,确定出R中元素的一个顺序,让这些元素以这种顺序呈现出来。笼统地讲,ri和q的相关性(relevance)是形成这种顺序的基本因素。

    为了形成一个合适的顺序,在搜索引擎出现的早期人们采用了传统信息检索领域很成熟的基于词汇出现频度的方法。大致上讲就是一篇文档中包含的查询(q)中的那些词越多,则该文档就应该排在越前面;再精细一些的考虑则是若一个词在越多的文档中有出现,则该词用于区分文档相关性的作用就越小。这样一种思路不仅有一定直觉上的道理,而且在倒排文件数据结构上很容易实现。因为,当我们通过前述关键词的提取过程,形成一篇文档的关键词集合,p = {t1, t2, …, tn}的时候,很容易同时得到每一个ti在该文档中出现的次数,即词频,而倒排文件中每个倒排表的长度则对应着一个词所涉及的文档的篇数,即文档频率。
    然而,由于网页编写的自发性、随意性较强,仅仅针对词的出现来决定文档的顺序,在Web上做信息检索表现出明显的缺点,需要有其他技术的补充。

    这方面最重要的成果就是PageRank。通过在预处理阶段为每篇网页形成一个独立于查询词(也就和网页内容无关)的重要性指标,将它和查询过程中形成的相关性指标结合形成一个最终的排序,是目前搜索引擎给出查询结果排序的主要方法。


    3、 文档摘要
    搜索引擎给出的结果是一个有序的条目列表,每一个条目有三个基本的元素:标题,网址和摘要。

    其中的摘要需要从网页正文中生成。
    但相关的技术用到网络搜索引擎来有两个基本困难。一是网页的写作通常不规范,文字比较随意,因此从语言理解的角度难以做好;二是复杂的语言理解算法耗时太多,不适应搜索引擎要高效处理海量网页信息的需求。

    根据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。为了保证查询的效率,需要在预处理阶段分词的时候记住每个关键词在文档中出现的位置。


    5、体系结构

    上述工作原理的基础上,作为一个网络应用软件,我们可以勾画出搜索引擎的体系结构:
    体系结构

    上图中“控制器”的作用
    网页的搜集,如果是为了向大规模搜索引擎稳定地提供网页数据,通常需要每天搜集上百万网页,而且是持续进行,情况则要复杂许多,核心是要综合解决效率、质量和“礼貌”的问题。这就是“控制器”的作用。

    所谓效率,在这里就是如何利用尽量少的资源(计算机设备、网络带宽、时间)来完成预定的网页搜集量。
    所谓质量问题,指的是在有限的时间,搜集有限的网页,希望它们尽量是比较“重要”的网页,或者说不要漏掉那些很重要的网页。
    礼貌,即是说搜索引擎需要和网站“和睦相处”,不要频繁抓取过多,会被认为是黑客攻击。


    知识来源:搜索引擎教材 李晓明等著

    展开全文
  • 搜索引擎的基本工作原理  搜索引擎基于获得最快的搜索结果,它搜索的内容一般是一个预先组织的Web索引数据库。 寻常搜索,无法真正理解网页上的内容,它只能机械地匹配网页上的文本。在搜索引擎的真正意义上,一般...

    搜索引擎的基本工作原理
      搜索引擎基于获得最快的搜索结果,它搜索的内容一般是一个预先组织的Web索引数据库。 寻常搜索,无法真正理解网页上的内容,它只能机械地匹配网页上的文本。在搜索引擎的真正意义上,一般是指Internet上的数千万至千亿个页面的集合,以及实行索引中的每1个单词(即关键字),即索引数据库全文搜索引擎。当使用者找到一个关键字时,页面内容中所有带有囊括关键字的页面都将被搜索出来作为搜索结果。从繁复的计算方法 实行进行排序后,将根据和搜索关键词的相干程度对这一批的结果进行排名。典型的搜索引擎3大型模块组建:
      (1)信息收集模块
      信息收集器是用于浏览网页的程序称为“ 互联网搜寻器”。它首先打开网页,继而使用网页的链接作为浏览的起始地址,获取链接的网页,提取出现在网页中的链接,然后根据计算方法决定转到步骤以访问哪一类链接。 其次,信息收集器将已然访问的URL存储在其自己的网页列表中,并放置搜索到的标签。自动索引程序检查网页并为其创建索引记录,而继而将记录融入记录到整个查找表中。然后,信息收集器从网页开始到超链接接着,并重复该类访问过程,直到结束。在搜索过程中,搜索引擎的搜索引擎仅将链接长度比率(超链接和文档长度的比率)与阈值为1的页面进行比较。数据收集在内容页面上,而不涉及目录页面。在收集文档其次中记录每个文档的地址信息调整 周期,文档长度和其他状态信息,用在站点资源监视和数据库更新。在收集过程中,还构造了能够以构造适当的启发式策略,以指导收集器的搜索路径和收集范围,并减少文档收集的盲目性。
      (2)查询表模块
      查询表模块是1全文索引数据库。他分析了网页根据,排除了HTML和其他语言的标记符号,提取了所有出现的单词或单词,并记录了每个单词的URL和相应位置(例如,在当下页面标题中为列出当下或文本),最后将这一批中的数据查找表中,将变成直接从供应到使用者搜索数据库。
      (3)搜索模块
      检索模块是成为现实搜索功能的程序,用于将使用者输入的搜索表达式分为具有检索含义的单词或单词,然后访问查询表根据匹配收获相应的搜索结果。返回结果1一般来源于词频和网页链接反馈信息设立统计模型,以相干度从高到低的顺序输出。

    展开全文
  • 搜索引擎的工作分为三个节点,即爬行,索引,和检索 1、爬行 搜索引擎具有网路爬虫或蜘蛛来执行爬网,每次抓取工具访问网页时,它都会复制该网页并将其网址添加到索引中。 在 “蜘蛛” 抓取网页内容,提炼关键词的这...

    一、搜索引擎工作原理

    搜索引擎的工作分为三个节点,即爬行,索引,和检索

    1、爬行
    搜索引擎具有网路爬虫或蜘蛛来执行爬网,每次抓取工具访问网页时,它都会复制该网页并将其网址添加到索引中。
    在 “蜘蛛” 抓取网页内容,提炼关键词的这个过程共,就存在一个问题: “蜘蛛” 能否看懂。如果网站内容是 flash 和 js ,那么她是看不懂的。相应的如果网站内容是其他语言,那么她便能看懂,她的语言即SEO

    2、索引
    此阶段,爬网程序会创建搜索引擎的索引。索引就像一本巨大的书,其中包含爬虫找到的每个网页的副本。如果任何网页发生更改,则抓取工具会使用新内容更新图书。

    3、检索
    这是搜索引擎以特定顺序提供最有用和最相关答案的最后阶段

    二 、SEO 简介

    全称:Search English Optimization,搜索引擎优化,即为了提升网页在搜索引擎自然搜索结果中的收录数量以及排序位置而做的优化。

    1、SEO 的分类

    • 白帽SEO :起到了改良和规范网站设计的作用,使网站对搜索引擎和用户更加友好,并从搜索引擎中获取合理的流量。
    • 黑帽SEO :利用和放大搜索引擎缺陷来获取更多用户的访问量

    2、白帽SEO 的使用

    1. 对网站的标题、关键字、描述精心设置,反应网站的定位,让搜索引擎明白网站是做什么的;
    2. 网站内容优化:内容与关键字的对应,增加关键字的密度;
    3. 在网站上合理设置Robot.txt 文件;
    4. 生成针对搜索引擎友好的网站地图;
    5. 增加外部链接,到各个网站上宣传;

    三、前端SEO 优化

    通过网站的结构布局设计和网页代码优化,使前端页面既能让浏览器用户能够看懂,也能让“蜘蛛”看懂

    1、网站结构布局优化

    1. 控制首页链接数量
      对于中小型企业网站,建议首页链接在100个以内,链接的性质可以包含页面导航、底部导航、锚点文字链接等
    2. 扁平话的目录层次
      尽量让“蜘蛛”只跳转3次,就能到达网站内的任何一个页面
    3. 导航优化
      导航应该尽量采用文字方式,也可以搭配图片导航,但 标签务必添加 alt 和 title 属性,告诉搜索引擎导航的定位
    <img src="" alt="" title="">
    

    其次,在每一个网页上应该加上面包屑导航
    在这里插入图片描述
    对用户而言,可以让用户了解当前所处的位置,形成更好的位置感,并方便用户操作;
    对蜘蛛而言,能够清楚的了解网站结构,同时还增加了大量的内部链接,方便抓取,降低跳出率。

    1. 结构布局的规范优化
        a、页面头部:logo 及主导航,以及用户的信息
        b、页面主体:左边面包屑导航及正文;右边放热门文章及相关文章,既增强了页面相关性,也增强页面的权重
        c、页面底部:版权信息和友情链接
      注意:分页导航推荐写法:“1 2 3 4 5 6 7 8 9 10 下拉框/输入框”,这样“蜘蛛”能够根据相应页码直接跳转,下拉框直接选择页面跳转
      在这里插入图片描述
    2. 控制页面的大小
      一个页面最好不要超过100k,太大,页面加载速度慢,用户体验不好,并且一旦超时,“蜘蛛”也会离开

    2、网页代码优化
    (1) title
    标题,强调重点即可,尽量做到每个页面的 标题内容不重复

    <title>英雄联盟全新官方网站-腾讯游戏</title>
    

    (2) meta keywords
    关键词,列举出几个页面的重要关键字即可

    <meta name="Keywords" content="英雄联盟,lol,lol新手礼包,lol攻略,lol视频,lol视频攻略,英雄资料,英雄联盟战争学院,明星解说视频,101战争学院,英雄,攻略,WCG,点亮图标,赛事">
    

    (3) meta description
    网页描述,高度概括网页内容的关键词,每个页面也要有所不同

    <meta name="Description" content="英雄联盟官方网站,海量风格各异的英雄,丰富、便捷的物品合成系统,游戏内置的匹配、排行和竞技系统,独创的“召唤师”系统及技能、符文、天赋等系统组合,必将带你进入一个崭新而又丰富多彩的游戏世界。">
    

    (4) 标签语义化

    比如:h1-h6是用于标题类的,<nav>标签是用来设置页面主导航的等
    

    (5) a 标签

    页内链接,要加“title” 属性加以说明,让访客和 “蜘蛛” 知道;
    外部链接,链接到其他网站的,则需要加上 el="nofollow" 属性,避免“蜘蛛”爬了外部链接之后,就不回了
    

    (6) 正文标题要用 h1 标签:

    “蜘蛛” 认为它最重要,若不喜欢<h1>的默认样式可以通过CSS设置
    

    (7) br

    <p>
        第一行文字<br/>
        第二行文字<br/>
        第三行文字
    </p>
    

    (8) caption

    表格应该使用 <caption> 表格标题标签
    

    (9) img 应使用 “alt” 属性加以说明

    (10) strong 和 em : 需要强调时使用

    <strong>标签在搜索引擎中能突出关键词
    
    <em>标签强调效果仅次于 <strong><b><i>标签: 只是用于显示效果时使用,在 SEO 中不起效果
    

    (11) 避免使用   和 ©

    空格符 &nbsp; 应用 CSS 进行设置
    
    版权符 &copy; 可以直接使用输入法打“©”
    

    (12) 少用 iframe 框架,因为“蜘蛛”一般不会读取其中的内容

    (13) 少用 display: none;
    对于不想显示的文字内容,应当设置 z-index 或设置到浏览器显示器之外。因为搜索引擎会过滤掉 display:none 中的内容

    原文连接

    展开全文
  • 搜索引擎的工作原理

    2007-11-13 11:39:10
    在浩如烟海Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?它们是怎么工作?...按照工作原理的不同,可以把它们分为两个基本类别:全文...
  • World Wide Web搜索引擎,信息检索,PageRank, Google
  • 搜索引擎的工作原理

    2007-05-23 14:23:00
    全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集...
  • 搜索引擎的处理对象是互联网网页,日前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。 网络爬虫即起此...
  • 搜索引擎工作原理解析

    万次阅读 2018-08-22 21:29:25
    本篇文章从整个搜索引擎架构技术大框架方面来学习,搜索引擎工作原理。 1 搜索引擎基本模块 2 爬虫 网络爬虫(Web crawler),是一种按照一定规则,自动地抓取万维网信息程序或者脚本,它们被广泛...
  • 百度搜索引擎工作原理

    千次阅读 2019-08-13 13:54:50
    互联网信息爆发式增长,如何有效获取并利用这些信息是搜索引擎工作首要环节。数据抓取系统作为整个搜索系统中上游,主要负责互联网信息搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被...
  • 搜索引擎工作原理

    2007-06-25 16:50:00
    在浩如烟海Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?...按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullTex
  • 第一,当用户提交查询时候,搜索引擎并不是即刻在Web上“搜索”一通,发现那些相关网页,形成列表呈现给用户;而是事先已“搜集”了一批网页,以某种方式存放在系统中,此时搜索只是在系统内部进行而已...
  • 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.Nutch为我们提供了这样一...
  • 网络蜘蛛(Web Spider)程序的...任意给一个入口即链接,便可以访问整个互联网,这就是网络蜘蛛(Web Spider)的最终目标,当然这对于像GOOGLE,BAIDU,yahoo等一些搜索引擎的蜘蛛来说,肯定是需要做到这一点的。但对于我
  • 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建 方案。全书分三篇共13 章内容,从基本工作原理概述开始,到一个小型简单搜索 引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的...
  • 搜索引擎原理

    2015-03-02 12:06:00
    在浩如烟海Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?...依照工作原理的不同,能够把它们分为两个基本类别:全文搜索引擎(FullT...
  • 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计...
  • 搜索引擎原理

    2007-09-11 20:49:00
    在浩如烟海Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?...按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullTe

空空如也

空空如也

1 2 3 4 5 ... 13
收藏数 260
精华内容 104
关键字:

web搜索引擎的工作原理