精华内容
下载资源
问答
  • 常用搜索引擎指令

    万次阅读 2020-01-20 11:32:18
  • 常用英文搜索引擎

    千次阅读 2011-03-01 16:43:00
    <br />Google - 以搜索精度高、速度快成为最受...Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对33 亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时


    Google - 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物
    http://www.google.com
    Google.com创立于1998年,目前它已经成为全球用户最多、使用最广泛的专业搜索引擎,Google 的使命就是要为客户提供网上最好的查询服务,促进全球信息的交流。Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对33 亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,Google 每天需要提供 2.1 亿次查询服务。 
      Google 复杂的自动搜索方法可以避免任何人为感情因素。与其它搜索引擎不同,Google 的结构设计即确保了它绝对诚实公正,任何人都无法用钱换取较高的排名。作为用户的忠实助手,Google 可以诚实、客观并且方便地帮用户在网上找到有价值的资料。
      因为Google具有上述的特点和巨大的搜索用户群,所以在Google.com上投放关键词定位推广服务对企业来说是通过互联网做全球推广必不可少的重要一环节。

    Yahoo - 最著名的目录索引,搜索引擎开山鼻祖之一
    http://www.yahoo.com
    有英、中 、日、韩、法、德、意、西班牙、丹麦等10余种语言版本,各版本的内容互不相同。 提供类目、网站及全文检索功能。目录分类比较合理,层次深,类目设置好,网站提要严格清楚,但部分网站无提要。网站收录丰富,检索结果精确度较高,有相关网页和新闻的查询链接。全文检索由Inktomi支持。有高级检索方式,支持逻辑查询,可限时间查询。设有新站、酷站目录。 

    DMOZ - 由义务编辑维护的目录索引
    http://www.dmoz.com
    Open Directory Project (ODP) 是仅次于Yahoo的人工操作目录索引类搜索引擎。与Yahoo不同的是,Open Directory Project (ODP)的编辑人员均为志愿者,而非其雇员。目前其志愿编辑人数已达数万人。 
    ODP在网站结构和内容上与Yahoo类似。除独立提供搜索服务外,还与包括Google、Lycos、DirectHit(注)、Ask Jeeves、AOL、Netscape Search、AltaVista、Fast/AllTheWeb等在内的其他众多搜索引擎进行合作,这些引擎通常借用ODP向用户提供目录注册,有的更是把来自ODP的注册网站排在显要位置。
    以前相对Yahoo来说,登录ODP的周期要短得多,一般为2周左右,这跟它编辑人数众多有关系。但据用户反映,现阶段登陆ODP已非常困难,有时甚至半年也登录不上。这当中的原因是多方面的。 
    据ODP编辑人员称用户不负责任地随意登陆是其中最主要问题。比如将网站提交到不合适的目录,网站标题和描述不符合规定,网站信息中充斥着过多的关键词等等,无形中增加了编辑人员的工作量,造成提交的网站无法及时得到处理。 


    FAST/AllTheWeb - 总部位于挪威的搜索引擎后起之秀,风头直逼google
    http://www.alltheweb.com
    有当今成长最快的搜索引擎,目前支持225种文件格式搜索,其数据库已存有49种语言的21亿个Web文件,超过Google的20.7亿网页数据库(注1)。而且以其更新速度快,搜索精度高而受到广泛关注,被认为是Google强有力的竞争对手。
    Fast总部位于挪威,成立于1997年,其技术起源于挪威科技大学(Norwegian University of Science and Technology)的相关研究开发结果。公司全称为Fast Search & Transfer (FAST) ASA,而AllTheWeb(ATW)是其对外展示技术的窗口网站。
    Fast/AllTheWeb数据库容量大,更新速度快,搜索精度高,并且据反映可以查到其他搜索引擎都查不到的资料,因此是个非常不错的搜索工具。但是它也有不足之处。
    比如对中文支持不是很好,而且在默认进行任意语言查询时,返回的中文结果有时是乱码,必须手动选择语言才能正常搜索;此外,Fast/AllTheWeb的网页摘要目前还不是动态生成(注2),造成用户无法方便的根据摘要选择最想要的结果等等,这些方面都还有待改进。 
    注1:Google网页数据库容量目前已达33亿个Web文档,再次超过Fast/AllTheWeb。
    注2: 2002年10月,Fast/AllTheWeb改为动态摘要。 


    Overture - 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。
    http://www.overture.com/
    Overture (原名GoTo)是现有著名搜索引擎中比较有特色的一个,提供目前大受欢迎的“Pay-For-Performance”网站登录服务,是所谓“竞价排名”的始作俑者。国内百度推出的竞价排名服务便是借鉴了Overture的业务模式。
    Overture的Pay-Per-Click价格通过竞标方式确定,并与特定的关键词挂钩。用户针对某一关键词给出的竞标金额越高,当访问者以该关键词搜索时,该用户网站排名越靠前。
    除一些极热门的关键词标价超过1美元外,一般的关键词标价从几十到几美分。但目前Overture对一定期限内访问流量达不到限额的关键词不提供竞价机会。
    Overture也接受免费登录,但免费网站永远排在付费网站之后。网站通过竞价排名登录Overture一般只需3天时间,并且还有机会出现在Yahoo、AltaVista等网站的搜索结果中。


    About - 有其自身特色的目录索引
    http://www.about.com/
    About.com是规模较小的人工操作(Human Reviewed/Manually Picked)目录索引,主要由编辑人员在互联网上寻找有收录价值的网站或网页,然后分门别类列出链接索引。当然Webmaster也可主动向其提交网站,申请About收录你的网站,但这项工作很不容易。如想登录成功,必须有充分的理由说服编辑人员你的网站值得被收录,不过一旦编辑人员同意接收你的网站,则会很快被列入目录。
    About的二级网页搜索由著名搜索技术开发商Inktomi提供。

    MSN - 由LookSmart支持的一个分类目录
    http://www.msn.com/
    微软的MSN Search搜索服务是由LookSmart支持的一个分类目录,其他的搜索结果来自Inktomi。MSN Search为Internet Explorer 5的用户提供了一种保存以前查询结果的独特方法。

    LookSmart - 点击付费索引目录,2002年收购WiseNut全文搜索引擎
    http://www.looksmart.com/
    LookSmart也是主要的目录索引之一,向包括MSN、AltaVista、Excite(已被InfoSpace收购)等在内的其他搜索引擎提供目录搜索。其注册网站在合作伙伴搜索结果中排位往往也靠前。
     LookSmart在网站结构和内容上与其他目录索引大同小异,其目录中的网站排列也是根据字母顺序。它使用Inktomi的数据库提供二级网页搜索。
     LookSmart向商业网站收取注册费,分为199和99美元两档(注)。前者保证你的网站会在48小时内得到审核;如选后者,工作人员则会在8周内浏览并决定是否接受你的网站。支付注册费并不确保你能登录成功。
     (注):LookSmart于2001年8月对其收费登录服务进行了升级,费用标准上涨50%,具体请参阅我们的特别专题文章LookSmart磨刀霍霍向牛羊。2002年5月,LookSmart将一次性收费改为点击付费。


    Lycos - 发源于西班牙的搜索引擎,网络遍布世界各地
    http://www.lycos.com/
    Lycos是搜索引擎中的元老,是最早提供信息搜索服务的网站之一,2000被西班牙网络集团Terra Lycos Network以125亿美元收归旗下。根据媒体调查统计机构Nielsen/NetRatings 2002年10份的数据,Lycos以当月3700万次的独立访问排名第5大用户最常访问的网站。
     Lycos整合了搜索数据库、在线服务和其他互联网工具,提供网站评论、图象及包括MP3在内的压缩音频文件下载链接等等。Lycos是目前最大的西班牙语门户网络。
     提供常规及高级搜索。高级搜索提供多种选择定制搜索条件,并允许针对网页标题、地址进行检索。具有多语言搜索功能,共有25种语言供选择。首页下部显示部分Open Directory的目录索引。
     搜索规则:常规搜索时如无特殊限定,则默认以布尔逻辑and关系进行查询。高级搜索界面中可选择and、 or、 not等。另外还可用adj、near、far或before来限定词与词之间的关系。支持“+”号和“-”号。
     在搜索结果页面,Lycos首先在“Featured Listings”标题下给出3个来自Overture的付费网站,紧跟着是在“Popular”标题下列出来自Lycos Network的网站(Popular Content),以及来自Open Directory和FAST的搜索结果。
     Lycos的“蜘蛛”程序名为“Lycos_Spider_(T-Rex)”。登录周期为3-6周,但是Lycos升级数据库的速度很慢,所以经常碰到明明其Spider已访问了你的网站,但在搜索时却找不到你递交的网页的情况。
    (注)Lycos现已放弃自己的Spider索引数据库,目前搜索结果大部分来自FAST/AllTheWeb引擎。



    AltaVista - 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一
    http://www.altavista.com/
    有英文版和其他几种西文版。提供纯文字版搜索。提供全文检索功能,并有较细致的分类目录。网页收录极其丰富,有英、中、日等25种文字的网页。搜索首页不支持中文关键词搜索,但有支持中文关键词搜索的页面。能识别大小写和专用名词,且支持逻辑条件限制查询。高级检索功能较强。提供检索新闻、讨论组、图形、MP3/音频、视频等检索服务以及进入频道区(zones),对诸如健康、新闻、旅游等类进行专题检索。 有英语与其它几国语言的双向在线翻译等服务,有可过滤搜索结果中有关毒品、色情等不健康的内容的“家庭过滤器”功能。 


    Excite - Excite是互联网上最流行的搜索服务之一
    http://www.excite.com/
    是一个基于概念性的搜索引擎,它在搜索时不只搜索用户输入的关键字,还可“智能性”地推断用户要查找的相关内容进行搜索。除美国站点外,还有中文及法国、德国、意大利、英国等多个站点。查询时支持英、中、日、法、德、意等11种文字的关键字。提供类目、网站、全文及新闻检索功能。目录分类接近日常生活,细致明晰,网站收录丰富。网站提要清楚完整。搜索结果数量多,精确度较高。有高级检索功能,支持逻辑条件限制查询(AND及OR搜索)。 


    InfoSeek - 提供全文检索功能,并有较细致的分类目录
    http://www.infoseek.com(http://infoseek.go.com/)
    提供全文检索功能,并有较细致的分类目录,还可搜索图像。网页收录极其丰富,以西文为主,支持简体和繁体中文检索,但中文网页收录较少。查询时能够识别大小写和成语,且支持逻辑条件限制查询(AND、OR、NOT等)。高级检索功能较强,另有字典、事件查询、黄页、股票报价等多种服务。 


    AOL - 由于AOL(美国在线网站)和Excite 的合作的结果
    http://search.aol.com/
    提供类目检索、网站检索、白页(人名)查询、黄页查询、工作查询等多种功能。目录分类细致,网站收录丰富,搜索结果有网站提要,按照精确度排序,方便用户得到所需结果。支持布尔操作符,包括AND、 OR、AND NOT、ADJ以及NEAR等。有高级检索功能,有一些选项,可针对用户要求在相应范围内进行检索。 


    Ask jeeves - 著名的自然语言搜索引擎,2002年初收购Teoma全文搜索引擎 
    http://www.ask.com/
    Ask Jeeves是人工操作目录索引,规模不大,但很有特点。与其他关键词搜索引擎不同,Ask Jeeves被设计成回答用户提问的自然语言引擎。搜索时,它首先给出的是数据库中可能存在的答案,然后才是网站链接。
    Ask Jeeves曾是著名搜索引擎DirectHit(2002年4月被关闭)的母公司,在2001年年末收购了全文搜索引擎Teoma并与之进行整合后,其搜索能力得到了进一步的加强。


    HotBot - 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引
    http://hotbot.lycos.com/
    提供有详细类目的分类索引,网站收录丰富,搜索速度较快。有功能较强的高级搜索,提供有多种语言的搜索功能,以及时间、地域等限制性条件的选择等等。另提供有音乐、黄页、白页(人名)、Email地址、讨论组、 公路线路图、股票报价、工作与简历、新闻标题、FTP检索等专类搜索服务。

     

     

    转自: http://blog.csdn.net/baishi_/archive/2005/08/04/445400.aspx


    展开全文
  • 常用学术论文搜索引擎介绍

    千次阅读 2013-12-07 14:58:20
    常用学术搜索引擎,做论文或者学术必用到的引擎。   名称及网址 简 介 GoogleScholar Google推出的免费学术搜索引擎,可以帮助快速寻找学术资料,如专家评审文献、论文、书籍、预印...

    常用学术搜索引擎,做论文或者学术必用到的引擎。

     

    名称及网址

    简   

    GoogleScholar

    Google推出的免费学术搜索引擎,可以帮助快速寻找学术资料,如专家评审文献、论文、书籍、预印本、摘要以及技术报告。其免费的优势对那些并不富裕或没有相关学术图书馆资源的个人,意义重大。

    SCIRUS

    Scirus是目前互联网上最全面、综合性最强的科技文献门户网站之一,Scirus引擎的信息源主要是两部分:网页和期刊。Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。它以自身拥有的资源为主体,对网上具有科学价值的资源进行整合,集聚了带有科学内容的网站及与科学相关的网页上的科学论文、科技报告、会议论文、专业文献、预印本等。其目的是力求在科学领域内做到对信息全面深入的收集,以统一的检索模式面向用户提供检索服务。

    Sciseek(科学探索网)

    SciSeek专注于科学搜索引擎与目录,还包括一些科学杂志以及其他的工具等。

    FindArticles(论文搜索网)

    论文搜索网提供多种顶极刊物的上百万篇论文,涵盖艺术与娱乐、汽车、商业与经融、计算机与技术、健康与健身、新闻与社会、科学教育、体育等各个方面的内容。大部分为免费全文资料,检索操作简单。

    Intute

    由英国高等教育资助理事会下的信息系统联合委员会JISC和艺术与人文研究委员会AHRC开发建立,专注于教学、研究方面的网络资源。所收录的信息资源都是经过行业专家选择和评审的,从而保证了其质量。目前数据库信息已达120060条。Intute共设四大领域:科学与技术、艺术与人文、社会科学、健康与生命科学。各个领域下又包含诸多学科,以科学与技术类为例,覆盖了天文、化学、物理、工程、计算、地理、数学、地球科学、环境以及交叉学科,信息达33806条。

    InformationBridge

    Information Bridge是由美国能源部DOE下属的科学与技术信息办公室OSTI开发维护的搜索工具,提供美国能源部1994年以来研究成果的全文文献和目录索引,涉及的学科领域包括物理、化学、材料、生物、环境科学、能源技术、工程、计算机与情报科学和可再生能源等。检索功能有基本检索和高级检索两种。

    OAIster

    OAIster是密歇根大学开发维护的一个优秀的开放存取搜索引擎,收集了来自536家学术机构的590万篇文档,包括开放使用期刊的文章、工作论文、讨论文章、会议论文和学位论文。可按关键词、题名、创作者、主题或资源类型进行检索。检索结果含资源描述和该资源链接。

    Base-Search

    BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。它整合了Bielefeld大学图书馆的图书馆目录和大约160个开放资源(超过200万个文档)的数据。

    Vascoda

    Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。

    百度文档搜索

    Information百度文档搜索可以查找以Word、PowerPoint、PDF等格式存在的研究报告、论文、课件等各类文件。它支持对Office文档包括Word、Excel、Powerpoint、Adobe PDF文档、RTF文档进行了全文搜索。搜索时,在检索词后面加一个“filetype:”来限定文档类型。“filetype:”后面可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。在搜索结果页面,点击结果标题,可以直接下载该文档,也可以点击标题后的“html版”快速查看该文档的网页格式内容。

    百度国学

    百度国学目前能提供上起先秦、下至清末历代文化典籍的检索和阅读。内容涉及经、史、子、集各部。

    cnpLINKer

    为了给读者用户提供一个方便快捷的查阅国外各类期刊文献的综合网络平台,中图公司组织开发了cnpLINKer(cnpiec LINK service)在线数据库检索系统,并正式开通运行。cnpLINKer即“中图链接服务”,目前主要提供约3600种国外期刊的目次和文摘的查询检索、电子全文链接及期刊国内馆藏查询功能.并时时与国外出版社保持数据内容的一致性和最新性.

    ResearchIndex

    ResearchIndex 又名CiteSeer ,是NEC 研究院在自动引文索引Autonomous Citation Indexing ,ACI 机制基础上建设的一个学术论文数字图书馆,它提供了一种通过引文链接检索文献的方式,目标是从多个方面促进学术文献的传播与反馈。
    ResearchIndex 检索互联网上Postscript 和PDF 文件格式的学术论文。目前在其数据库中可检索到超过500000 篇论文。主要涉及计 算机科学领域,涉及的主题包括互联网分析与检索、数字图书馆与引文索引、机器学习、神经网络、语音识别、人脸识别、元搜索引擎、音频/ 音乐等。 ResearchIndex 在网上提供完全免费的服务包括下载PS 或PDF 格式的全文,系统已实现全天24 小时实时更新。

    INFOMINE

    INFOMINE 是为大学教师、学生和研究人员建立的网络学术资源虚拟图书馆。它建于1994 年,由加利福尼亚大学、威克福斯特大学、加利福尼亚州立大 学、底特律- 麦西大学等多家大学或学院的图书馆联合建立。它拥有电子期刊、电子图书、公告栏、邮件列表、图书馆在线目录、研究人员人名录,以及其他类型的信息资源40000 多个。INFOMINE 对所有用户免费开放,但是它提供的资源站点并不都是免费的,能否免费使用,取决于用户所在图书馆是否拥有该资源的使用权。

    方数据ilib

    Information 万方数据ilib 是万方数据股份有限公司旗下的专业学术搜索平台,隶属于万方数据资源系统。它是Google Scholar 和Yahoo !奇摩学术搜索重要的内容提供者,平均每周新增文献5 万余篇。
    Information ilib 提供一般检索、关键词检索和按学科分类浏览三种检索形式,检索结果显示标题、作者、出处、年期、关键词、摘要及参考文献等详细信息,但是获取全文需要付费。

    OJOSE

    OJOSE (Online Journal SearchEngine,在线期刊搜索引擎)是一个强大的免费科学搜索引擎,通过OJOSE,你能查找、下载或购买到近60个数据库的资源。但是感觉操作比较复杂。

    ixquick

    Ixquick 提供的搜索结果更全面,也更精确。Ixquick 独有的功能包括全面强力搜索、全球搜索和强力精选。 利用 Ixquick 的 国际电话簿 可以在世界范围内查找电话号码及相关地址。

    Chmoogle ChemicalSearch

    在此搜索引擎里可以搜索到超过千万种化学品信息或相应的供应商,与Chemblink有点相似,但提供的化学品理化信息没有Chemblink详细,与其不同的是该搜索引擎可提供化学品结构式搜索(主页上有在线绘制化学结构式的搜索框)。

    SooPAT专利搜索引擎 (中文)

    SooPAT立足专利领域,致力于专利信息数据的深度挖掘,致力于专利信息获得的便捷化,努力创造最强大、最专业的专利搜索引擎,为用户实现前所未有的专利搜索体验。
    SooPAT不仅提供搜索,还提供分析工具及在线提问等功能。

    citeseer(计算机和信息科学搜索引擎)

    一个关于计算机和信息科学的搜索引擎。

    A9.com

    与Google在同一水平的搜索引擎。是Amazon.com推出的,Web result部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。现在还是Beta,不过试用后感觉很好,向大家推荐一试,不过缺憾是现在书本内搜索没有中文内容。

     

    展开全文
  • 搜索引擎

    千次阅读 2019-07-14 18:58:09
    搜索引擎 搜索引擎 一. 什么是收索引擎 搜索引擎(Search Engine)是指:根据一定的策略、运用特定的...搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表 全...

    搜索引擎

    搜索引擎
    一. 什么是收索引擎
    搜索引擎(Search Engine)是指:根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。比如百度就是一款比较流行的搜索引擎。

    二.常用的收索引擎有哪些,区别
    搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表
    全文索引、目录索引的区别
    1、搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。
    2、搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。
    3、在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。
    4、搜索引擎中各网站的有关信息都是从用户网页中自动提取的,用户的我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。

    三.项目中如何使用ES,

    1.下载安装elasticsearch
    2.下载安装elasticsearch-head插件,图形化界面操作
    3.将原有项目数据库数据和ES库连接同步,此处用到工具elasticsearch-jdbc
    4.将查询或操作的数据源切换到ES库

    四.ES的HEAD插件有什么作用,
    1.显示集群的拓扑,并且能够执行索引和节点级别操作
    2.搜索接口能够查询集群中原始json或表格格式的检索数据
    3.能够快速访问并显示集群的状态
    4.有一个输入窗口,允许任意调用RESTful API。这个接口包含几个选项,可以组合在一起以产生不同的结果;
    5.请求方法(get、put、post、delete),查询json数据,节点和路径
    6.支持JSON验证器
    7.支持重复请求计时器
    8.支持使用javascript表达式变换结果
    五.ES如何配置IK分词器,常用分词器区别
    https://www.cnblogs.com/buxiangbuliang/p/9488162.html
    六.如何自定义词库
    https://blog.csdn.net/Barbarousgrowth_yp/article/details/80242811

    七.如何实现ES和数据库同步
    https://blog.csdn.net/qq_40670946/article/details/82181005

    八.项目使用情况,以及解决
    1.由gc引起节点脱离集群

    因为gc时会使jvm停止工作,如果某个节点gc时间过长,master ping3次(zen discovery默认ping失败重试3次)不通后就会把该节点剔除出集群,从而导致索引进行重新分配。

    解决方法:

    (1)优化gc,减少gc时间。

    (2)调大zen discovery的重试次数(es参数:ping_retries)和超时时间(es参数:ping_timeout)。

    后来发现根本原因是有个节点的系统所在硬盘满了。导致系统性能下降。

    2.out of memory错误

    因为默认情况下es对字段数据缓存(Field Data Cache)大小是无限制的,查询时会把字段值放到内存,特别是facet查询,对内存要求非常高,它会把结果都放在内存,然后进行排序等操作,一直使用内存,直到内存用完,当内存不够用时就有可能出现out of memory错误。

    解决方法:

    (1)设置es的缓存类型为Soft Reference,它的主要特点是据有较强的引用功能。只有当内存不够的时候,才进行回收这类内存,因此在内存足够的时候,它们通常不被回收。另外,这些引 用对象还能保证在Java抛出OutOfMemory 异常之前,被设置为null。它可以用于实现一些常用图片的缓存,实现Cache的功能,保证最大限度的使用内存而不引起OutOfMemory。在es的配置文件加上index.cache.field.type: soft即可。

    (2)设置es最大缓存数据条数和缓存失效时间,通过设置index.cache.field.max_size: 50000来把缓存field的最大值设置为50000,设置index.cache.field.expire: 10m把过期时间设置成10分钟。

    3.无法创建本地线程问题

    es恢复时报错: RecoverFilesRecoveryException[[index][3] Failed to transfer [215] files with total size of [9.4gb]]; nested: OutOfMemoryError[unable to create new native thread]; ]]

    刚开始以为是文件句柄数限制,但想到之前报的是too many open file这个错误,并且也把数据改大了。查资料得知一个进程的jvm进程的最大线程数为:虚拟内存/(堆栈大小10241024),也就是说虚拟内存越大或堆栈越小,能创建的线程越多。重新设置后还是会报那这错,按理说可创建线程数完全够用了的,就想是不是系统的一些限制。后来在网上找到说是max user processes的问题,这个值默认是1024,这个参数单看名字是用户最大打开的进程数,但看官方说明,就是用户最多可创建线程数,因为一个进程最少有一个线程,所以间接影响到最大进程数。调大这个参数后就没有报这个错了。

    解决方法:

    (1)增大jvm的heap内存或降低xss堆栈大小(默认的是512K)。

    (2)打开/etc/security/limits.conf ,把soft nproc 1024这行的1024改大就行了。

    4.集群状态为黄色时并发插入数据报错

    [7]: index [index], type [index], id [1569133], message [UnavailableShardsException[[index][1] [4] shardIt, [2] active : Timeout waiting for [1m], request: org.elasticsearch.action.bulk.BulkShardRequest@5989fa07]]

    这是错误信息,当时集群状态为黄色,即副本没有分配。当时副本设置为2,只有一个节点,当你设置的副本大于可分配的机器时,此时如果你插入数据就有可能报上面的错,因为es的写一致性默认是使用quorum,即quorum值必须大于(副本数/2+1),我这里2/2+1=2也就是说要要至少插入到两份索引中,由于只有一个节点,quorum等于1,所以只插入到主索引,副本找不到从而报上面那个错。

    解决方法:

    (1)去掉没分配的副本。

    (2)把写一致性改成one,即只写入一份索引就行。

    5.设置jvm锁住内存时启动警告

    当设置bootstrap.mlockall: true时,启动es报警告Unknown mlockall error 0,因为linux系统默认能让进程锁住的内存为45k。

    解决方法:设置为无限制,linux命令:ulimit -l unlimited

    6.错误使用api导致集群卡死

    其实这个是很低级的错误。功能就是更新一些数据,可能会对一些数据进行删除,但删除时同事使用了deleteByQuery这个接口,通过构造BoolQuery把要删除数据的id传进去,查出这些数据删除。但问题是BoolQuery最多只支持1024个条件,100个条件都已经很多了,所以这样的查询一下子就把es集群卡死了。

    解决方法:用bulkRequest进行批量删除操作。

    7.org.elasticsearch.transport.RemoteTransportException: Failed to deserialize exception response from stream

    原因:es节点之间的JDK版本不一样

    解决方法:统一JDK环境

    8 . org.elasticsearch.client.transport.NoNodeAvailableException: No node available

    1) 端口错

    client = new TransportClient().addTransportAddress(new InetSocketTransportAddress(ipAddress, 9300));

    这里9300 写成9200的话会No node available

    要是你连的不是本机,注意IP有没有正确

    2 )jar报引用版本不匹配,开启的服务是什么版本,引用的jar最好匹配(这个我没有去试,反正我的是匹配的)

    3) 要是你改了集群名字,还有设置集群名字

    Settings settings = ImmutableSettings.settingsBuilder().put(“cluster.name”, “xxx”).build(); client = new TransportClient(settings).addTransportAddress(new InetSocketTransportAddress(ipAddress, 9300));

    4)集群超过5s没有响应

    解决方法1.设置client.transport.ping_timeout设大

    2.代码内加入while (true) {

    try {

    bulk.execute().actionGet(getRetryTimeout());

    break;

    }

    catch (NoNodeAvailableException cont) {

    Thread.sleep(5000);

    continue;

    }

    }

    9.elasticsearch 近日被发现漏洞,可以远程执行任意代码,由于 elasticsearch提供了http接口,导致可能通过CSRF等方式借助恶意页面浏览发生攻击 。

    漏洞影响版本:

    elasticsearch 1.2以下

    测试代码:

    http:// ESSERVERIP :9200/search?source=%7B%22size%22%3A1%2C%22query%22%3A%7B%22filtered%22%3A%7B%22query%22%3A%7B%22match_all%22%3A%7B%7D%7D%7D%7D%2C%22script_fields%22%3A%7B%22%2Fetc%2Fhosts%22%3A%7B%22script%22%3A%22import%20java.util.%3B%5Cnimport%20java.io.%3B%5Cnnew%20Scanner(new%20File(%5C%22%2Fetc%2Fhosts%5C%22)).useDelimiter(%5C%22%5C%5C%5C%5CZ%5C%22).next()%3B%22%7D%2C%22%2Fetc%2Fpasswd%22%3A%7B%22script%22%3A%22import%20java.util.%3B%5Cnimport%20java.io.%3B%5Cnnew%20Scanner(new%20File(%5C%22%2Fetc%2Fpasswd%5C%22)).useDelimiter(%5C%22%5C%5C%5C%5CZ%5C%22).next()%3B%22%7D%7D%7D&callback=jQuery111102863897154977554_1400571156308&=1400571156309

    浏览器会返回/etc/passwd内容

    解决方案 :

    1、在配置文件elasticsearch.yml里设置script.disable_dynamic: true

    2、严格限制可访问elasticsearch服务的IP地址

    九.个人补充
    简介
    ElasticSearch(以下简称ES)是一个基于Lucene构建的开源(open-source),分布式(distributed),RESTful,实时(real-time)的搜索与分析(analytics)引擎。它可以让你在浏览数据时具备非常快的速度和优秀的可扩展性。它用于全文索引、结构化数据索引、数据分析以及三者的结合。它可以运行在你的笔记本上,或者扩展至数百台的服务器节点上来处理PB级的数据。 ES建立在Lucene的基础之上,但是Lucene仅仅是一个库,如果要发挥它的优势,你必须使用它然后再结合自己的开发来构造一个具体的应用。更坏的是你必须了解Lucene才能更好的使用它,但是Lucene本身就很复杂。所以ES意在取Lucene的优点,隐蔽其复杂性来构造一个简洁易用的RESTful风格的全文搜索引擎。
    与关系型数据库的名词对照
    Relational DB => Databases => Tables => Rows => Columns Elasticsearch => Indices => Types => Documents => Fields
    设计原理
    创建一个索引—index,shard,cluster
    将数据添加到ES的前提是,我们需要一个索引(名词):index——一个存储与这个索引相对应数据的地方。实际上,index仅仅只是一个命名空间来指向一个或多个实际的物理分片(shard)。
    一个分片(shard)是一个比较低层的工作单元来处理这个索引(index)的所有数据的一个切片(slice)。一个shard实际上是一个Lucene实例,在它的能力范围内拥有完整的搜索功能(在处理它自己拥有的数据时有所有的功能)。我们所有文档的索引indexed(动词)和存储工作都是在shard上,但这是透明的,我们不需要直接和shard通信,而是和我们创建的index(名词)通信。
    shards是ES将数据分布式在你的集群的关键。想象下shards是数据的容器,文档存储在shards里,而shards被分配在集群的每一个节点Node里。当你的集群规模增长和降低时,ES会自动的在Nodes间迁移shards以保持集群的负载均衡。
    shard的分类与作用:
    shard可分为primary shard和replica shard。 在一个index里的每一个文档都属于一个单独的primary shard,所以primary shard的数量决定了你最大能存储的数据量(对应于一个index)。
    注意:shard是归属与index的,而不是cluster的。
    replica shard是primary shard的拷贝。replica有两个作用: 1.冗余容灾 2.提供读请求服务,例如搜索或读取文档
    primary shard的数量在索引创建时确定后不能修改,replica可以在任何时候修改。 例: 见Figure2,在2.1的集群上创建一个index,拥有3个primary shards以及1个replica shards。

    由于只有一台Node,而Primary shard的Replicas与其在同一台节点上毫无意义,所以集群没有初始化replicas,这时添加另外一台Node。见Figure3,每一个primary shard初始化了一个replica。

    2.3 水平扩容
    当我们继续添加一台节点时,Node1和Node2中的各取一个shard移动到了Node3.见Figure4

    这样,我们每一台Node上只有两个shard。这就意味着每一台Node的硬件资源(CPU,RAM,I/O)将会被更少的shards共享,提高了每一个shard的性能。在这个案例中,6个shards最多可使用6台Node,这样每个shard就可以使用100%的node硬件资源。
    现在我们修改replica的数量到2,如Figure5

    这样我们就有了一个3primary shards,6replica shards的Cluster。我们可将Node提高到9台。水平扩容了集群性能。
    2.4 容灾
    我们杀掉的是master节点。一个Cluster必须要有master以保证集群的功能正常。所以集群要做的第一件事是选择一个新的master:Node2. 当我们杀掉1节点时,Primary shards 1和2丢失了。如果丢失了primary shard,index(名词)将不能正常的工作。此时P1和P2的拷贝存在Node2和Node3上。所以此时新升级的master(Node2)将做的第一件事就是将NODE2和NODE3上的replica shard1和replica shard2升级为primary shard。此时如果我们杀掉NODE2,整个集群的容灾过程同理,还是可以正常运行。
    这时,如果我们重启了NODE1,cluster将会重新分配缺少的两个replica shards(现在每个primary shard只有2个replicas,配置是3个,缺少2个)。如果NODE1的数据是旧的,那么它将会继续利用它们,NODE1只会从现在的Primary Shards拷贝这期间更改的数据。
    2.5 分布式文档存储
    2.5.1 Shards文档路由
    当你对一个文档建立索引时,它仅存储在一个primary shard上。ES是怎么知道一个文档应该属于哪个shard?当你创建一个新的文档时,ES是怎么知道应该把它存储至shard1还是shard2? 这个过程不能随机无规律的,因为以后我们还要将它取出来。它的路由算法是:
    shard = hash(routing) % numberofprimary_shards
    routing的值可以是文档的id,也可以是用户自己设置的一个值。hash将会根据routing算出一个数值然后%primaryshards的数量。这也是为什么primary_shards在index创建时就不能修改的原因。
    问题:当看到这里时,产生了一个问题:ES为什么要这样设计路由算法,这样就强制使primaryshards不可变,不利于以后index的扩容,除非事前就要对数据规模有所评估来设计可扩展的index。为什么不能使用一致性hash解决primaryshards改变时的情况呢?
    2.5.2 Primary/Replica Shards的交互
    假如我们有Figure8的集群。我们可以向这个集群的任何一台NODE发送请求,每一个NODE都有能力处理请求。每一个NODE都知道每一个文档所在的位置所以可以直接将请求路由过去。下面的例子,我们将所有的请求都发送到NODE1。

    注:最好的实践方式是轮询所有的NODE来发送请求,以达到请求负载均衡。
    写操作
    创建、索引、删除文档都是写操作,这些操作必须在primary shard完全成功后才能拷贝至其对应的replicas上。见Figure9。

    下面是Figure9的步骤:
    1.客户端向Node1发送写操作的请求。
    2.Node1使用文档的_id来决定这个文档属于shard0,然后将请求路由至NODE3,P0所在的位置。
    3.Node3在P0上执行了请求。如果请求成功,则将请求并行的路由至NODE1 NODE2的R0上。当所有的replicas报告成功后,NODE3向请求的node(NODE1)发送成功报告,NODE1再报告至Client。
    当客户端收到执行成功后,操作已经在Primary shard和所有的replica shards上执行成功了。
    当然,有一些请求参数可以修改这个逻辑。见原文。
    读操作
    一个文档可以在primary shard和所有的replica shard上读取。见Figure10

    读操作步骤:
    1.客户端发送Get请求到NODE1。
    2.NODE1使用文档的_id决定文档属于shard 0.shard 0的所有拷贝存在于所有3个节点上。这次,它将请求路由至NODE2。
    3.NODE2将文档返回给NODE1,NODE1将文档返回给客户端。 对于读请求,请求节点(NODE1)将在每次请求到来时都选择一个不同的replica。
    shard来达到负载均衡。使用轮询策略轮询所有的replica shards。
    更新操作
    更新操作,结合了以上的两个操作:读、写。见Figure11

    步骤:
    1.客户端发送更新操作请求至NODE1
    2.NODE1将请求路由至NODE3,Primary shard所在的位置
    3.NODE3从P0读取文档,改变source字段的JSON内容,然后试图重新对修改后的数据在P0做索引。如果此时这个文档已经被其他的进程修改了,那么它将重新执行3步骤,这个过程如果超过了retryon_conflict设置的次数,就放弃。
    4.如果NODE3成功更新了文档,它将并行的将新版本的文档同步到NODE1和NODE2的replica shards重新建立索引。一旦所有的replica
    shards报告成功,NODE3向被请求的节点(NODE1)返回成功,然后NODE1向客户端返回成功。
    2.6 Shard
    本节将解决以下问题:
    为什么搜索是实时的
    为什么文档的CRUD操作是实时的
    ES怎么保障你的更新在宕机的时候不会丢失
    为什么删除文档不会立即释放空间
    2.6.1不变性

    写到磁盘的倒序索引是不变的:自从写到磁盘就再也不变。 这会有很多好处:
    不需要添加锁。如果你从来不用更新索引,那么你就不用担心多个进程在同一时间改变索引。
    一旦索引被内核的文件系统做了Cache,它就会待在那因为它不会改变。只要内核有足够的缓冲空间,绝大多数的读操作会直接从内存而不需要经过磁盘。这大大提升了性能。
    其他的缓存(例如fiter cache)在索引的生命周期内保持有效,它们不需要每次数据修改时重构,因为数据不变。
    写一个单一的大的倒序索引可以让数据压缩,减少了磁盘I/O的消耗以及缓存索引所需的RAM。
    当然,索引的不变性也有缺点。如果你想让新修改过的文档可以被搜索到,你必须重新构建整个索引。这在一个index可以容纳的数据量和一个索引可以更新的频率上都是一个限制。
    2.6.2动态更新索引
    如何在不丢失不变形的好处下让倒序索引可以更改?答案是:使用不只一个的索引。 新添额外的索引来反映新的更改来替代重写所有倒序索引的方案。 Lucene引进了per-segment搜索的概念。一个segment是一个完整的倒序索引的子集,所以现在index在Lucene中的含义就是一个segments的集合,每个segment都包含一些提交点(commit point)。见Figure16。新的文档建立时首先在内存建立索引buffer,见Figure17。然后再被写入到磁盘的segment,见Figure18。

    一个per-segment的工作流程如下:
    1.新的文档在内存中组织,见Figure17。
    2.每隔一段时间,buffer将会被提交: 一个新的segment(一个额外的新的倒序索引)将被写到磁盘 一个新的提交点(commit point)被写入磁盘,将包含新的segment的名称。 磁盘fsync,所有在内核文件系统中的数据等待被写入到磁盘,来保障它们被物理写入。
    3.新的segment被打开,使它包含的文档可以被索引。
    4.内存中的buffer将被清理,准备接收新的文档。
    当一个新的请求来时,会遍历所有的segments。词条分析程序会聚合所有的segments来保障每个文档和词条相关性的准确。通过这种方式,新的文档轻量的可以被添加到对应的索引中。
    删除和更新
    segments是不变的,所以文档不能从旧的segments中删除,也不能在旧的segments中更新来映射一个新的文档版本。取之的是,每一个提交点都会包含一个.del文件,列举了哪一个segmen的哪一个文档已经被删除了。 当一个文档被”删除”了,它仅仅是在.del文件里被标记了一下。被”删除”的文档依旧可以被索引到,但是它将会在最终结果返回时被移除掉。
    文档的更新同理:当文档更新时,旧版本的文档将会被标记为删除,新版本的文档在新的segment中建立索引。也许新旧版本的文档都会本检索到,但是旧版本的文档会在最终结果返回时被移除。
    2.6.3实时索引
    在上述的per-segment搜索的机制下,新的文档会在分钟级内被索引,但是还不够快。 瓶颈在磁盘。将新的segment提交到磁盘需要fsync来保障物理写入。但是fsync是很耗时的。它不能在每次文档更新时就被调用,否则性能会很低。 现在需要一种轻便的方式能使新的文档可以被索引,这就意味着不能使用fsync来保障。 在ES和物理磁盘之间是内核的文件系统缓存。之前的描述中,Figure19,Figure20,在内存中索引的文档会被写入到一个新的segment。但是现在我们将segment首先写入到内核的文件系统缓存,这个过程很轻量,然后再flush到磁盘,这个过程很耗时。但是一旦一个segment文件在内核的缓存中,它可以被打开被读取。

    2.6.4更新持久化
    不使用fsync将数据flush到磁盘,我们不能保障在断电后或者进程死掉后数据不丢失。ES是可靠的,它可以保障数据被持久化到磁盘。 在2.6.2中,一个完全的提交会将segments写入到磁盘,并且写一个提交点,列出所有已知的segments。当ES启动或者重新打开一个index时,它会利用这个提交点来决定哪些segments属于当前的shard。 如果在提交点时,文档被修改会怎么样?不希望丢失这些修改:
    1.当一个文档被索引时,它会被添加到in-memory buffer,并且添加到Translog日志中,见Figure21.

    2.refresh操作会让shard处于Figure22的状态:每秒中,shard都会被refreshed:

    在in-memory buffer中的文档会被写入到一个新的segment,但没有fsync。
    in-memory buffer被清空
    3.这个过程将会持续进行:新的文档将被添加到in-memory buffer和translog日志中,见Figure23

    4.一段时间后,当translog变得非常大时,索引将会被flush,新的translog将会建立,一个完全的提交进行完毕。见Figure24

    在in-memory中的所有文档将被写入到新的segment
    内核文件系统会被fsync到磁盘。
    旧的translog日志被删除
    translog日志提供了一个所有还未被flush到磁盘的操作的持久化记录。当ES启动的时候,它会使用最新的commit point从磁盘恢复所有已有的segments,然后将重现所有在translog里面的操作来添加更新,这些更新发生在最新的一次commit的记录之后还未被fsync。
    translog日志也可以用来提供实时的CRUD。当你试图通过文档ID来读取、更新、删除一个文档时,它会首先检查translog日志看看有没有最新的更新,然后再从响应的segment中获得文档。这意味着它每次都会对最新版本的文档做操作,并且是实时的。
    2.6.5 Segment合并
    通过每隔一秒的自动刷新机制会创建一个新的segment,用不了多久就会有很多的segment。segment会消耗系统的文件句柄,内存,CPU时钟。最重要的是,每一次请求都会依次检查所有的segment。segment越多,检索就会越慢。
    ES通过在后台merge这些segment的方式解决这个问题。小的segment merge到大的,大的merge到更大的。。。
    这个过程也是那些被”删除”的文档真正被清除出文件系统的过程,因为被标记为删除的文档不会被拷贝到大的segment中。
    合并过程如Figure25:

    1.当在建立索引过程中,refresh进程会创建新的segments然后打开他们以供索引。
    2.merge进程会选择一些小的segments然后merge到一个大的segment中。这个过程不会打断检索和创建索引。
    3.Figure26,一旦merge完成,旧的segments将被删除
    新的segment被flush到磁盘
    一个新的提交点被写入,包括新的segment,排除旧的小的segments
    新的segment打开以供索引
    旧的segments被删除
    merge大的segments会消耗大量的I/O和CPU,严重影响索引性能。默认,ES会节制merge过程来给留下足够多的系统资源。

    展开全文
  • 搜索引擎常用搜索方法问答

    千次阅读 2005-04-25 21:04:00
    您无需输入任何文字,只要根据目录搜索引擎提供的主题分类目录,层层点击进入,便会查找到您所需的网络信息资源。例如,如果您想查找“上海图书馆”的网址,您可以在Yahoo中点击“参考资源”->点击“图书馆”-> 点击...
  • 搜索引擎分类与工作原理

    千次阅读 2013-04-30 13:51:01
     搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎( Full Text Search Engine)、目录索引类搜索引擎(Search IndexDirectory)和元搜索引擎(Meta Search Engine)。   ■全文搜索引擎  全文...
  • 常用的18个学术搜索引擎

    千次阅读 2011-05-28 19:29:00
    常用的18个学术搜索引擎
  • 搜索引擎分类和基础架构概述

    千次阅读 2017-12-05 08:24:13
     大家一定不会多搜索引擎感到陌生,搜索引擎是互联网发展的最直接的产物,它可以帮助我们从海量的互联网资料中找到我们查询的内容,也是我们日常学习、工作和娱乐不可或缺的查询工具。之前本人也是经常使用Google和...
  • 在介绍了传统的Spider式搜索引擎和基于人工分类的目录搜索引擎的特点并对它们作了比较之后,指出支持分类目录是Spider式搜索引擎发展的趋势,而应用文档自动分类领域的研究对收集的网页自动分类,实现对分类目录的...
  • 研究生常用的一些学术搜索引擎

    千次阅读 2016-12-01 22:01:30
    搜索引擎是研究生、本科生进行学术研究查找资料时不可或缺的工具,以下总结了国际上支持学术搜索的主要搜索引擎。 1、Google Scholar  Google 推出的免费学术搜索工具,可以帮助用户快速查找学术资料,包括来自...
  • 搜索引擎类网站调查报告

    千次阅读 2006-02-26 21:57:00
    搜索引擎类网站调查报告1 调查目的和背景1.1.小组整体调查背景 本小组经过初步调研和讨论,将目前流行的网络分为了如下七类:l 门户(含专业门户)l 社区l 博客和波客l 电子商务搜索引擎类l 媒体...
  • Lucene搜索引擎-搜索

    千次阅读 2018-10-29 22:28:04
    文章目录 如果对Lucene不熟悉的,请移步:Lucene搜索引擎-分词器
  • 怎样注册搜索引擎

    2010-10-04 16:42:00
    在“搜索引擎的种类” 文中介绍,搜索引擎有两种基本类型:一是纯技术型的全文检索搜索引擎,另一是分类目录搜索引擎。对于这两种不同性质的搜索引擎,注册网站的方式也有很大差别。  对于技术性搜索引擎...
  • 常用的十七大学术搜索引擎: 1、 http://scholar.google.com/ 虽然还是Beta版,但个人已觉得现在已经是很好很强大了,Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章...
  • 搜索引擎的发展

    2018-03-16 11:14:26
    这片文章整理了搜索引擎的发展历史。 1995 成立了一大批搜索公司 yahoo 人工编辑导航目录,将重要站点份门别整理,满足查询需要 大多数公司基于传统的信息检索服务。 1998Google 引入PageRank 搜索解决信息...
  • 海量数据搜索——搜索引擎

    千次阅读 2018-11-14 17:57:12
    那么百度是如何在海里数据中找到自己需要的数据呢,为什么他搜索的速度如此之快,我们都知道是因为百度的搜索引擎,那么搜索引擎到底是个什么东西呢?可能有的程序员会想到es,但是并不能代表搜索引擎,它只是其中的...
  • 但有些技巧也可用于其他搜索引擎,如百度,搜狗等 1、如图 2、常用网站及技巧  "indexof/"格式名即可搜索到可下载的资源 技巧九:搜索Google Directory  Google在它的搜索数据库中将成千上万的网页索引...
  • 搜索引擎注册(有时也称为“搜索引擎加注”、“搜索引擎登录”、“提交搜索引擎”等)是最经典、最常用的网站推广手段方式。当一个网站发布到互联网上之后,如果希望别人通过搜索引擎找到你的网站,就需要进行搜索...
  • 浅论如何优化搜索引擎排名机制

    千次阅读 2018-12-09 00:28:39
    一、引言 由于近期在开发一个网页搜索应用,因此需要对搜索引擎的排序算法...最早的搜索引擎采用分类目录的方法,即通过人工进行网页分类并整理出高质量的网站。被称为第一代搜索引擎。 2. 文本检索 随着网页数量...
  • 搜索引擎是什么? 是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 搜索引擎的优化就是SEO优化。 搜索引擎...
  • 2006-05-25网络蜘蛛及搜索引擎基本原理 TAG:搜索相关 <br />搜索引擎的工作原理大致可以分为:   搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索...
  • 百度搜索引擎工作原理

    千次阅读 2019-02-19 11:56:14
    Spider 抓取系统的基本框架 互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要...例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider 等。 Spider 抓...
  • 搜索引擎优化手册

    千次阅读 2009-08-07 23:47:00
    搜索引擎优化知识》目录第一部分:域名和主机对SEO的影响 域名选择与SEO 主机选择与SEO 第二部分:搜索引擎优化的核心:关键字策略 关键字的选择 关键字密度 关键字分布 第三部分:对搜索引擎友好的网页设计制作 ...
  • 后端技术杂谈2:搜索引擎工作原理

    千次阅读 2018-07-10 22:58:02
    Max Grigorev最近写了一篇文章,题目是《What every software engineer should know about search》,这篇文章里指出了现在一些软件工程师的问题,他们认为开发一个搜索引擎功能就是搭建一个ElasticSearch集群,而...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 53,123
精华内容 21,249
关键字:

常用的目录类搜索引擎