精华内容
下载资源
问答
  • 介绍了一下搜索引擎的工作原理和组成部分,以Google和百度为代表介绍了搜索引擎的高级检索功能,以及搜索引擎非常强大的最常用的八条高级检索命令,最后对网上免费学术资源网站进行了介绍。
  • 汇通网盘资源搜索引擎官方版 v1.0是一款很不错的搜索引擎的源码,汇通网盘资源搜索:是由一款支持30多个网盘资源的网盘搜索引擎,利用Google自定义搜索引擎定制。介绍:1.汇通网盘搜索引擎提供115网络硬盘搜索,华为...
  • 互联网人不可或缺的资源搜索引擎

    万次阅读 2020-10-20 18:59:11
    我们改变不了世界,是世界改变了我们。Designed by QianYu1.猎手导航搜索网站简介史上最强大资源搜索引擎,猎手导航集搜索引擎搜索、社交搜索、BT磁力搜索、学术文档搜索...

     

    1. 猎手导航搜索

    • 网站简介

    史上最强大的资源搜索引擎, 猎手导航集搜索引擎搜索、社交搜索、BT磁力搜索、学术文档搜索、百度网盘搜索、影视资源搜索、程序员资料搜索、素材搜索等各行业常用网站于等一身,极大方便了网民的便捷上网
    本站平台只是简单供猎手导航搜索的基础数据分析其价值和可信度,网站的可靠性和价值仅供参考,猎手导航搜索真正的价值在于它是否为社会的发展带来积极促进作用,另外还取决于各种因素的综合分析。

    地址:http://www.lsdhss.com/

     

    2. 磁力狗

    • 网站简介

    磁力狗BT搜索工具,支持torrent磁力链搜索,海量内容一键搜索,汇集了海内外各国的高清视频资源、游戏资源和软件等,让大家可轻松获取想要的内容,有需要的赶快下载吧!

    1、众多资源聚合搜索,海量资源一网打尽;

    2、特色标签分类找片,找片原来如此简单;

    3、在线播放,离线缓存,随时随地都可看;

    4、本地视频扫描、播放,视频管理更方便;

    5、精准推荐,一键追剧,看片神器最懂你;

    地址:https://clg8.me/

     

    3. Btdad

    • 网站简介

    Btdad于2020-01-16收录于Exapmple上网导航资源搜索>BT磁力分类中,你可以通过关键字种子搜索、bt搜索、bt下载、磁力链接、磁力搜索找到Btdad的最新网址btdad.icu。
    网站简介:种子搜索网站 Btdad btdad是专业的bt种子搜索网站,拥有海量的种子数据,不间断更新,同时具有种子下载,收藏等功能。

    Exapmple上网导航只是简单供Btdad的基础数据分析其价值和可信度,网站的可靠性和价值仅供参考,Btdad真正的价值在于它是否为社会的发展带来积极促进作用,另外还取决于各种因素的综合分析。

    地址:http://bt.btdad.live/

     

    4. 雨花阁

    • 网站简介

    雨花阁:简单好用的BT搜索引擎于2020-07-02收录于资源兔资源搜索>磁力搜索分类中,你可以通过关键字雨花阁、BT搜索、BT搜索引擎找到雨花阁:简单好用的BT搜索引擎的最新网址yuhuage.club。
    网站简介:雨花阁磁力搜索 雨花阁磁力链接搜索引擎是一款功能经典且连接较为稳定的磁力链接搜索、BT种子搜索引擎。通过24小时不间断挖掘全球最新资源,同时提供高质量的番号资源!
    本站平台只是简单供雨花阁:简单好用的BT搜索引擎的基础数据分析其价值和可信度,网站的可靠性和价值仅供参考,雨花阁:简单好用的BT搜索引擎真正的价值在于它是否为社会的发展带来积极促进作用,另外还取决于各种因素的综合分析。因网站经营内容与范围不受本站限制,本站不对其网站内容真伪进行评估,建议用户保护好自己的个人信息安全。

    地址:https://www.yuhuage.xyz/

     

    5. MAG磁力站

    • 网站简介

    MAG磁力站于2018-09-17收录于Exapmple上网导航电影电视>影视下载分类中,你可以通过关键字找到MAG磁力站的最新网址oabt004.com。
    网站简介:磁力下载站,cili001.com,最新美剧下载,日剧下载,电影下载,韩剧下载
    Exapmple上网导航只是简单供MAG磁力站的基础数据分析其价值和可信度,网站的可靠性和价值仅供参考,MAG磁力站真正的价值在于它是否为社会的发展带来积极促进作用,另外还取决于各种因素的综合分析。因网站经营内容与范围不受本站限制,本站不对其网站内容真伪进行评估,建议用户保护好自己的个人信息安全。

    力狗BT搜索工具,支持torrent磁力链搜索,海量内容一键搜索,汇集了海内外各国的高清视频资源、游戏资源和软件等,让大家可轻松获取想要的内容,有需要的赶快下载吧!

    地址:http://f.cili001.com/home.html

     

    6.磁力宝

    • 网站简介

    磁力宝(FQ)最新官网网址为cilibao.me,收录于资源搜索_BT磁力分类中,网站内容主要以磁力宝,磁力吧,磁力链接,磁力搜索,bt搜索为主,磁力宝 磁力宝原名磁力吧,是专业强大的磁力链接搜索引擎,拥有超千万的磁力链接提供索引,24小时不间断更新。需要FQ才能访问。Btdad于2020-01-16收录于Exapmple上网导航资源搜索>BT磁力分类中,你可以通过关键字种子搜索、bt搜索、bt下载、磁力链接、磁力搜索找到Btdad的最新网址btdad.icu。
     

    地址:http://clb8.me/

     

    7. SkrBT

    • 网站简介

    SkrBT于2020-01-27收录于Exapmple上网导航资源搜索>BT磁力分类中,你可以通过关键字种子搜索、磁力搜索、磁力链接、种子搜索神器、BT种子下载找到SkrBT的最新网址url302.icu。
    网站简介:专业的种子搜索、磁力链接搜索引擎 SkrBT 专注于从DHT网络爬取种子和磁力链接,目前索引了上千万的磁力链接,资源涵盖了电影、剧集、音乐、图书、图片、综艺、软件、动漫、教程、游戏等领域,是全银河系资源最丰富的种子搜索、磁力链接搜索专业网站。
    Exapmple上网导航只是简单供SkrBT的基础数据分析其价值和可信度,网站的可靠性和价值仅供参考,SkrBT真正的价值在于它是否为社会的发展带来积极促进作用,另外还取决于各种因素的综合分析。因网站经营内容与范围不受本站限制,本站不对其网站内容真伪进行评估,建议用户保护好自己的个人信息安全。

    地址:https://skrbt025.xyz/

     

    8. 磁力天堂

    • 网站简介

    bt磁力天堂-cltt.me于2020-07-13收录于资源兔资源搜索>磁力搜索分类中,你可以通过关键字磁力链接、磁力搜索、磁力天堂找到bt磁力天堂-cltt.me的最新网址cltt.me。
    网站简介:磁力天堂 磁力天堂(www.cltt.me)是专业强大的磁力搜索引擎,这里有超过千万的磁力链接提供搜索,24小时不间断更新。
    本站平台只是简单供bt磁力天堂-cltt.me的基础数据分析其价值和可信度,网站的可靠性和价值仅供参考,bt磁力天堂-cltt.me真正的价值在于它是否为社会的发展带来积极促进作用,另外还取决于各种因素的综合分析。因网站经营内容与范围不受本站限制,本站不对其网站内容真伪进行评估,建议用户保护好自己的个人信息安全。

    磁力狗BT搜索工具,支持torrent磁力链搜索,海量内容一键搜索,汇集了海内外各国的高清视频资源、游戏资源和软件等,让大家可轻松获取想要的内容,有需要的赶快下载吧!

    地址:https://www.cltt2020.xyz/

     

    9. Sobt

    • 网站简介

    资源搜索>BT磁力分类中,你可以通过关键字种子搜索、bt搜索、bt下载、磁力链接、磁力搜索找到Sobt的最新网址sobt0.net。
    网站简介:种子搜索网站 Sobt sobt是专业的bt种子搜索网站,拥有海量的种子数据,24小时不间断更新,同时具有种子下载,收藏等功能。
    本站平台只是简单供Sobt的基础数据分析其价值和可信度,网站的可靠性和价值仅供参考,Sobt真正的价值在于它是否为社会的发展带来积极促进作用,另外还取决于各种因素的综合分析。因网站经营内容与范围不受本站限制,本站不对其网站内容真伪进行评估,建议用户保护好自己的个人信息安全。

    地址:http://bashi5.org/?from=sobt0.net

     


     

    你百度不到的资源,在这些网站3秒就能搜到,还不赶紧收藏一波,以后你也是老司机!不知本期的内容是不是很硬核,给不给力?

     

    点个赞,证明你还爱我

    展开全文
  • 汇通网盘资源搜索:是由一款支持30多个网盘资源的网盘搜索引擎,利用Google自定义搜索引擎定制源码功能:1.汇通网盘搜索引擎提供115网络硬盘搜索,华为网盘,盛大网盘,城通网盘,够快网盘,金山快盘T盘,迅雷快传,rayfile...
  • 各种强大资源搜索引擎及搜索各大网盘资源的方法 (更新各网盘搜索语句)搜索各大网盘资源的方法 无论是中转站、 FS2YOU或纳米盘,还是Filefront、MegaUpload、Rapidshare等各大国内外网盘,似乎都缺少资源搜索...
    各种强大的资源搜索引擎及搜索各大网盘资源的方法

     

    (更新各网盘搜索语句)搜索各大网盘资源的方法

    无论是中转站、 FS2YOU或纳米盘,还是Filefront、MegaUpload、Rapidshare等各大国内外网盘,似乎都缺少资源搜索功能。当然,对于国外一些网盘(如MU、RS)都有一些高人开发的对应的资源搜索网站,但是往往都不好用。其实,我们几乎天天都要用到的搜索引擎就能为我们提供这一服务。

    注意:国内网盘搜索最好是用搜狗( www.sogou.com ),可用中文关键字;而国外网盘搜索最好是用GOOGLE( www.google.cn ),而且至少要用英文关键字。

    其实对搜索引擎稍有了解的朋友都知道,我们在搜索时可以用一些特殊语句和符号达到自己的目的,就像在论坛上可以利用Discuz!语句使用某些效果一样。举个例子,如果我们用百度搜索“马德里”这个关键字,想要找到西班牙首都马德里市的一些新闻。但是搜索结果中有很多“皇家马德里”和“马德里竞技”的条目影响我们寻找需要的资料。另外,还有很多网页事实上只是内容里出现了“马德里”这个关键字,而主题与我们需要的相去甚远。这样,我们就可以运用如下语句进行搜索:

    title: ( "马德里" -(皇家 | 竞技))

    其中,title:语句的含义是只在标题中寻找,'' -()符号的含义是“搜索" "关键字,但不包含( )关键字”,|符号的含义是“或者”。

    看到这里大家应该能够想到了:既然我们能够限定只在标题中搜索,为什么不能限定只在某个站点中寻找呢?当然可以。但是百度对网盘的支持不好,倒是搜狗和Google做得不错。而且对于搜索引擎来说,基本原理是一样的,各种语句也是相通的。

    搜索限定站点的语句是 site:地址 关键字
    这样我们就可以搜索各大网盘的资源了。

    比如,我要在fs2you里寻找关于米兰的资源,就可以用如下语句(用搜狗):
    site:fs2you.com 米兰

    而我要在rapidshare里寻找米兰的资源,就应该用这样的语句(用Google):
    site:rapidshare.com Milan
    因为国外网盘不一定支持中文文件名,所以此处关键字用英文。

    经本人测试,此法对QQ中转站、Foxmail中转站、fs2you、纳米盘、MU、Filefront、Rapidshare、Mediafire等各种网盘都有效。

    但是此法也有缺点。由于搜索引擎会对各个站点留下一个快照,因此对于一些已经删除的资源,搜索引擎仍旧会给出结果,而打开后才发现文件已经不存在。不过其他专门的网盘搜索网站也有这种毛病,而且这些网站很不好用,因此利用搜索引擎的方法可以说是目前最好的方法了。

    后面有朋友跟帖问QQ中转站怎么搜索。我想了一下,决定把各种网盘在搜索时site语句后面的站点总结一下。

    QQ中转站
    site:mail.qq.com

    Foxmail中转站
    site:mail.foxmail.com

    FS2YOU:
    site:fs2you.com

    纳米盘
    site:namipan.com

    Mofile(自带搜索功能)
    site:share.mofile.com

    猪八戒
    site:g.zhubajie.com

    G宝盘(仅收费用户可下载他人文件,自带搜索)
    site:gbaopan.com

    新浪爱问
    site:iask.sina.com.cn

    MegaUpload
    site:megaupload.com

    Filefront(自带搜索功能,但很难找到需要的文件)
    site:filefront.com

    rapidshare
    site:rapidshare.com(英语) 或 site: rapidshare.de(德语)

    4shared
    site:4shared.com

    Filefactory
    site:filefactory.com

    ballshare
    site:ballshare.com

    sendspace
    site:sendspace.com(英语) 或 site:sendpace.pl(波兰语)

    LetItBit
    site:letitbit.net

    Data(匈牙利网盘,高速)
    site:data.hu

    2shared
    site:2shared.com

    zShare
    site:zshare.com

    Mediafire
    site:mediafire.com

    MyBloop
    site:mybloop.com
    本文转自    yuxye   51CTO博客,原文链接:http://blog.51cto.com/fishvsfrog/495890
    展开全文
  • 推荐几款优秀的、甚至可以代替谷歌的搜索引擎。本文将要推荐的搜索引擎分为4类,分别是国内可使用、国内不可使用、视频搜索、特殊。每个搜索引擎都将展示网址、介绍、效果图。

    前言

    本推荐参照网站searchenginejournal.com,原版为英文网站,且推荐的部分搜索引擎无法在国内使用,因此推荐阅读本篇博客。
    参照网站链接:17 Great Search Engines You Can Use Instead of Google

    想必大家都被搜索引擎的事情困扰过,百度有大量的广告,谷歌又无法在国内使用,那么到底有没有比较优秀的搜索引擎呢。下面我就来推荐几款优秀的、甚至可以代替谷歌的搜索引擎。本文将要推荐的搜索引擎分为4类,分别是国内可使用、国内不可使用、视频搜索、特殊。每个搜索引擎都将展示网址、介绍、效果图。

    国内可使用

    Bing

    传送门:Bing
    网址:https://cn.bing.com/

    介绍:
    国内可以使用。
    分为国内版和国际版,点击标签即可切换,且会切换对应的界面语言,中文/英文。
    Bing的图片搜索GUI要优于它的竞争对手,而且直观得多。
    Bing也为视频提供了同样干净的用户体验,使其成为视频搜索的首选源。
    截至2020年1月,微软网站处理了美国四分之一的搜索查询。

    效果图:
    在这里插入图片描述

    Baidu

    传送门:Baidu
    网址:https://www.baidu.com/

    介绍:
    国内可使用。
    不做过多介绍,用过的都知道。
    存在大量广告,搜索结果排序不合理,当做备用的搜索引擎还是可以的。

    效果图:
    在这里插入图片描述

    Yandex

    传送门:Yandex
    网址:https://yandex.com/

    介绍:
    国内可以使用。
    想要在美国以外寻找搜索视角?
    超过45%的俄罗斯互联网用户使用Yandex。白俄罗斯、哈萨克斯坦、土耳其和乌克兰也在使用。
    Yandex是一个总体上易于使用的搜索引擎。作为额外的奖励,它提供了一套非常酷的工具

    效果图:
    在这里插入图片描述

    Swisscows

    传送门:Swisscows
    网址:https://swisscows.com/

    介绍:
    国内可以使用。
    隐私性较好。
    它以尊重用户隐私为荣,从不收集、存储或跟踪数据。
    它使用人工智能来确定用户查询的上下文。
    随着时间的推移,Swisscows承诺会以惊人的准确性回答你的问题。

    效果图:
    在这里插入图片描述

    OneSearch

    传送门:OneSearch
    网址:https://www.onesearch.com/

    介绍:
    国内可以使用。
    OneSearch在2020年1月被Verizon Media推出,是专注于隐私的搜索引擎。
    它承诺:
    没有cookie追踪,重新定位,或个人资料。
    不得与广告商共享个人资料。
    不存储用户搜索历史。
    公正的,未经过滤的搜索结果。
    加密的搜索词。

    效果图:
    在这里插入图片描述

    Qwant

    传送门:Qwant
    网址:https://www.qwant.com/

    介绍:
    可在国内使用。
    Qwant是由法国出品的一个搜索引擎,以15种语言面向35个国家开放。
    专注于保护用户的隐私和信息安全,并对移动端性展示进行了专门的优化处理。是一个著名的匿名搜索。

    效果图:
    在这里插入图片描述

    Search Encrypt

    传送门:Search Encrypt
    网址:https://www.searchencrypt.com/

    介绍:
    国内可以使用,但只能搜索英文。
    Search Encrypt是一个私人搜索引擎,使用本地加密,以确保您的搜索保持私有。
    它使用一种加密方法的组合,包括安全套接字层加密和AES-256加密。
    当您输入一个查询时,Search Encrypt将从其搜索合作伙伴的网络中提取结果并交付所请求的信息。
    Search Encrypt的一个最好的部分是,您的搜索词最终将过期,因此您的信息将保持私密。

    效果图:
    在这里插入图片描述

    国内不可使用

    Google

    传送门:Google
    网址:https://www.google.com/

    介绍:
    国内不可使用。
    Google搜索引擎主要的搜索服务有:网页,图片,音乐,视频,地图,新闻,问答。
    其中,Google学术 广受研究人员的欢迎。

    效果图:
    在这里插入图片描述

    DuckDuckGo

    传送门:DuckDuckGo
    网址:https://duckduckgo.com/

    介绍:
    国内不可使用,要使用需要特殊方法。
    DuckDuckGo不会收集或存储您的任何个人信息。
    这意味着你可以安心地进行搜索,而不必担心电脑屏幕上的恶魔会盯着你。
    对于那些希望保持自己的浏览习惯和个人信息隐私的人来说,DuckDuckGo是完美的选择。

    效果图:
    在这里插入图片描述

    StartPage

    传送门:StartPage
    网址:https://www.startpage.com/

    介绍:
    国内不可使用,要使用需要特殊方法。
    StartPage提供来自谷歌的答案,对于那些喜欢谷歌的搜索结果,但不喜欢被跟踪和存储搜索历史的人来说,这是完美的选择。
    它还包括URL生成器、代理服务和HTTPS支持。URL生成器特别有用,因为它不需要收集cookie。相反,它会以促进隐私保护的方式记住你的设置。

    效果图:
    在这里插入图片描述

    Wiki.com

    传送门:Wiki.com
    网址:https://www.wiki.com/
    维基百科官网:https://en.wikipedia.org/wiki/Main_Page

    介绍:
    国内不可使用。
    Wiki.com从网上数千个维基百科中提取结果。
    对于那些喜欢像维基百科这样的社区信息的人来说,它是一个完美的搜索引擎。

    效果图:
    在这里插入图片描述

    视频搜索

    Bilibili

    传送门:Bilibili
    网址:https://www.bilibili.com/

    介绍:
    国内可以使用。
    包含动画、音乐、电影、等内容。
    需要注意的是,部分内容需要充值大会员才可以观看,支持正版。

    效果图:
    在这里插入图片描述

    电影盒子

    传送门:电影盒子
    网址:http://www.tv8box.com/
    域名发布页:链接

    介绍:
    国内可以使用。
    包含电影、电视剧、动漫、等各种影视作品。
    资源很全,包含各种VIP资源,免费观看,没有广告。
    可以登录账号,进行收藏等操作,有对应的手机APP。

    效果图:
    在这里插入图片描述

    AGE

    传送门:AGE
    网址:https://www.agefans.cc/

    介绍:
    国内可以使用。
    专门看动漫的网站。
    有登录功能,有对应的手机APP。
    资源很全,想看的都可以找到,还有百度网盘下载功能。

    效果图:
    在这里插入图片描述

    ZzzFun

    传送门:ZzzFun
    网址:http://www.zzzfun.com/

    介绍:
    国内可以使用。
    专门看动漫的网站,有登录功能,有对应的手机APP。

    效果图:
    在这里插入图片描述

    YouTube

    传送门:YouTube
    网址:https://www.youtube.com/

    介绍:
    国内不可使用。
    国际的视频分享网站,若是想看国际视频,选择YouTube绝对没错。

    效果图:
    在这里插入图片描述

    特殊

    该章节介绍一些具有特殊功能的搜索引擎。

    CSDN

    传送门:CSDN
    网址:https://www.csdn.net/

    介绍:
    国内可以使用。
    主要提供计算机相关内容的检索。

    效果图:
    在这里插入图片描述

    Stack Overflow

    传送门:Stack Overflow
    网址:https://stackoverflow.com/

    介绍:
    国内不可使用。
    主要提供计算机相关内容的检索。

    效果图:
    在这里插入图片描述

    CC Search

    传送门:CC Search
    网址:https://search.creativecommons.org/

    介绍:
    国内可以使用。
    主要检索无版权的图片、音乐、视频。
    CC Search应该是你寻找几乎任何类型的无版权内容的第一站。
    这个搜索引擎是完美的,你需要的图片、音乐或视频,不用担心被愤怒的作者追你剽窃他们的作品。
    CC Search的工作方式很简单:它从Soundcloud、Wikimedia和Flickr等平台提取结果,并将结果标记为创作共用材料。

    效果图:
    在这里插入图片描述

    Ecosia

    传送门:Ecosia
    网址:https://www.ecosia.org/

    介绍:
    国内可以使用。
    想要拯救地球,一次拯救一棵树?那就试试这个环保搜索引擎吧!
    这可能会让你感到惊讶,但你的谷歌搜索实际上会产生相当多的二氧化碳。
    因此,Ecosia利用搜索引擎查询产生的收入来种树。
    Ecosia通常需要大约45次搜索来种植一棵新树。

    效果图:
    在这里插入图片描述

    SlideShare

    传送门:SlideShare
    网址:https://www.slideshare.net/

    介绍:
    国内不可使用。
    SlideShare允许您搜索文档化的幻灯片演示文稿(PDF格式)。
    你也可以搜索电子书和pdf文件,如果你要准备一个商业演示文稿,这是一个很好的工具。
    SlideShare还允许您保存幻灯片,甚至下载整个幻灯片在您的本地计算机上使用

    效果图:
    在这里插入图片描述

    Internet Archive

    传送门:Internet Archive
    网址:https://archive.org/

    介绍:
    国内不可使用。
    这个搜索引擎提供大量的文档材料,包括数百万免费视频、书籍、音乐和软件。
    本质上,Internet Archive(互联网档案馆)是一个巨大的在线图书馆,在那里你可以访问任何你能想到的东西。

    效果图:
    在这里插入图片描述

    Twitter

    传送门:Twitter
    网址:http://www.twitter.com/

    介绍:
    国内不可使用。
    作为实时搜索引擎,Twitter很强大。在紧急情况下,这是每分钟更新信息的绝佳场所。
    谷歌的算法可能很优秀,但没有什么能比得上实时的Twitter。

    效果图:
    在这里插入图片描述

    结论

    除去Baidu和Google,优秀的搜索引擎还是有很多的。
    若你没有特殊要求,国际通用的Bing就是很好的选择。
    若你比较注重保护隐私,可以尝试Swisscows、OneSearch或Qwant。
    若你可以通过特殊手段科学上网,那么你可以尝试DuckDuckGo或StartPage。
    若你想要检索图片、音乐等资源,可以尝试CC Search或Internet Archive。
    若你想要检索幻灯片,可以尝试SlideShare。
    若你想要检索动漫,可以尝试AGE或ZzzFun。
    若你想要检索视频,可以尝试Bilibili、电影盒子或YouTube。
    若你想在检索的同时拯救地球,为环保贡献一份力量,可以尝试Ecosia。

    展开全文
  • 快速搜索你硬盘上的文件,省的你去一个一个找。
  • 后端技术杂谈2:搜索引擎工作原理

    千次阅读 2018-07-10 22:58:02
    Max Grigorev最近写了一篇文章,题目是《What every software engineer should know about search》,这篇文章里指出了现在一些软件工程师的问题,他们认为开发一个搜索引擎功能就是搭建一个ElasticSearch集群,而...

     

    写在前面

    Max Grigorev最近写了一篇文章,题目是《What every software engineer should know about search》,这篇文章里指出了现在一些软件工程师的问题,他们认为开发一个搜索引擎功能就是搭建一个ElasticSearch集群,而没有深究背后的技术,以及技术发展趋势。Max认为,除了搜索引擎自身的搜索问题解决、人类使用方式等之外,也需要解决索引、分词、权限控制、国际化等等的技术点,看了他的文章,勾起了我多年前的想法。

    很多年前,我曾经想过自己实现一个搜索引擎,作为自己的研究生论文课题,后来琢磨半天没有想出新的技术突破点(相较于已发表的文章),所以切换到了大数据相关的技术点。当时没有写出来,心中有点小遗憾,毕竟凭借搜索引擎崛起的谷歌是我内心渴望的公司。今天我就想结合自己的一些积累,聊聊作为一名软件工程师,您需要了解的搜索引擎知识。

    搜索引擎发展过程

    现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。即便没有英特网,网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。

    互联网兴起后,需要能够监控的工具。世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer,刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。

    随着互联网的迅速发展,每天都会新增大量的网站、网页,检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。现代搜索引擎都是以此为基础发展的。

    搜索引擎分类

    • 全文搜索引擎

    当前主流的是全文搜索引擎,较为典型的代表是Google、百度。全文搜索引擎是指通过从互联网上提取的各个网站的信息(以网页文字为主),保存在自己建立的数据库中。用户发起检索请求后,系统检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据存储层中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

    • 目录索引类搜索引擎

    虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

    • 元搜索引擎

      元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

    相关实现技术

    搜索引擎产品虽然一般都只有一个输入框,但是对于所提供的服务,背后有很多不同业务引擎支撑,每个业务引擎又有很多不同的策略,每个策略又有很多模块协同处理,及其复杂。

    搜索引擎本身包含网页抓取、网页评价、反作弊、建库、倒排索引、索引压缩、在线检索、ranking排序策略等等知识。

    • 网络爬虫技术

    网络爬虫技术指的是针对网络数据的抓取。因为在网络中抓取数据是具有关联性的抓取,它就像是一只蜘蛛一样在互联网中爬来爬去,所以我们很形象地将其称为是网络爬虫技术。网络爬虫也被称为是网络机器人或者是网络追逐者。

    网络爬虫获取网页信息的方式和我们平时使用浏览器访问网页的工作原理是完全一样的,都是根据HTTP协议来获取,其流程主要包括如下步骤:

    1)连接DNS域名服务器,将待抓取的URL进行域名解析(URL------>IP);

    2)根据HTTP协议,发送HTTP请求来获取网页内容。

    一个完整的网络爬虫基础框架如下图所示:

    整个架构共有如下几个过程:

    1)需求方提供需要抓取的种子URL列表,根据提供的URL列表和相应的优先级,建立待抓取URL队列(先来先抓);

    2)根据待抓取URL队列的排序进行网页抓取;

    3)将获取的网页内容和信息下载到本地的网页库,并建立已抓取URL列表(用于去重和判断抓取的进程);

    4)将已抓取的网页放入到待抓取的URL队列中,进行循环抓取操作;
    - 索引

    从用户的角度来看,搜索的过程是通过关键字在某种资源中寻找特定的内容的过程。而从计算机的角度来看,实现这个过程可以有两种办法。一是对所有资源逐个与关键字匹配,返回所有满足匹配的内容;二是如同字典一样事先建立一个对应表,把关键字与资源的内容对应起来,搜索时直接查找这个表即可。显而易见,第二个办法效率要高得多。建立这个对应表事实上就是建立逆向索引(inverted index)的过程。

    • Lucene

    Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。

    全文检索大体分两个过程,索引创建 (Indexing) 和搜索索引 (Search) 。

    索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
    搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。

    非结构化数据中所存储的信息是每个文件包含哪些字符串,也即已知文件,欲求字符串相对容易,也即是从文件到字符串的映射。而我们想搜索的信息是哪些文件包含此字符串,也即已知字符串,欲求文件,也即从字符串到文件的映射。两者恰恰相反。于是如果索引总能够保存从字符串到文件的映射,则会大大提高搜索速度。

    由于从字符串到文件的映射是文件到字符串映射的反向过程,于是保存这种信息的索引称为反向索引 。

    反向索引的所保存的信息一般如下:

    假设我的文档集合里面有100篇文档,为了方便表示,我们为文档编号从1到100,得到下面的结构

    每个字符串都指向包含此字符串的文档(Document)链表,此文档链表称为倒排表 (Posting List)。

    • ElasticSearch

    Elasticsearch是一个实时的分布式搜索和分析引擎,可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。

    • Solr

    Solr是一个基于Lucene的搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用Solr 创建的索引。

    • Hadoop

    谷歌公司发布的一系列技术白皮书导致了Hadoop的诞生。Hadoop是一系列大数据处理工具,可以被用在大规模集群里。Hadoop目前已经发展为一个生态体系,包括了很多组件,如图所示。

    Cloudera是一家将Hadoop技术用于搜索引擎的公司,用户可以采用全文搜索方式检索存储在HDFS(Hadoop分布式文件系统)和Apache HBase里面的数据,再加上开源的搜索引擎Apache Solr,Cloudera提供了搜索功能,并结合Apache ZooKeeper进行分布式处理的管理、索引切分以及高性能检索。

    • PageRank

    谷歌Pagerank算法基于随机冲浪模型,基本思想是基于网站之间的相互投票,即我们常说的网站之间互相指向。如果判断一个网站是高质量站点时,那么该网站应该是被很多高质量的网站引用又或者是该网站引用了大量的高质量权威的站点。
    - 国际化

    坦白说,Google虽然做得非常好,无论是技术还是产品设计,都很好。但是国际化确实是非常难做的,很多时候在细分领域还是会有其他搜索引擎的生存余地。例如在韩国,Naver是用户的首选,它本身基于Yahoo的Overture系统,广告系统则是自己开发的。在捷克,我们则更多会使用Seznam。在瑞典,用户更多选择Eniro,它最初是瑞典的黄页开发公司。

    国际化、个性化搜索、匿名搜索,这些都是Google这样的产品所不能完全覆盖到的,事实上,也没有任何一款产品可以适用于所有需求。

    自己实现搜索引擎

    如果我们想要实现搜索引擎,最重要的是索引模块和搜索模块。索引模块在不同的机器上各自进行对资源的索引,并把索引文件统一传输到同一个地方(可以是在远程服务器上,也可以是在本地)。搜索模块则利用这些从多个索引模块收集到的数据完成用户的搜索请求。因此,我们可以理解两个模块之间相对是独立的,它们之间的关联不是通过代码,而是通过索引和元数据,如下图所示。

    对于索引的建立,我们需要注意性能问题。当需要进行索引的资源数目不多时,隔一定的时间进行一次完全索引,不会占用很长时间。但在大型应用中,资源的容量是巨大的,如果每次都进行完整的索引,耗费的时间会很惊人。我们可以通过跳过已经索引的资源内容,删除已不存在的资源内容的索引,并进行增量索引来解决这个问题。这可能会涉及文件校验和索引删除等。另一方面,框架可以提供查询缓存功能,提高查询效率。框架可以在内存中建立一级缓存,并使用如 OSCache或 EHCache缓存框架,实现磁盘上的二级缓存。当索引的内容变化不频繁时,使用查询缓存更会明显地提高查询速度、降低资源消耗。

    搜索引擎解决方案

    • Sphinx

    俄罗斯一家公司开源的全文搜索引擎软件Sphinx,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Sphinx创建索引的速度很快,根据网上的资料,Sphinx创建100万条记录的索引只需3~4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新10万条记录的增量索引,重建一次只需几十秒。

    • OmniFind

    OmniFind 是 IBM 公司推出的企业级搜索解决方案。基于 UIMA (Unstructured Information Management Architecture) 技术,它提供了强大的索引和获取信息功能,支持巨大数量、多种类型的文档资源(无论是结构化还是非结构化),并为 Lotus®Domino®和 WebSphere®Portal 专门进行了优化。
    下一代搜索引擎

    从技术和产品层面来看,接下来的几年,甚至于更长时间,应该没有哪一家搜索引擎可以撼动谷歌的技术领先优势和产品地位。但是我们也可以发现一些现象,例如搜索假期租房的时候,人们更喜欢使用Airbub,而不是Google,这就是针对匿名/个性化搜索需求,这些需求是谷歌所不能完全覆盖到的,毕竟原始数据并不在谷歌。我们可以看一个例子:DuckDuckGo。这是一款有别于大众理解的搜索引擎,DuckDuckGo强调的是最佳答案,而不是更多的结果,所以每个人搜索相同关键词时,返回的结果是不一样的。

    另一个方面技术趋势是引入人工智能技术。在搜索体验上,通过大量算法的引入,对用户搜索的内容和访问偏好进行分析,将标题摘要进行一定程度的优化,以更容易理解的方式呈现给用户。谷歌在搜索引擎AI化的步骤领先于其他厂商,2016年,随着Amit Singhal被退休,John Giannandrea上位的交接班过程后,正式开启了自身的革命。Giannandrea是深度神经网络、近似人脑中的神经元网络研究方面的顶级专家,通过分析海量级的数字数据,这些神经网络可以学习排列方式,例如对图片进行分类、识别智能手机的语音控制等等,对应也可以应用在搜索引擎。因此,Singhal向Giannandrea的过渡,也意味着传统人为干预的规则设置的搜索引擎向AI技术的过渡。引入深度学习技术之后的搜索引擎,通过不断的模型训练,它会深层次地理解内容,并为客户提供更贴近实际需求的服务,这才是它的有用,或者可怕之处。

    Google搜索引擎的工作流程

    贴个图,自己感受下。

     





    详细点的 :



    作者:顿炖
    链接:https://www.zhihu.com/question/19937854/answer/98791215
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    微信公众号

    个人公众号:程序员黄小斜

    微信公众号【程序员黄小斜】新生代青年聚集地,程序员成长充电站。作者黄小斜,职业是阿里程序员,身份是斜杠青年,希望和更多的程序员交朋友,一起进步和成长!专注于分享技术、面试、职场等成长干货,这一次,我们一起出发。

    关注公众号后回复“2019”领取我这两年整理的学习资料,涵盖自学编程、求职面试、算法刷题、Java技术学习、计算机基础和考研等8000G资料合集。

    技术公众号:Java技术江湖

    微信公众号【Java技术江湖】一位阿里 Java 工程师的技术小站,专注于 Java 相关技术:SSM、SpringBoot、MySQL、分布式、中间件、集群、Linux、网络、多线程,偶尔讲点Docker、ELK,同时也分享技术干货和学习经验,致力于Java全栈开发!

    关注公众号后回复“PDF”即可领取200+页的《Java工程师面试指南》强烈推荐,几乎涵盖所有Java工程师必知必会的知识点。

    展开全文
  • Elasticsearch 搜索引擎开发实战

    千次阅读 2019-01-03 23:30:39
    本书结合 Elasticsearch 在工程中的实际应用,详细介绍了使用 Elasticsearch 开发支持中文和英文搜索引擎的相关技术,从而实现系统监控。 本书共分为8章,内容涵盖了 Elasticsearch 搜索引擎开发的环境安装与配置;...
  • 万能超级搜索引擎是中国唯一完全免费且也是目前中国最强大的超级搜索引擎商业版系统,程序包含官方全部搜索文件,完全不调用官方搜索结果。 经数据统计,全国已超过30000个网站和超过5000家网吧正在使用本程序。 而且...
  • 搜索引擎(search engine)就是网络信息资源检索与利用的核心工具 目录: 4.1 搜索引擎原理与分类 搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻有...
  • 雨爱搜索引擎网站源码小清新版简介  雨爱搜索引擎采用自然界中常见的颜色绿色,绿色是植物的颜色,在中国文化中有生命的含义,也是春季的象征;绿色不仅仅是由树木、花草构成的风景,绿色还代表和平、宁静、自然、...
  • 超好用的搜索引擎推荐

    千次阅读 2020-09-26 10:35:24
    搜索引擎是我们信息资料搜集的最重要的渠道之一,用搜索引擎查找信息资料需要使用恰当的关键词和一些搜索技巧。目前国内主要的搜集引擎有如下10个,近期还有较多行业 型搜索冒出来,需找专业型行业资料可以使用行业...
  • 20款开源搜索引擎介绍与比较

    万次阅读 2018-06-21 11:50:07
    开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据...
  • Java 3DMenu 界面源码 5个目标文件 内容索引:Java源码,窗体界面,3DMenu Java 3DMenu 界面源码,有人说用到游戏中不错,其实平时我信编写Java应用程序时候也能用到吧,不一定非要局限于游戏吧,RES、SRC资源都有,都...
  • P2P搜索引擎

    2012-05-02 13:18:27
    可以搜索一些稀缺资源,用迅雷下载,速度很快,功能强大
  • 强大的FTP搜索引擎 适合大家搜索互联网上的FTP资源。谢谢下载!!
  • 1、百度网盘、华为网盘搜索书名 http://pan.btbook.net/ 2、新浪微盘搜索书名 http://vdisk.weibo.com/ 3、google、百度、360、搜狗、bing搜索 书名 + pdf、txt、mobi、epub(Electronic Publication...
  • 搜索引擎使用的一些基本技巧

    万次阅读 2019-03-11 14:00:18
    搜索引擎使用的一些基本技巧1. 前言2. 双引号——完全匹配3. 减号——排除部分关键词4. fileytype:——指定搜索特定文件格式5. inurl:——用于搜索查询词在url中的页面6. allinurl:——与inurl类似7. intitle:——...
  • 麦布搜索引擎 v3.3 Pro

    2019-10-18 05:27:30
    麦布搜索引擎是基于ASP开发的一套系统,一个功能强大的搜索系统,本系统特点速度快、占用服务器资源小、扩展功能强大,能方便快捷地建立您的搜索引擎。为庆贺优站目录正式上线,麦布搜索引擎专业版程序首次对外公开...
  • 搜索引擎学习资源收集

    千次阅读 2013-11-19 17:37:24
    这篇文章貌似至少六年前人写的,...搜索引擎学习资源收集 一、搜索引擎技术/动态资源 、综合类 1、卢亮的搜索引擎研究 http://www.wespoke.com/  卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎
  • ES(elasticsearch)搜索引擎安装和使用

    万次阅读 2019-03-31 23:18:43
    搜索技术是全栈工程师必备技术之一,如今是开源时代,数不尽的资源供我们利用,如果要自己写一套搜索引擎无疑是浪费绳命。本节主要介绍搜索引擎开源项目elasticSearch的安装和使用 请尊重原创,转载请注明来源网站...
  • 麦布搜索引擎是基于ASP开发的一套系统,一个功能强大的搜索系统,本系统特点速度快、占用服务器资源小、扩展功能强大,能方便快捷地建立您的搜索引擎。为庆贺优站目录正式上线,麦布搜索引擎专业版程序首次对外公开...
  • 搜索引擎介绍

    千次阅读 2017-02-06 11:41:51
    自从1994年问世以来,搜索引擎逐渐成为了人们获取Internet信息资源的主要方式,相关搜索引擎网站也逐渐成为Web用户使用Internet时的首选访问站点之一,另外搜索引擎和实时通讯、电子邮件等服务已经成为当今各大门户...
  • 360搜索的百亿级网页搜索引擎架构实现

    千次阅读 多人点赞 2019-07-31 19:33:20
    本文就来为大家介绍一下,如此强大搜索引擎是如何设计的,涉及了哪些关键技术点。 360搜索概况 目前360搜索每日抓取的网页数量高达十亿,已经收录的网页基本上是万亿级别的网页集合,实际可检索的网页是在...
  • 谷歌搜索引擎使用语法大全收集

    千次阅读 2020-04-28 17:32:42
    目录google介绍关于谷歌语法的一些例子Google常用语法踩点:...其原理很简单,就是利用搜索引擎强大的搜索能力,来查找一些存在漏洞的网站。要利用Google来查找网站的漏洞自然要学会Google这个搜索引擎的语法了。下...
  • bt磁力链接搜索大师是一款磁力链接搜索软件,拥有强大搜索引擎 功能:依靠dht网络,可以按照不同的类别进行分类搜索出百万条资源数据信息。你也可以将种子文件转换成磁力连接并分享到dht网络中支持在线视频观看技术...
  • PAGE / NUMPAGES 用 PHP 构建自定义搜索引擎 虽然 Google 及其系列产品几乎无所不能但是 Web 形式的强大搜索引擎并不能很好地适用于每个站点如果站点内容已被高度专业化或已明确分类那就需要使用 Sphinx 和 PHP 来...
  • SEO之搜索引擎简史

    万次阅读 2020-09-13 02:02:04
    网上资源数量远超出我们个人所能想象与掌控的,没有搜索引擎,我们几乎无法有效利用这些资源,也就没有互联网的今天。 当今社会化媒体如日中天,诸如微博、微信、Facebook、Twitter等应用的使用人次、网站流量、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 60,394
精华内容 24,157
关键字:

强大的资源搜索引擎