精华内容
下载资源
问答
  • 本地搜索引擎
    千次阅读
    2019-06-20 15:46:52

    搜索引擎是什么?

    是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

    搜索引擎的优化就是SEO优化

    搜索引擎的组成:

    搜索引擎是由四部组成:

    • 搜索器:是在互联网中漫游,发现和搜索信息
    • 索引器:理解索引器搜索的信息,从中抽取索引表,生成文档库。
    • 检索器 :是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价  
    • 用户接口:是输入用户查询,显示查询结果,提供用户相关性反馈机制。

    搜索引擎分类:

    全文索引:从网站上提取信息建立网页数据库的概念。

    一共有两种:

    定期搜索:由网站派出蜘蛛爬虫来收取信息,一旦发现新的网站,蜘蛛爬虫就会搜录你的网站网址的信息。

    提交网站搜索:用户网站主动向搜索引擎提交网址,由引擎定向的向你的网站派出蜘蛛爬虫。

    目录索引:目录索引就像目录一样,需要手工选取你想要的内容,

    元搜索引擎:接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。

    垂直引擎:专注于特定的搜索领域和搜索需求。

    集合式搜索引擎:与元搜索相类似,但是不是从多个搜索引擎上搜索,而是由用户提供若干个搜索引擎中选择。

    门户搜索引擎:提供了搜索服务,但自身既没有分类目录页没有网页数据库,器结果完全来自于其他搜索引擎。

    免费链接列表:简单地滚动链接条目,少部分有简单的分类。

    搜索引擎有哪些? 

    PS:搜索引擎也就是我们做的网页的搜索栏,把我们想要搜索的内容放到搜索框里,不是我们想要的就进行过滤,把我们想要的东西展现在我们的面前,这样是不是就明白搜索引擎是什么了。

    也就是我常用的就是百度,360,谷歌

    看看你都用过什么搜索引擎:百度,谷歌,Bing(去Bing一下:有国内版本和国外版本),维基百科(我没登上去),亚马逊(我想你是知道亚马逊是做什么的),最后一个我也不知道。

    百度:

    PS:我所用的搜索方式就是小白搜索方式还有其他的搜索方式,上边有一个数字,就是搜索得到的数据,显示在第一页得到搜索结果就是排名。

    更多相关内容
  • 本地搜索引擎

    2015-12-09 09:51:56
    windows的本地搜索引擎,快速查找目标文件,方便简洁
  • 所以我们的意图不是成为本地搜索引擎,而是成为国内搜索引擎的“搜索引擎”界面:) 我们开始gidiyoo.org作为一个批评,但是我们听说很多人喜欢它,并使其成为着陆页。许多人想要准备这个附加,当他们发现“网站”主页...
  • 2. 前端+搜索引擎:Xunsearch(迅搜)& Xapian. 3 3. 网页解析与数据存储:Parser.py(BeautifulSoup4).... 5 (二) 设计文档.... 6 一、 运行环境.... 6 二、 总体设计流程.... 7 ...

    《先锋检索》——开发文档

    也是本人的第一篇博客


    这篇博客是本人《信息检索》课程大作业的开发文档,使用了larbin(网络爬虫)+xunsearch(搜索引擎解决方案)的解决方案。事实上,或许有更多更简单/更高超的方案,但是我使用的这个方案,一方面,相比一些需要较高技术的方案节省了大量的时间;另一方面,相对于一些现成的代码实际上仍然需要一些简单的操作,有利于进一步加强对“信息检索”实现过程的理解。

    注意:本系统需要在Linux下部署运行,本人曾尝试使用Ubuntu18.0 /Centos 7.0部署,均获得成功。可能需要使用虚拟机,有关教程请自行搜索,相信你一定行。

    第一部分主要介绍一些理论上的内容;实操性的内容从第二部分设计文档开始。

    文末附有本项目的仓库链接。

    一些细节,如文件应该放在那个文件夹下、命令行应该在哪个文件夹中运行,可能没有显式地指出,希望读者可以从附图中得到有关信息,或自行尝试。

    项目地址:https://gitee.com/CHH12/IR-project-pioneer-search

    仓库中含有完整设计文档。

    (由于选题原因,一些图片不能展示,敬请移步仓库下载PDF原版)


    目录

    (一)系统说明

    一、系统架构

    二、模块介绍

    1.网络爬虫——Larbin

    2.前端+搜索引擎:Xunsearch(迅搜)& Xapian

    3.网页解析与数据存储:Parser.py(BeautifulSoup4)

    (二)设计文档

    一、运行环境

    二、总体设计流程

    三、各模块设计细节

    1.网络爬虫模块

    2.解析器模块

    3.搜索引擎模块

    四、网站页面一览


    本搜索引擎主要收录与 红色 有关的网页文档,基于这一描述,我决定将本搜索引擎命名为“先锋检索”。

    本搜索引擎系统主要架构如上图所示。

    检索的源文档由网络爬虫从给定的种子网页开始爬取,爬取到本地后利用Python中的BeautifulSoup4模块进行网页的解析,并写入数据库中,完成网页文档数据的获取。

    之后利用搜索引擎解决方案Xunsearch(迅搜)构建搜索引擎,利用索引器Indexer对文档数据进行索引,并构建基于Xapian的后端搜索服务器与前端的搜索应用,向用户展示出搜索功能。

    Larbin是一种开源的网络爬虫,由法国人Sébastien Ailleret独立开发,用c++语言实现。

    Larbin设计简单,具有高度的可配置性,能够配置抓取深度、间隔、并发度、代理,并支持通过后缀名对抓取网页进行过滤。

    Larbin具有非常高的效率,一个简单的larbin的爬虫可以每天获取500万的网页,可以轻易的获取/确定单个网站的所有联结,还可以镜像一个网站。Larbin能够跟踪从给定的种子页面出发,进行自动扩展url的页面抓取与保存,从而为搜索引擎提供广泛的数据来源。

    美中不足的是,Larbin只是一个爬虫,只抓取网页,并不负责网页的解析、数据库的存储以及索引的建立,也不支持分布式系统。另外,Larbin已经较长时间不再更新,因而不支持https协议,这在今天很大程度上造成了网页页面的局限性。

    这里采用由国人在基于原版Larbin2.6.3版本上继续开发并发布于GitHub的Larbin2.6.5版本进行搜索引擎系统的构建。

    项目网址:https://github.com/ictxiangxin/larbin

    2.前端+搜索引擎:Xunsearch(迅搜)& Xapian

    (1)Xunsearch

    Xunsearch(迅搜)是一以 GPL 协议开源发布的高性能、全功能的全文检索解决方案,并针对中文深度优化和处理,用于帮助开发者针对海量数据快速建立搜索引擎。

    Xunsearch 采用结构化分层设计,包含后端服务器和前端开发包两大部分。后端是用 C/C++ 基于 Xapian搜索库、SCWS 中文分词、libevent 等开源库开发,借鉴了 nginx 的多进程多线程混合工作方式,是一个可承载高并发的高性能服务端。前端则是使用流行的脚本语言编写了开发工具包(SDK)。

    Xunsearch具有以下特点:

    1. 海量数据下高速搜索响应。单库最多支持 40 亿条数据,在 500 万张网页1.5TB 数据中,非缓存检索时间约 0.5 秒。
    2. 为搜索而自主开发 scws 中文分词库,支持复合分词、自定义补充词库,保障查全率、准确率。
    3. 拥有健壮稳定的后端守护程序、内置缓存池与线程池用于保障性能。
    4. 索引接口齐全,索引添加简便,支持实时搜索,支持多种数据源 ( SQL, JSON, CSV等)。
    5. 开发难度较低,具备规范的中文文档、示范代码,以及非常实用的辅助工具。
    6. 除通用搜索引擎功能外,还内置支持拼音检索、分面搜索、相关搜索、同义词搜索、搜索纠错建议等专业功能。
    7. 与 Lucene/Sphinx 等相比,xunsearch 提供了更丰富且必需的功能。

    在开发的过程中,正是得益于xunsearch所提供的多种方便的工具,才能够让我在短时间内得以顺利地开发完成本项目。

    特别注意到,Xunsearch中的索引有如下特点:

    1. Xunsearch 每个搜索项目的索引数据是分开单独存放的,索引本质上是一系列预设计文件, 内部都是特别设计的 Tree 结构。
    2. 包含 2 个主要索引数据库,分别是db 默认的主索引数据库,存放各种检索数据;log_db 搜索日志数据库,用于存放搜索日志相关,用于实现相关搜索、搜索建议、拼音搜索等。
    3. 索引操作(包含添加、删除、修改文档)均是异步的行为,以达到性能优化设计。

    (2)Xapian

    Xunsearch基于Xapian搜索引擎库开发,也正是在Xapian的支持下xunsearch才能有前文所述的高速搜索响应。

    在Xapian的文档中,官方称 Xapian是一个“允许开发人员轻易地添加高级索引和搜索功能到他们的应用系统的高度可修改的工具,它在支持概率论检索模型的同时也支持布尔型操作查询集”。

    实际上Xapian与Lucene有许多相似之处,如二者都有Term、Value、Posting、Position和Document这些概念。

    当然,而二者也有许多不同:Xapian基于C++进行开发,可以绑定到多种语言,可移植性高;Xapian采用BM-25模型,具有较好的检索效果;Xapian的检索性能远远高于Lucene。

    Xapian提供了多种查询机制,包括:概率性搜索排名、相关度反馈、邻近搜索、布尔搜索、词干提取、通配符查询、别名查询、拼写纠正等,为开发者提供了丰富的功能。

    Xpian的主要功能点总结如下:

    1. 开源,基于GPL协议
    2. 支持Unicode,存储索引数据也是用UTF-8
    3. 可移植性,可以运行在Linux, Mac OS X, Windows系统上
    4. 支持多种语言的绑定,现在有Perl, python, java, PHP, C#等
    5. 以概念模型为查询分数计算基础,利用BM25算法进行加权
    6. 可以实现相关度的反馈,Xapian能够基于用户的查询条件来返回与其相关的词组,并基于此进行检索,返回一类相关的文档
    7. 词组与近似词查询,用户的查询条件可以指定词组中词的出现顺序,出现次数等条件
    8. 支持Boolean查询,如"A NOT B",Boolean查询结果的排序是基于概率模型,
    9. 支持词干的查询
    10. 支持前缀查询,如Xap*
    11. 支持同义词查询,
    12. 支持基于用户查询条件的拼写检测
    13. 支持分面搜索。
    14. 支持大于2GB的数据文件
    15. 与平台(操作系统)独立的索引格式,linux和windows平台可以使用相同的索引

    Xapian的主要设计如下:

    1. 布尔型检索和概率性检索有两种组合的方式:先用布尔型检索得到所有documents中的某个子集,然后在这个子集中再使用概率性检索。 先进行概率性检索,然后使用布尔型检索过滤查询结果。
    2. 布尔型风格的查询都可以在检索得出documents集合结果后,然后使用概率性检索的排序(BM25)。
    3. 使用flint作为存储系统,以块的形式来存储,默认每块是8K,理论上每一个文件最大可以达到2048GB。Terms和Documents使用B-树来存储的,增删改查比较方便迅速
    4. Xapian的database是所有用于检索的信息表的集合,必须包含:
      1. posting_list_table:保存了被每一个term索引的document,实际上保存的应该是document的唯一识别Id。
      2. record_table:保存了每一个document所关联的data,data不能通过query检索,只能通过document来获取。
      3. term_list_table:保存了索引每个document的所有的term。

    3.网页解析与数据存储:Parser.py(BeautifulSoup4)

    对于网页文档内容进行解析和格式化。可以利用python的BeautifulSoup4模块编写一个简易的脚本程序实现这一功能。

    BeautifulSoup4是一个可以从HTML或XML中提取数据的python库,利用它可以很快的实现网页解析的功能。

    模块文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#

    主机:

    系统:Windows 10

    带宽:40Mbps

    虚拟机(搜索引擎运行环境):

    软件:VMware Workstation Pro 14

    配置设置:

           内存:2GB

           处理器:Intel(R) Core(TM) i7-8550U CPU @ 1.80GHz(核心数:1)

    系统:Linux Ubuntu 18.04

    依赖环境:

    Apache 2.0

    PHP 5.3.29

    python 3

    (1)概述:

    网络爬虫模块使用Larbin2.6.5进行网页文档的爬取。在按照配置进行爬取30分钟后,最终获得41612个文档(约1.25GB)。由于爬虫自身的限制,这些文档均来自http站点。

    (2)配置:

    1. 输出模式:简单保存
    2. 是否锁定种子站点:否
    3. 并行连接访问的数目:50
    4. 并行DNS请求的数目:5
    5. 爬取站点的最大深度:无限制
    6. 同一个服务器的两次请求的间隔时间:10秒
    7. 带宽限制:无限制
    8. 运行时间:30分钟
    9. 提取的页面数:无限制
    10. 是否哈希页面以去重:是
    11. 种子网页地址:
      1. http://www.12371.cn(共产党员网)
      2. http://www.uucps.edu.cn/(大学生网络党校)

    (3)爬取记录与分析:

    从统计结果可以看出,共收到56894个URL,访问了55685个页面,最终成功爬取41612个页面。平均每分钟爬取1387个页面,其效率之高可见一斑。

     

    从上图可以具体地得出爬虫的爬取效率,可见爬虫爬取的速度随着时间的推移也会发生较大的变化。

     

    上图反映了爬虫爬取结束时的资源使用情况。

    2.解析器模块

    1. 概述:

    解析器模块由我直接利用Python的BeautifulSoup4, Pandas模块编写,前者可以对网页文档进行解析,后者便于将数据以csv文件形式保存,便于后续搜索引擎使用。

    2.核心代码:

    id = []
    
    title = []
    
    body = []
    
    urls = []
    
    #确定id,保存url
    
    id.append(k)
    
    url = lines[k % 2000]
    
    url = url[url.find('h'):].replace('\n', '')
    
    urls.append(url)
    
    
    
    #解析网页
    
    with open(path + file, 'rb') as f:
    
        soup = BeautifulSoup(f.read(), 'html.parser')
    
        if soup.title == None or soup.title.string == None:
    
            title.append('')
    
        else:
    
            title.append(soup.title.string.replace('\n', '').replace('\r', ''))
    
        body.append(soup.get_text().replace('\n', '').replace('\r', ''))
    
    print(k)
    
    
    
    #生成记录
    
    data = {'id': id, 'title': title, 'body': body, 'urls': urls}
    
    frame = pd.DataFrame(data)
    
    #写入数据文件
    
    if k == 0:
    
        frame.to_csv('data_u.csv', encoding='utf-8', index=False)
    
    else:
    
        frame.to_csv('data_u.csv',
    
                     mode='a+',
    
                     header=False,
    
                     encoding='utf-8',
    
                     index=False)
    
    k = k + 1

    (3)处理结果:

     

    每个文档被分出id,title,body, urls四个字段,存储在一个csv文件中。

    3.搜索引擎模块

    (1)概述:

    搜索引擎模块利用xunsearch提供的开发工具即可实现。首先确定运行环境正常,然后对格式化的csv文件进行索引,并生成搜索骨架代码,即可实现基本检索功能。

    (2)构造流程:

    #环境检查:

    工具包中配备了运行检测工具RequiredCheck ,检查当前环境是否满足Xunsearch的运行条件。

    这里可以看出系统环境能够运行Xunsearch。

    #编写项目配置文件:

    Xunsearch工具包中配备了配置文件生成工具IniWizzard(http://xunsearch.com/tools/iniconfig),仅需指定项目的名称,服务器的端口,以及数据中各个字段在索引中的类型、索引方式、检索权重,摘要长度等属性,就可以自动生成配置文件。

    回顾网页解析的部分,在生成的csv文件中,每条文档记录有四个字段:id,title,body,urls。在搜索引擎中,对这三个字段进行如下定义与说明:id为主键,作为每个文档的标识符;title为每个文档的标题,可以指定字段搜索,也可从“全文”搜索中得到结果,且赋予较高权重;body为每个文档的内容,可以从“全文”搜索中得到结果,并截取300个字符作为搜索结果的摘要显示;urls 作为每个文档在展示时的附属信息,不进行索引;这里截取完整url进行展示,故取较大长度100。利用该工具可以生成配置文件。由于大多配置与默认相同,因此没有显式地在配置文件中指出。

    #建立索引:

    工具包中配备了索引管理器Indexer,可以批量导入索引、清空索引、刷新索引队列等。可以方便地为格式化的csv文件建立索引。

     

     

    在db文件夹下,可以看到建立的索引文件。

    #搜索测试:

    工具包中配备了搜索测试工具Quest,可以在当前索引中进行测试搜索,测试给定查询词的返回的数据。

     

    #骨架代码生成:

    工具包中配备了骨架代码生成工具SearchSkel,可以生成按照配置文件生成前端代码,大大加快了开发速度,避免了“反复造轮子”的困扰。

     

    如图所示,已经在./search中生成了骨架代码,访问php文件即可使用搜索功能。

    #部署到web可达目录:

    运行Apache2.0,PHP5.4,将骨架代码放入/var/www/html中,即可在本地服务器localhost访问搜索页面,实现搜索引擎的功能。

     

    输入查询词,生成url,并输出对应检索页面。

    点击文档标题,会返回对应的文档主键(id)

    #l利用给定代码进行再开发:(修改php文件等,请自行摸索)

    • 重新设计页面logo,更加符合本搜索引擎主题
    • 对骨架代码中的国外cdn进行修改,加快访问速度
    • 对页面中的不合理的内容、样式进行优化,增加美观性
    • 对搜索反馈的结果进行优化,加入指向源网页的超链接,优化用户体验

    #部署到服务器:

    本项目已经部署到公网服务器(出于安全缘故这里不进行开放)。

    (图片无法上传,请进入仓库下载原文)

    在部署到web可访问的目录后,通过虚拟机的端口转发设置,即可实现在主机访问搜索引擎。若将本项目布置在服务器上,即可通过互联网进行访问。

    1. 首页:

    可以从本地浏览器访问到检索页面。在使用了搜索功能后,搜索引擎将分析搜索日志,从而提供了热门搜索词。

    页脚标明了作者的信息。

    搜索时,可以选择按照标题字段检索或全文检索,可以开启同义词搜索、模糊搜索等功能,也可以选择排序规则。

    2.查询词联想

    可以看到在输入查询词的同时系统会自动进行联想。

    3.搜索纠错:

     出现查询词可能出现错误时,系统会给出替换用词;当没有搜索到结果时,系统会给出纠错提示与修改建议

    4.结果反馈:

    在反馈搜索时,会反馈查询结果的标题、文档摘要以及文档对应的原网址,并进行对查询词进行高亮表示(红字斜体),并会返回检索条目,检索时间,检索相似度等信息。在页脚还提供了与查询词相关的搜索内容。

    5.结果交互:

    为每个搜索结果的标题进行特殊设置:一是在选中条目时,条目样式会发生改变,增强交互感;二是设置超链接,方便从搜索结果直接跳转至原页面进行内容查看。

    项目地址:https://gitee.com/CHH12/IR-project-pioneer-search

    链接中含完整设计文档

    展开全文
  • 超赞的本地搜索工具 点击直接安装就可以了,没什么其他注意的吧
  • 此插件用于生成搜索索引文件,其中包含您文章的所有必要数据,可用于为博客编写本地搜索引擎。 -在此站点的侧边栏中尝试搜索引擎。指导安装$ npm install hexo-generator-search-zip --save选项您可以在根_config....
  • 基于nutch的搜索引擎的设计与实现毕业论文.docx
  • 可以快速搜索本地文件的高级搜索引擎,大幅提高办公速率,最新版everything ,强力推荐 可以快速搜索本地文件的高级搜索引擎,大幅提高办公速率,最新版everything ,强力推荐 可以快速搜索本地文件的...
  • 本地搜索引擎mac

    2013-06-21 10:29:43
    使用java swing 开发的本地文件搜索引擎,模仿百度,关键字变红,点击可以打开
  • 搜索引擎-面向本地电脑的垂直搜索引擎的分析与实现.pdf
  • GoogleDesktop—Google本地搜索引擎
  • 电脑本地搜索神器

    2018-05-16 15:45:40
    电脑本地搜索神器
  • 人工智能-搜索引擎
  • Linux用处越来越多,不少朋友相信已经用它架设过各种服务,比如什么Web、FTP、BBS等等等啦,这次我向大家介绍另外一个在linux下运行的服务器软件----NoseyParker,这是一个强大的FTP搜索引擎,只要一些简单的步骤,一...
  • “极速恰搜”是一个运行于Windows系统,基于文件、文件夹名称的快速搜索引擎。 “极速恰搜”在搜索之前就会把所用的文件和文件夹都列出来,这一点与Windows自带的搜索系统不一样,所以我们称之为“极速恰搜”。 在...
  • Everything本地搜索工具

    2018-10-29 16:17:36
    Everything本地磁盘搜索工具,能够迅速检索本地文件,快速查找。
  • 团队Delos提交WinHacks 2021本地供应商搜索引擎挑战赛 本地供应商搜索引擎 要创建一个应用程序,该应用程序总结提供的外卖或路边取货的本地供应商(按距离)。 该应用程序将提供营业时间,联系方式,可用的菜单/特价...
  • /1 前言/相信大家在知识共享的这个年代一定在网上下载了很多的文件保存以供日后有时间学习吧,毕竟硬盘空间也比较有限,下面我们就来说说我们要做的这个项目,就是搜索盘搜里的资源然后进...

    /1 前言/

        相信大家在知识共享的这个年代一定在网上下载了很多的文件保存以供日后有时间学习吧,毕竟硬盘空间也比较有限,下面我们就来说说我们要做的这个项目,就是搜索盘搜里的资源然后进行下载。

    /2 项目目标/

        实现搜索自己想要的文件,并且下载文件。

    /3 项目准备/

        使用sublime text 3 开发。因为此次我们需要用到交互式来完成操作,所以需要在sublime text 3 下载一个sublimeREPL插件来进行辅助开发。

    /4 项目实现/

    1、打开盘搜,并随意打开一个链接,如下图所示:

    2、然后可以看到这个画面,如下图所示。


    3、此时这个网页地址为:

    http://www.pansou.com/?q=成化十四年
    

    由此可以看出它是一个get请求。于是requests.get搞起来,这样我们就实现了第一步,搜索。于是,可以这样写代码:

    import requests 
    def down(content):
      content=input('请输入要下载的文件名')
      rep=requests.get('http://www.pansou.com/?q='+str(content))
      rep.encoding='utf-8'
    

    4、这样就得到了上个页面中的网页源代码,我们通过搜索相关关键字发现竟然搜不到:


    5、那么这是怎么回事?原来这是因为ajax异步加载导致的部分关键代码显示不出来。这可就犯难了,换句话说这就触及到我的知识点盲区了。

    因为小编并未学过前端,只知道有ajax这回事,哪里知道这个问题怎么产生怎么解决了。不过不用怕,还好小编有一个大绝招,那就是找接口。我找呀找,终于被我找到了,哎,功夫不负苦心人。如图所示:


    6、发现这是个json格式的所以我们现在可以将他进行读取,如图:


    7、不容易啊,json的坑很多,于是决定用字典。哈哈哈哈,果然适合自己的才是最香的。

    找到了这些东西我们就可以把他们提取出来啦,这样我们就提取出了第一页的所有结果,要想提取第二页的结果只需将p的结果改为2即可。

    最终的结果,如图:

    8、接下来我们强化下程序,让他具有交互功能,供用户选择。

    9、但是我们了解到callback一般都是可变的函数,所以真正能用上的就只有两个参数,q和p,于是:

    这样就完成了指定页面的文件浏览。

    下载的话也比较简单,直接将链接复制到浏览器中即可,这样就完成了一个最简单的搜索引擎了。

    /5 小结/

    1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。
    2、本文基于Python网络爬虫,利用爬虫库,打造了一款简易的Python搜索引擎。
    3、实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。
    4、如果需要本文源码的话,请在公众号后台回复“引擎”关键字进行获取,觉得不错,记得给个star噢。

    end

    由菜鸟学Python原班人马打造的公众号【程序员GitHub】,专注于分享GitHub上有趣的资源包括,Python,Java,Go语言前端学习等优质的学习资源,爆料程序员圈的新鲜趣事,热门干货,职场感悟,感兴趣的小伙伴可以来捧场!

    程序员GitHub

    
    
    

    长按2秒,输入:【福利】

    点这里,进菜鸟学PythonB站大本营
    
    展开全文
  • Jets.js 是一个 JavaScript 库,用于创建本地的 CSS 搜索引擎。Jets.js 的主要功能是在过滤时,不影响列表中每个标签的属性。浏览器会决定列表中哪个元素将显示或者隐藏,而不是只在<style>标签上提供动态的 ...
  • php 搜索引擎源码

    2011-06-09 21:49:11
    php搜索引擎源码 dajianvlixiazai ba
  • 搜索引擎爬虫工作原理.pdf搜索引擎爬虫工作原理.pdf搜索引擎爬虫工作原理.pdf搜索引擎爬虫工作原理.pdf搜索引擎爬虫工作原理.pdf搜索引擎爬虫工作原理.pdf搜索引擎爬虫工作原理.pdf搜索引擎爬虫工作原理.pdf
  • 搜索引擎收录情况批量查询工具可以在本地直接查询某网址当前在各大搜索引擎的收录情况,使用方便,查询速度可观,且所有数据都是从各大搜索引擎返回过来的第一手数据。每天去那些站长工具网站去查询各大搜索引擎收录...
  • 推荐几款优秀的、甚至可以代替谷歌的搜索引擎。本文将要推荐的搜索引擎分为4类,分别是国内可使用、国内不可使用、视频搜索、特殊。每个搜索引擎都将展示网址、介绍、效果图。

    前言

    本推荐参照网站searchenginejournal.com,原版为英文网站,且推荐的部分搜索引擎无法在国内使用,因此推荐阅读本篇博客。
    参照网站链接:17 Great Search Engines You Can Use Instead of Google

    想必大家都被搜索引擎的事情困扰过,百度有大量的广告,谷歌又无法在国内使用,那么到底有没有比较优秀的搜索引擎呢。下面我就来推荐几款优秀的、甚至可以代替谷歌的搜索引擎。本文将要推荐的搜索引擎分为4类,分别是国内可使用、国内不可使用、视频搜索、特殊。每个搜索引擎都将展示网址、介绍、效果图。

    国内可使用

    Bing

    传送门:Bing
    网址:https://cn.bing.com/

    介绍:
    国内可以使用。
    分为国内版和国际版,点击标签即可切换,且会切换对应的界面语言,中文/英文。
    Bing的图片搜索GUI要优于它的竞争对手,而且直观得多。
    Bing也为视频提供了同样干净的用户体验,使其成为视频搜索的首选源。
    截至2020年1月,微软网站处理了美国四分之一的搜索查询。

    效果图:
    在这里插入图片描述

    Baidu

    传送门:Baidu
    网址:https://www.baidu.com/

    介绍:
    国内可使用。
    不做过多介绍,用过的都知道。
    存在大量广告,搜索结果排序不合理,当做备用的搜索引擎还是可以的。

    效果图:
    在这里插入图片描述

    Yandex

    传送门:Yandex
    网址:https://yandex.com/

    介绍:
    国内可以使用。
    想要在美国以外寻找搜索视角?
    超过45%的俄罗斯互联网用户使用Yandex。白俄罗斯、哈萨克斯坦、土耳其和乌克兰也在使用。
    Yandex是一个总体上易于使用的搜索引擎。作为额外的奖励,它提供了一套非常酷的工具

    效果图:
    在这里插入图片描述

    Swisscows

    传送门:Swisscows
    网址:https://swisscows.com/

    介绍:
    国内可以使用。
    隐私性较好。
    它以尊重用户隐私为荣,从不收集、存储或跟踪数据。
    它使用人工智能来确定用户查询的上下文。
    随着时间的推移,Swisscows承诺会以惊人的准确性回答你的问题。

    效果图:
    在这里插入图片描述

    OneSearch

    传送门:OneSearch
    网址:https://www.onesearch.com/

    介绍:
    国内可以使用。
    OneSearch在2020年1月被Verizon Media推出,是专注于隐私的搜索引擎。
    它承诺:
    没有cookie追踪,重新定位,或个人资料。
    不得与广告商共享个人资料。
    不存储用户搜索历史。
    公正的,未经过滤的搜索结果。
    加密的搜索词。

    效果图:
    在这里插入图片描述

    Qwant

    传送门:Qwant
    网址:https://www.qwant.com/

    介绍:
    可在国内使用。
    Qwant是由法国出品的一个搜索引擎,以15种语言面向35个国家开放。
    专注于保护用户的隐私和信息安全,并对移动端性展示进行了专门的优化处理。是一个著名的匿名搜索。

    效果图:
    在这里插入图片描述

    Search Encrypt

    传送门:Search Encrypt
    网址:https://www.searchencrypt.com/

    介绍:
    国内可以使用,但只能搜索英文。
    Search Encrypt是一个私人搜索引擎,使用本地加密,以确保您的搜索保持私有。
    它使用一种加密方法的组合,包括安全套接字层加密和AES-256加密。
    当您输入一个查询时,Search Encrypt将从其搜索合作伙伴的网络中提取结果并交付所请求的信息。
    Search Encrypt的一个最好的部分是,您的搜索词最终将过期,因此您的信息将保持私密。

    效果图:
    在这里插入图片描述

    国内不可使用

    Google

    传送门:Google
    网址:https://www.google.com/

    介绍:
    国内不可使用。
    Google搜索引擎主要的搜索服务有:网页,图片,音乐,视频,地图,新闻,问答。
    其中,Google学术 广受研究人员的欢迎。

    效果图:
    在这里插入图片描述

    DuckDuckGo

    传送门:DuckDuckGo
    网址:https://duckduckgo.com/

    介绍:
    国内不可使用,要使用需要特殊方法。
    DuckDuckGo不会收集或存储您的任何个人信息。
    这意味着你可以安心地进行搜索,而不必担心电脑屏幕上的恶魔会盯着你。
    对于那些希望保持自己的浏览习惯和个人信息隐私的人来说,DuckDuckGo是完美的选择。

    效果图:
    在这里插入图片描述

    StartPage

    传送门:StartPage
    网址:https://www.startpage.com/

    介绍:
    国内不可使用,要使用需要特殊方法。
    StartPage提供来自谷歌的答案,对于那些喜欢谷歌的搜索结果,但不喜欢被跟踪和存储搜索历史的人来说,这是完美的选择。
    它还包括URL生成器、代理服务和HTTPS支持。URL生成器特别有用,因为它不需要收集cookie。相反,它会以促进隐私保护的方式记住你的设置。

    效果图:
    在这里插入图片描述

    Wiki.com

    传送门:Wiki.com
    网址:https://www.wiki.com/
    维基百科官网:https://en.wikipedia.org/wiki/Main_Page

    介绍:
    国内不可使用。
    Wiki.com从网上数千个维基百科中提取结果。
    对于那些喜欢像维基百科这样的社区信息的人来说,它是一个完美的搜索引擎。

    效果图:
    在这里插入图片描述

    视频搜索

    Bilibili

    传送门:Bilibili
    网址:https://www.bilibili.com/

    介绍:
    国内可以使用。
    包含动画、音乐、电影、等内容。
    需要注意的是,部分内容需要充值大会员才可以观看,支持正版。

    效果图:
    在这里插入图片描述

    电影盒子

    传送门:电影盒子
    网址:http://www.tv8box.com/
    域名发布页:链接

    介绍:
    国内可以使用。
    包含电影、电视剧、动漫、等各种影视作品。
    资源很全,包含各种VIP资源,免费观看,没有广告。
    可以登录账号,进行收藏等操作,有对应的手机APP。

    效果图:
    在这里插入图片描述

    AGE

    传送门:AGE
    网址:https://www.agefans.cc/

    介绍:
    国内可以使用。
    专门看动漫的网站。
    有登录功能,有对应的手机APP。
    资源很全,想看的都可以找到,还有百度网盘下载功能。

    效果图:
    在这里插入图片描述

    ZzzFun

    传送门:ZzzFun
    网址:http://www.zzzfun.com/

    介绍:
    国内可以使用。
    专门看动漫的网站,有登录功能,有对应的手机APP。

    效果图:
    在这里插入图片描述

    YouTube

    传送门:YouTube
    网址:https://www.youtube.com/

    介绍:
    国内不可使用。
    国际的视频分享网站,若是想看国际视频,选择YouTube绝对没错。

    效果图:
    在这里插入图片描述

    特殊

    该章节介绍一些具有特殊功能的搜索引擎。

    CSDN

    传送门:CSDN
    网址:https://www.csdn.net/

    介绍:
    国内可以使用。
    主要提供计算机相关内容的检索。

    效果图:
    在这里插入图片描述

    Stack Overflow

    传送门:Stack Overflow
    网址:https://stackoverflow.com/

    介绍:
    国内不可使用。
    主要提供计算机相关内容的检索。

    效果图:
    在这里插入图片描述

    CC Search

    传送门:CC Search
    网址:https://search.creativecommons.org/

    介绍:
    国内可以使用。
    主要检索无版权的图片、音乐、视频。
    CC Search应该是你寻找几乎任何类型的无版权内容的第一站。
    这个搜索引擎是完美的,你需要的图片、音乐或视频,不用担心被愤怒的作者追你剽窃他们的作品。
    CC Search的工作方式很简单:它从Soundcloud、Wikimedia和Flickr等平台提取结果,并将结果标记为创作共用材料。

    效果图:
    在这里插入图片描述

    Ecosia

    传送门:Ecosia
    网址:https://www.ecosia.org/

    介绍:
    国内可以使用。
    想要拯救地球,一次拯救一棵树?那就试试这个环保搜索引擎吧!
    这可能会让你感到惊讶,但你的谷歌搜索实际上会产生相当多的二氧化碳。
    因此,Ecosia利用搜索引擎查询产生的收入来种树。
    Ecosia通常需要大约45次搜索来种植一棵新树。

    效果图:
    在这里插入图片描述

    SlideShare

    传送门:SlideShare
    网址:https://www.slideshare.net/

    介绍:
    国内不可使用。
    SlideShare允许您搜索文档化的幻灯片演示文稿(PDF格式)。
    你也可以搜索电子书和pdf文件,如果你要准备一个商业演示文稿,这是一个很好的工具。
    SlideShare还允许您保存幻灯片,甚至下载整个幻灯片在您的本地计算机上使用

    效果图:
    在这里插入图片描述

    Internet Archive

    传送门:Internet Archive
    网址:https://archive.org/

    介绍:
    国内不可使用。
    这个搜索引擎提供大量的文档材料,包括数百万免费视频、书籍、音乐和软件。
    本质上,Internet Archive(互联网档案馆)是一个巨大的在线图书馆,在那里你可以访问任何你能想到的东西。

    效果图:
    在这里插入图片描述

    Twitter

    传送门:Twitter
    网址:http://www.twitter.com/

    介绍:
    国内不可使用。
    作为实时搜索引擎,Twitter很强大。在紧急情况下,这是每分钟更新信息的绝佳场所。
    谷歌的算法可能很优秀,但没有什么能比得上实时的Twitter。

    效果图:
    在这里插入图片描述

    结论

    除去Baidu和Google,优秀的搜索引擎还是有很多的。
    若你没有特殊要求,国际通用的Bing就是很好的选择。
    若你比较注重保护隐私,可以尝试Swisscows、OneSearch或Qwant。
    若你可以通过特殊手段科学上网,那么你可以尝试DuckDuckGo或StartPage。
    若你想要检索图片、音乐等资源,可以尝试CC Search或Internet Archive。
    若你想要检索幻灯片,可以尝试SlideShare。
    若你想要检索动漫,可以尝试AGE或ZzzFun。
    若你想要检索视频,可以尝试Bilibili、电影盒子或YouTube。
    若你想在检索的同时拯救地球,为环保贡献一份力量,可以尝试Ecosia。

    展开全文
  • 本地搜索 适用于您的本地语言PHP搜索引擎。 英语非常适合搜索引擎。 用户搜索dog ,将在描述或关键字中看到每个带有dog产品。 这个词不会根据使用的上下文而改变。但是其他语言是不同的。 如果您的一种产品的...
  • 外贸必备——各国常用搜索引擎

    千次阅读 2022-04-13 18:05:59
    Bing 中文品牌名为“必应”。必应是北美地区数一数二的搜索引擎。 Yahoo! 是美国著名的互联网门户网站,其服务包括搜索引擎、电邮、新闻等,业务遍及 24 个国家和地区,为...Yandex 在俄罗斯本地搜索引擎的市场份额已
  • 软件特点: 1、支持采集邮箱、手机、座机、QQ号码。 2、支持多线程采集 3、采集数据本地永久保存 4、支持数据导出excel文件或csv格式文件
  • 开源全文搜索引擎MeiliSearch

    千次阅读 2022-02-09 10:18:59
    MeiliSearch 是用 Rust 写的强大、快速、开源、易于使用和部署的搜索引擎
  • 【一、项目准备】浏览器:360浏览器编辑器:Sublime Text 3插件:Jquery-3.2.1.Min.Js【二、项目实现】由于是要实现一个网页搜索引擎,所以我们需要借用网页三剑客(Html+Css+Javascript),然后实现这一功能。...
  • 什么是搜索引擎?有什么作用?

    千次阅读 2021-07-13 08:53:10
    什么是搜索引擎?有什么作用?01 什么是搜索引擎及搜索系统02 搜索引擎的发展史03 搜索引擎的分类1. 全文搜索引擎2. 元搜索引擎3. 垂直搜索引擎4. 目录搜索引擎 作者:大数据DT 来源:大数据DT 导读:我们现在正...
  • 搜索引擎技术 —— 网络爬虫

    千次阅读 2021-12-08 16:12:25
    就目前的搜索引擎对象往往都是数以百计的网页,所以搜索引擎面临的主要问题就是如何将这些网页存储到本地。而用来获取这些网页的工具就叫爬虫。 我们来看一下一个爬虫框架。首先先人工精选一部分网页作为初始网页放...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 140,607
精华内容 56,242
关键字:

本地搜索引擎

友情链接: day04.zip