精华内容
下载资源
问答
  • 信息检索系统下载
    千次阅读
    2021-07-16 15:35:20

    一、填空题

    1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。
    2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。
    3.中国专利法在1985年开始实施
    4.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop
    5.在CNKI平台下,“主题”检索的内容,不包含以下哪个?(作者)
    6.一本印刷的检索工具,其结构大体可以分为,三大部分:文前栏目、正文和书后附属部
    6.按约束力来划分,标准可以分为强制性标准和推荐性标准。
    7.一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。
    8.一个期刊被SCI收入后,会有一个WOS开头的入藏号。
    9.广义的文献检索工具,可以分为:检索工具和【参考工具】。
    10.《中图分类法》中,字母S代表的是“农业科学”,字母【T】代表的是“工业技术”。
    11.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。
    12.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。
    13.著名的SCI检索工具,其英文全称是:【Science Citation Index】。
    14.判断一本国内期刊是否合法的一个简单方式是,查看该期刊的哪个信息?(CN)
    15.按信息的出版类型分:学位论文,属于以下哪种信息源?(特殊文献)
    16.Spischolar平台主要是搜索,哪种类型的参考文献?(电子学术论文)
    17.政府出版物,从信息出版形式的角度看,属于以下哪类信息源?(特殊文献)
    18.一般情况下,Open Access方式发表的文献,版权是归谁所有?(作者所有)
    19.CPCI检索是针对哪种文献类型(会议论文类型的文献)
    20.中科院文献情报中心,对JCR期刊按其影响因子和引用率,分类几个区?(4个)
    21.引文检索除了实现信息评价外,还能达到【信息检索】的目的。
    22.关键字是论文的组成部分,学术论文的关键字,其数量一般控制在:(3-8)个?
    23.美国是在1976年的《著作权法案》,首次为合理使用制定了标准。
    24.按《中国标准文献分类法》,其一级类目中“电子元件与信息技术”,用哪个字母表示?(L)
    25.学术造假一般分为三类,分别是:伪造、篡改和造假。
    26.百度、谷歌这样的搜索引擎,属于什么类型的搜索引擎【全文搜索引擎】
    27.Compendex数据库是属于:【二次】文献数据库。
    28.用户想要检索和下载“电子图书”,一般推荐选择哪个检索平台?【读秀】
    29.书生之家平台上检索的文献类型主要是哪类?【电子图书文献】
    30.不是Web of Science平台的主要期刊来源的是哪个?【EI】
    31.防止学术剽窃,一般采取的方法有:教育、法律和科技手段。
    32.在大多数情况下,检索的目的是为了找到 相关文献 ,而不是"答案"。
    33.二八定律在期刊文献检索中的体现是:20%的期刊登载了80%的重要文献,体现这种特性的期刊是 核心期刊 。
    34.文献的特性有 知识信息性 、 客观物质性 、 人工记录性 、 动态发展性 。
    35.文献的 内容 特征用于找出相关文献, 外部 特征用于获得特定文献。
    36.文献获取与利用的过程中存在三重语言障碍,分别为: 自然语言障碍 、 专业语言障碍 、 检索语言障碍 。
    37.检索工具的基本类型有: 目录 、 题录 、 文摘 、 索引 。
    38.以单篇文献为著录对象,并附有摘要的检索工具为: 文摘 。
    39.从内部特征进行检索的最重要的两种检索途径是: 主题途径 、 分类途径 。
    文献检索语言是 标引 与 检索 共同使用的约定语言。
    40.主题词语言具有三个基本特征:着眼于从 内容 特性方面去提示文献主题、采用 文字符号 、按 字顺 排列。
    41.当查询关键词具有多个含义的时候,容易造成 误检 ,使得 查准率 较低。
    42.主题词的体现形式是 叙词表 。
    43.辨识科技报告最明显的标志是 科技报告编号 ,一般由 单位编号 和 报告序号 组成,有的还包括类型代码。
    44.《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为22个大类。
    45.按内容可将计算机检索系统的数据库类型分为: 文献书目型 数据库、 事实型 数据库、 数值型 数据库和 全文型 数据库。
    46.我国标准可分为国家标准、 部标准 和 企业标准 三大类。
    47.在实际检索中,文献的检索方法主要有: 直查法 、 追溯法 、 工具法 和综合法。
    48.国际标准化组织简称:ISO 、本标准每 5 年修订一次
    49. 信息素质的内涵包括 信息意识 、 信息能力 和 信息道德 。
    50.连续出版物的主要类型有 期刊 、 报纸 和 年底出版物 。
    51. 构成文献的三要素是 知识 、 载体 和 记录 。
    52.CNKI的中文全称是: 中国知识基础设施工程 。
    53. 信息检索常用的方法有: 引文追溯法 、 工具法 和 循环法 。
    54. 专利有三层含义: 新颖性 、 创造性 和 实用性 。
    55.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。
    56.国家标准的代号体系中,地方标准的代号是__ DB__

    二、选择题

    在网络上检索某地的天气预报,属于检索事实型的信息。A.事实 B.数值 C.微内容 D.全文
    在我国,专利的类型不包括,以下哪个?
    A.实用新型专利 B.软件设计专利 C.外观设计专利 D.发明专利
    1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。
    A.分类索引  B.作者索引  C.引文索引   D.主题索引
    2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。
    A.超星数字图书馆 B.万方学位论文 C.国研网 D.维普科技期刊 E.高校财经库
    4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E )。
    A.关键词   B.作者   C.刊名   D.题名   E.文摘
    5、二次文献又称检索工具,包括:( A C D )。
    A.书目  B.百科  C.索引  D.文摘  E.统计数据
    书生之家平台上检索的文献类型主要是哪类?(C)P126
    A 、学位论文文献 B、期刊文献 C、电子图书文献 D、会议论文文献

    1. 文献是记录有知识的( A )A 载体 B 纸张 C 光盘 D 磁盘
    2. 下列哪种文献属于一次文献( A )A 期刊论文 B 百科全书 C 综述 D 文摘
    3. 下列哪种文献属于二次文献( D )A 专利文献 B 学位论文 C 会议文献 D 目录
    4. 下列哪种文献属于三次文献( C )
      A 标准文献 B 学位论文 C 综述 D 文摘
    5. 下列选项中属于连续出版物类型的选项有( C )
      A 图书 B 学位论文 C 科技期刊 D 会议文献
    6. 下列选项中属于特种文献类型的有( D )
      A 报纸 B 图书 C 科技期刊 D 标准文献
    7. 利用文献末尾所附参考文献进行检索的方法是( C )
      A 倒查法 B 顺查法 C 引文追溯法 D 抽查法
    8. 至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为( A )
      A 数据库 B 记录 C 字段 D 文档
    9. 广义的信息检索包含两个过程( B )
      A 检索与利用 B 存储与检索 C 存储与利用 D 检索与报道
    10. 狭义的专利文献是指( C )
      A 专利公报 B 专利目录 C 专利说明书 D 专利索引
      根据国家相关标准,文献的定义是指“记录有(A )的一切载体”。 A.情报 B.信息 C.知识
      2、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献 C.二次文献 D.三次文献
      3、文摘、题录、目录等属于( B ) A.一次文献 B.二次文献 C.零次文献 D.三次文献
      4、手稿、私人笔记等属于( C)文献,辞典、手册等属于( )文献 A.一次,三次 B.零次,二次 C.零次,三次 D.一次,二次
      5、按照出版时间的先后,应将各个级别的文献排列成( A ) A.三次文献、二次文献、一次文献 B.一次文献、三次文献、二次文献 C.一次文献、二次文献、三次文献 D.二次文献、三次文献、一次文献
      6、( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。 A.零次文献 B.二次文献 C.一次文献 D.三次文献
      7、一次文献、二次文献、三次文献是按照( A )进行区分的。 A.内容的公开次数 B.原创的层次 C.印刷的次数 D.评论的次数
      8、从文献的( C )角度区分,可将文献分为印刷型、缩微型等。 A.内容的公开次数 B.载体类型 C.出版类型 D.公开程度
      9、具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D ) A.图书 B.会议文献 C.学位论文 D.期刊
      10、利用文献后面所附的参考文献进行检索的方法称为( A ) A.追溯法 B.直接法 C.抽查法 D.综合法
      12、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录
      14、课题“计算机在情报检索中的应用”的中图法分类号及类名为( D ) A.TP3计算机技术 B.TP399计算机技术的应用 C.G250图书馆学 D.G252.7情报检索
      17、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于( C ),在书目数据库中,一条记录相当于( ) A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘
      27、《中国学术期刊全文数据库》提供的文献内容特征检索途径有( B ) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者
      28、《中国学术期刊全文数据库》提供的文献外表特征的途径有( B ) A.关键词,篇名 B.机构,中文刊名 C.作者,篇名 D.文摘,中文刊名
      37、《中图法》中基本大类由22个字母表示,“E”表示的是(C ) “O”表示的 是 ( )。 A:经济、军事, B:自然科学、文学, C:军事、数理科学和化学 D:经济、外语
      1.下面哪些属于二次文献( BCD )。
      A.手册; B.文摘; C.目录; D.题录.

    三、名词解释题

    1、文献
    用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。
    2、体系分类语言
    体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。
    3、引文语言
    引文语言是根据文献所附参考或引用文献的特征进行检索的语言。
    4、事实检索
    以事项为检索内容的文献信息检索
    5、二次文献
    对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等
    16、从广义上讲,什么是文献检索工具?
    就是根据需要,以特定的编排方式和检索方法,为人们提供某方面的基本知识或文献检索,专供查询的书籍或电子数据库。可分为检索工具书和参考工具书两大类。
    17、按文献的加工层侧来分,什么是零次文献?
    就是记录在非正规物理载体上的未经任何加工处理的源信息叫做零次信息。
    比如书信、论文手稿、笔记、实验记录、会议记录等,这是一种零星的、分散的和无规则的信息。零次信息的载体形式就称之为零次文献。
    18、请解释一下,什么是纸质型文献?
    概述:以纸张为载体,用书写或印刷等方式记录知识的文献。纸质文献最早出现在中国,4世纪以后逐渐在世界各地传播和应用。纸质文献按纸的种类大致可分为麻纸文献、皮纸文献、竹纸文献等。
    特点:1、符合人们的阅读习惯2、便于保存3、具有权威性4、有利于知识产权保护5、纸质文献仍具有强大的生命力
    19、请解释一下,什么是引文索引?
    引文索引就是是利用文献之间的相互引证关系来检素文献的。
    我们从引文索引中查出一批所需的文献后,再利用这些文献的引文查找一批新的文献,这样不仅能获得一定数量的相关文献,还能揭示旧文献对新文献的影响,新文献对旧文献的评价,展现新旧文献在学术研究中的关系;。
    20、文献的开放获取(Open Access)。
    开放获取的英文全称是Open Access,简称OA。
    它是一种国际上的学术界、出版界、情报界为了推动科研成果利用互联网自由传播而采取的行动。指文献全文的免费、即使和永久获取。

    四、问答题

    1、简述论文选题的基本原则?
    1)选题要目的明确,学以致用,理论联系实际 。2)要选择有创造性有学术价值的课题。3)选题要量力而行,难易适中。4)选题地方法。5)题目的确定
    2、制定检索策略的步骤与技巧是什么?
    1)分析检索课题明确检索需求(2)选择检索系统和数据库(3)确定检索词和检索途径
    四、判断题
    在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?F
    各国专利文献数据库中,文摘可以免费检索,但浏览全文需付费。×
    一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。(√)
    一篇被CSCD数据库收入的文献,会有一个CSCD开头的入藏号。(√)
    对于发明专利,在中国的保护期,要比在美国的保护期短。×
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?×
    目录是目和录的合称,定其次之谓目,辨其名之谓录。( × )
    21.在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    22.学术论文具有:科学性、学术性和创新性的特征。
    23.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop
    24.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。
    25.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。
    EI检索,提供的是全文检索方式。(× )
    一般的检索平台提供的跨库检索,也被称为一站式检索。(√ )
    DOI(Digital Object Identifier)既数字对象标识,是数值环境中内容对象的永久性标识号。( √)
    以“磁盘”作为载体的电子文献类型,其标识代码为:MT。(× )
    Open Access(OA)属于发表人付费,阅读与引用人免费的论文出版模式?(√ )

    1. 1948年,美国数学家、信息论的创始人维纳在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。 ( × )
      1948年,美国数学家、信息论的创始人仙农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。
    2. 从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。( × )
      从文献检索的角度来看,一次文献是检索的对象,二次文献是用于检索的主要手段和工具。
    3. 《中国图书馆分类法》是按知识门类的学科体系的逻辑次序进行分类。( √ )
    4. 核心期刊是指经常使用的期刊。( × )
      核心期刊是指那些信息密度大、内容质量高、论文寿命长、被引率、被索率、被摘率、借阅率也较高,能代表某学科、专业最新发展水平和趋势的期刊。
    5. 一项发明创造要获得专利权必须具备新颖性、创造性和实用性。( √ )
    6. 专利是受法律保护的,其中发明专利的保护期限是10年。( × )
    7. 题录型检索工具,其著录项目主要包括文献篇名、作者、文献出处。( √ )
    8. TCP/IP协议的作用是保证各种不同类型的计算机网络实现相互通信。( √ )
    9. EBSCOhost 数据库中的BSP(Business Source Premier)是学术期刊数据库的简称。( × )
      五、问答题:
      23、一般的文献检索工具,必须具备哪四个基本条件?
      1.必须详细著录文献的外部特征(篇名、著者姓名、文献序号等)和内容特征(文献的学科属性和主题内容等);
      2.必须具有既定的检索标识(如文献的分类标识、主题词、著者姓名、文献序号等);
      3.能够提供多种检索途径。
      4.全部文献必须根据标识,系统地、科学地排列,成为一个有机的整体;
    10. 请解释信息、知识、文献的概念,并简述三者之间的关系
      答:不同领域对信息的定义不同,图书情报界对信息的定义:信息是客观事属性和运动状态的外在表现。知识是人们对客观事物存在和运动规律的认识。
      文献是记录有知识的一切物质载体。
      信息、知识与文献的关系可以归结为:信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储、传递知识和信息的载体。信息不等于知识,知识是信息的重要组成部分。信息与知识这种包含关系可以表示为:信息大于知识。在自然界的万事万物中,信息是物质世界表征其存在的一种形式。信息,有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制;知识,无形的、与行动和决策相关、经过处理改变思维、精神产品、环境改变涵义、经过学习才能转让、无法复制。
      知识是有组织的大量的信息,获得知识有赖于获得信息;信息是知识得以形成和传播的中介,而不是知识本身,知识是经过精心研究、领会后的有用信息,是人类对信息加工处理后的产物。并非所有信息都可成为知识,在信息时代,源于众多复杂客体的大量信息,只有借助于现代化的信息手段,并通过掌握现代信息科学技术的认知主体,才能真正转化为知识。

    2、信息、知识、情报、文献的概念?文献的组成要素?
    信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。
    2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理
    3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。
    知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总和。
    情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。
    文献的概念:是记录有知识的一切载体。
    文献的组成要素:不但包括现代图书馆的全部馆藏,同时也包括了档案馆、博物馆、声像馆和情报中心收藏的全部馆藏。
    3、信息、信息资源包括那些类型?
    1)信息的类型:从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。以信息所依附的载体为依据,可分为文献信息、口头信息、电子信息、生物信息等
    信息资源类型:根据存储媒介不同,信息资源可以划分为印刷型信息资源、电子信息资源、数字信息资源和多媒体信息资源。
    4、文献有那些类型?将文献划分成这些类型的依据是什么?
    1)根据载体材料、存储技术、和传递方式划分
    可划分为:印刷型、缩微型、试听型和机读型文献信息源
    2)根据加工程度的不同划分
    可分为:一次文献信息源、二次文献信息源、和三次文献信息源
    3)根据文献信息源的内容划分
    可以分为:图书、期刊、报纸、科技报告、政府出版物、会议文献、专利文献、学位论文、标准文献、档案文献、产品样本
    5、数据库的类型?网络资源有那些特点?
    数据库的类型:联机数据库和光盘数据库、网络数据库
    网络资源有那些特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等
    6、何为“核心期刊“?本专业的核心期刊有那些?
    核心期刊定义是 :在某一学科中 ,少数期刊覆盖了该学科的大部分文献 ,而多数期刊仅包含该学科的少量文献 ,这少数期刊就是该学科的核心期刊。
    本专业的核心期刊有:《政治与法律》、《环球法律评论》、《当代法学》、《法学》
    7、什么是信息检索?类型有哪些?
    定义:是通过一定的方法和手段将用户的提问特征与数据源所采用的特征标志进行对比,然后将二者相一致或比较一致的信息提取出来供用户使用的过程。
    类型:文献检索、数据检索、事实检索
    8、简述信息检索的原理。
    信息检索的实质是一个匹配过程,也就是信息用户需求的主题概念或检索表达式同一定信息系统的系统语言相匹配的过程,如果两者匹配,则所需信息被检中,否则检索失败。
    9、什么是计算机信息检索系统?它由几个部分组成?
    计算机信息检索系统:是利用计算机和一定的通信设备查找所需信息的检索方式,检索的系统就是人的设计操作和计算机自动化处理相结合的系统。
    组成部分:光盘检索系统、联机检索系统、网络检索系统
    10、计算机信息检索技术包括哪些?
    布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索并向着智能化方向发展。
    11、从外表特征和内容特征来看,检索语言的类型各有哪些?不同特征各举一简单的检索式。
    描述信息外部特征的检索语言包括题名(书名、刊名、篇名)、著者姓名\单位名称、出版事项、代码\序号(如专利号、报告号、标准号)等,其作为检索标志直接明了,使用时较为简单。
    描述信息内容特征的检索语言包括分类语言和主题语言,主题语言又可分为关键词语言、单元词语言、标题词语言和叙词语言。
    12、为什么要创建检索语言,它有哪些类型?比较分类语言和主题语言的优缺点。
    1)检索语言是指用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言,目的是为了便于检索文献。
    2)类型:按检索语言是否受控可分为人工语言和自然语言,按检索时的组配实施状况可分为先组式和后组式检索语言,按描述信息特征的不同可分为描述信息外部特征的检索语言和描述文献内容特征的检索语言。

    15、简述“超星电子图书馆”、“书生之家数字图书馆”、“中国学术期刊全文数据库”、“维普中文科技期刊数据库”和“万方数字化期刊”收藏资源的特点
    1)、超星电子图书馆:收录的电子图书内容丰富,包括经典理论、哲学、社科、经济、语言文字、文学、数理化、生物、工业技术、计算机等50余个学科门类,现拥有中文电子图书80万种,论文300万篇,全文总量4亿余业,并且每天仍在不断地更新与增加
    2)书生之家数字图书馆:主要收录1999年以后出版的新书,其收录量为每年中国出版的新书品种一半以上,目前拥有图书15万种,数量可观,学科门类齐全。
    3)中国学术期刊全文数据库:该库的产品分为十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。个专辑分为若干专题,共168个专题。
    4)维普中文科技期刊数据库:按照《中国图书馆分类法》进行分类,所有文献被分为8个专辑:社会科学、自然科学、工程技术、医药卫生、农业科学、经济管理、教育科学和图书情报。8大专辑又被细分为36个专题 。
    5)万方数字化期刊收藏资源的特点:目前集纳了理、工、农、医、人文五大类70多个类目,2500多种科技类核心期刊,实现全文上网。该系统收录的期刊种类主要有7个:基础科学、农业科学、社会科学、哲学政法、医学卫生、教科文艺、经济财政。

    16、结合“中国学术期刊全文数据库”、“维普中文科技期刊数据库”两种数据库,谈各自的“高级检索”的方法
    1)、维普中文科技期刊数据库“高级检索”的方法:打开维普数据库,点击高级检索,输入关键词、作者、分类号、机构、刊名,扩展检索条件,如:时间条件、专业限制、期刊范围,然后点击检索。
    2)、中国学术期刊全文数据库“高级检索”的方法:打开中国知网,点击高级检索,进入中国学术期刊全文数据库,输入检索控制条件,如:发表时间 来源期刊` 期刊年期 支持基金,然后输入内容检索条件。

    17、简述特种文献的特点和作用,学术论文的结构
    特点:发行渠道特殊,形式各异,具有特殊的、其它文献所不能取代的价值
    作用:传递科技信息
    结构:一般而言,学术论文包括八个必要的组成部分,其中前置部分包括题名、作者、摘要、关键词,主体部分包括引言、正文、结论、参考文献。
    18、按级别分的标准的类型?我国标准分为哪些等级?分别用那些符号表示
    分类:1)按使用范围可分为:国际标准、区域标准、国家标准、行业标准、地方标准、企业标准
    2)按标准的约束性可分为:强制性标准、非强制性标准
    我国:国家标准GB 行业标准FZ 地方标准DB 企业标准Q
    19、专利的新颖性、创造性、实用性各自含义,中国保护的专利类型
    1、新颖性,是指在申请日以前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。
    2、创造性,是指同申请日以前已有的技术相比,该发明有突出的实质性特点和显著的进步,该实用新型有实质性特点和进步。
    3、实用性,是指该发明或者实用新型能够制造或者使用,并且能够产生积极效果。
    中国保护专利的类型:发明、实用新型、外观设计
    20、中国何时实施专利法?中国专利法对专利采用怎样的审批程序?受中国专利法保护的对象分别有哪些
    1、自1985年4月1日起施行
    2、程序:1)、专利局收到发明专利申请后,经初步审查认为符合本法要求的,自申请日起十八个月内,予以公布。专利局可以根据申请人的请求早日公布其申请。
    2)、发明专利申请自申请日起三年内,专利局可以根据申请人随时提出的请求,对其申请进行实质审查;申请人无正当理由逾期不请求实质审查的,该申请即被视为撤回。
    专利局认为必要的时候,可以自行对发明专利申请进行实质审查。
    3)、 发明专利的申请人请求实质审查的时候,应当提交在申请日前与其发明有关的参考资料。
    发明专利已经在外国提出过申请的,申请人请求实质审查的时候,应当提交该国为审查其申请进行检索的资料或者审查结果的资料;无正当理由不提交的,该申请即被视为撤回。
    4)、 专利局对发明专利申请进行实质审查后,认为不符合本法规定的,应当通知申请人,要求其在指定的期限内陈述意见,或者对其申请进行修改;无正当理由逾期不答复的,该申请即被视为撤回。
    5)、 发明专利申请经申请人陈述意见或者进行修改后,专利局仍然认为不符合本法规定的,应当予以驳回。
    6)、 发明专利申请经实质审查没有发现驳回理由的,专利局应当作出审定,予以公告,并通知申请人。
    7)、 专利局收到实用新型和外观设计专利申请后,经初步审查认为符合本法要求的,不再进行实质审查,即行公告,并通知申请人。
    8)、 专利申请自公告之日起三个月内,任何人都可以依照本法规定向专利局对该申请提出异议。专利局应当将异议的副本送交申请人,申请人应当在收到异议副本之日起三个月内提出书面答复;无正当理由逾期不提出书面答复的,该申请即被视为撤回。
    9)、 专利局经审查认为异议成立的,应当作出驳回申请的决定,并通知异议人和申请人。
    10)、 专利局设立专利复审委员会。申请人对专利局驳回申请的决定不服的,可以在收到通知之日起三个月内,向专利复审委员会请求复审。专利复审委员会复审后,作出决定,并通知申请人。
    发明专利的申请人对专利复审委员会驳回复审请求的决定不服的,可以在收到通知之日起三个月内向人民法院起诉。
    专利复审委员会对申请人关于实用新型和外观设计的复审请求所作出的决定为终局决定。

    11) 对专利申请无异议或者经审查异议不成立的,专利局应当作出授予专利权的决定,发给专利证书,并将有关事项予以登记和公告。
    3、发明、实用新型、外观设计
    21、中国专利文献的编号体系含有几种专利文献号?如何称谓?
    6种 申请号 专利号 公开号 审定号 公告号 授权公告号
    22、专利文献的特点、专利说明书的结构
    特点:新颖性、创造性和实用性
    结构:通常一件专利说明书包括:专利文献著录项目,权利要求书,说明书,附图,摘要。有些专利说明书还附有检索报告。
    23、专利文献的分类方法,分类号的结构组成,专利检索的目的
    分类方法:
    26、什么是科技报告?它有哪些类型?用哪些检索工具查找我国的科技报告
    科技报告:是一种非常重要的资源,他们往往反映科学技术前沿和正在进行中的研究项目,注重详细记录科研进展的全过程,多与高科技领域有关,传播研究成果的速度较快,并且以内部的发行为主,外界较难获得。
    科技报告的类型
    2)科技报告可划分为不同类型:
    1、 按内容可分为:基础理论研究和工程技术两大类。
    2、按形式可分为:技术报告(Technical Reports, 简称TR)、技术札记(Technical Notes,简称TN)、技术论文(Technical Papers, 简称TP)、技术备忘录(Technical Memorandum,简称TM)、通报(Bulletin)、技术译文(Technical Translations, 简称TT)、合同户报告(Contractor Reports, 简称CR)、特种出版物(Special Publications, 简称SP)、其它(如:会议出版物、教学用出版物、参考出版物、专利申请说明书及统计资料)等。
    3、按研究进展程度可分为:初步报告(Primary Report)、进展报告(Progress Report)、中间报告(Interim Report)、终结报告(Final Report)。
    4、按流通范围可分为:绝密报告(Top Secret Report)、机密报告(Secret Report)、秘密报告(Confidential Report)、非密限制发行报告(Restricted Report)、非密报告(Unclassified Report)、解密报告(Declassified Report)。属于保密的科技报告大多属于军事、国防工业和尖端技术成果
    3)检索工具:EI CompendexWeb INSPEC DIALOG
    27、什么是会议文献?若查找国外各种学术会议的信息,利用哪些检索工具
    1、会议文献是传递和获取科技信息的一种极为有效的重要渠道。
    2、检索工具:中国知网《中国重要会议论文全文数据库》 万方数据《中国学术会议论文文摘数据库》 中国学术会议在线 因特网会议预告 欧洲研究会议 国际标准化组织的标准化会议预告 医学会议查询
    2.简述会议论文的概念和特点,国内和国外会议论文的检索系统有哪些?
    参见文献类型-会议论文的介绍,国内的检索系统主要是万方数据和CALIS的高校会议论文检索,国际上的会议论文检索系统最重要的是ISTP,隶属于WEB OF PROCEEDINGS。
    3.请简单说一说如何选择网络信息资源?主要的标准有哪些?主要的标准有:
    a. 发布者的权威与可靠性
    b. 信息质量
    c. 信息资源的内容覆盖面
    d. 获取方便程度
    e. 检索途径多,检索界面容易使用,有无全文。
    利用外文文摘数据库查出文献线索后,若要查找1篇期刊论文的全文有哪些途径?
    解:
    1…使用搜索引擎搜索,如谷歌,百度,bing,搜狗,Ask,Yahoo等等
    2…利用文献线索,到文献的来源数据库进行搜索。
    3…利用文献线索,到全文数据库中进行检索。

    33、网络资源的特点和种类;搜索引擎的功能
    特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等
    种类:1、按人类信息交流的方式分类可分为非正式出版信息、半非正式出版物、正式出版物
    2)、从网络信息检索角度,按信息查询方式对网络信息进行分类可分为互联网信息、FTP信息、TELNET信息、USENET信息资源、USTSERV信息、JOPHER信息
    3)、按信息存取方式分,可分为邮件型、揭示板型、广播型、图书馆型以及书目型
    4)、按组织形式分可分为文件型、数据库型、超媒体型
    5)、按时效性分,可分为动态信息、电子报纸、电子期刊、电子图书、联机馆藏目录、联机数据库等
    6)、按信息的媒体形式分为,文本信息、超文本信息、多媒体信息、
    7)、按网络信息服务方式分为,网站信息、新闻信息、论坛信息、文件服务信息
    8)、按信息的格式分为,HTTML TXT DOC PDF RM MP3
    功能:网页搜索、图片搜索、视频搜索、地图搜索、新闻搜索、音乐搜索、论坛搜索等等
    34、试对百度、中文搜狐、北大天网、一搜四种搜索引擎的功能进行比较
    百度的功能特点:1. 基于字词结合的信息处理方式。
    2. 支持主流的中文编码标准。
    3. 智能相关度算法。
    4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
    5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。
    6. 相关检索词智能推荐技术。
    7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。
    8. 可以提供一周、二周、四周等多种服务方式。
    9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。
    10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。
    11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
    12. 高可配置性使得搜索服务能够满足不同用户的需求。
    13. 先进的网页动态摘要显示技术。
    14. 独有百度快照,巧妙解决了搜索用户经常遇到的死链接问题。
    15. 支持多种高级检索语法,使用户查询效率更高、结果更准。
    一搜的功能特点:1、MP3功能 2、娱乐功能 3、投票功能 4、翻译功能 5、视频功能 6、部落功能
    北大天网的功能特点:北京大学开发,简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、FTP检索(北京大学、中科院等FTP站点)。目前大约收集了100万个 WWW页面(国内)和14万篇Newsgroup(新闻组)文章。支持简体中文、繁体中文、英文关键词搜索,不支持数字关键词和URL名检索。
    搜狐的功能特点:搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。

    36、查阅有关文献,写出“标准文献、专利文献、学位论文、研究报告”作为参考文献时的标注格式
    37、学术论文一般由哪几部分构成?各部分的写作规范分别是什么
    1、标题:准确、精炼的技术术语表达的创新点名称
    2、单位和作者:只写作者和实际参与了论文写作的人名,按对论文而不是工作的贡献排序。
    3、摘要:是论文不加注释和评论的精炼缩写,是一篇独立的短文。
    4、关键词:关键词是表达论文所属门类的主题词。列出能通过模糊检索查到这篇文章的3~8个主题词。关键词要反映研究范围,但不一定是文中的高频词,排列最好按范围,先大后小。关键词忌生僻,最好出自《中文主题词表》。
    5、引言:引言可以作为论文的一节(符号可以是0、可以是1),也可以是正文前的一段无标题文字。应鲜明简洁,不要图表、公式。
    6、正文:正文要分节,合理分节并拟定小标题可以突出重点,有助于理解。要尽量多用图表直观地表达,图表要有自明性,使用中文表头、坐标,无需解释就能看懂。
    7、结论:全文而不仅是试验或仿真的总结。①归纳研究中发现的规律、优点;②应用或应用方向;③局限或不足,今后努力方向。结论应相对独立,提到创新点时不应使用“该方法”之类代用词。不十分肯定时可用“讨论”代替“结论”,但不得使用“结束语”、“小结”之类标题。结论中不应有图表、公式。
    8、参考文献:列出作者在研究范围内所看过的国内外文献。参考文献与引言呼应,反映作者跟踪技术发展的眼界和敏锐性,反映作者知识的广度和深度,反映作者有资格说自己是创新。数量不可过少,例如中国科协期刊优秀论文评选要求研究性学术论文参考文献不少于20篇。参考文献不限于中文但,教科书不可多,不宜过陈旧。
    38、什么是学术造假与剽窃?一般而言,剽窃的形式有哪些?司法实践中对剽窃
    是如何界定的?剽窃与参考文献的区别是什么
    剽窃的定义:剽窃是指把他人的作品当成自己的作品。
    学术造假的定义 :
    39、简要回答:三大检索工具SCI,EI和ISTP的内涵
    1、SCI ,即《科学引文索引》,是自然科学领域基础理论学科方面的重要期刊文摘索引数据库。
    它创建于1961 年,创始人为美国科学情报研究所所长 Eugene Garfield(1925.9.15).利用它,可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自 1945 年以来重要的学术成果信息;SCI 还被国内外学术界当做制定学科发展规划和进行学术排名的重要依据。
    2、Ei,即《工程索引》,创刊于 1884 年,由 Elsevier Engineering Information Inc. 编辑出版。主要收录工程技术领域的论文(主要为科技期刊和会议录论文 ) ,数据覆盖了核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程等学科领域。
    3、ISTP ,即《科学技术会议录索引》,创刊于 1978 年,由美国科学情报研究所编制,主要收录国际上著名的科技会议文献。它所收录的数据包括农业、环境科学、生物化学、分子生物学、生物技术、医学、工程、计算机科学 、化学、物理学等学科。从 1990-2003 年间, ISTP 和 ISSHP( 后文将要讲到 ISSHP) 共收录了 60 , 000 个会议的近 300 万篇论文的信息。
    文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体( V)
    文献知识的内容与其记录方式、载体材料无关( V )
    文献有知识内容、信息符号和载体材料三个不可分割的基本要素构成(X )
    一次文献是产生二、三次文献的基础,是检索利用的主要对象(V )
    从零次文献、一次文献到二次文献,再到三次文献,是一个知识内容由分散到集中,由无组织到系统化的过程( V )

    更多相关内容
  • #简单信息检索系统 (SIRS) 简单信息检索系统是圣母大学数据科学组的产品。 这个项目的重点是提供一个教育搜索引擎系统,它强调速度和效率的解释。 随着系统的开发,将提供更多信息。 #组件与任何生产质量的搜索引擎...
  • 信息检索系统的评价.ppt该文档详细且完整,值得借鉴下载使用,欢迎下载使用,有问题可以第一时间联系作者~
  • 网络信息检索

    2018-12-17 17:05:53
    网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。
  • 针对传统数字档案资源智能推荐检索系统存在智能推荐性能较差的问题,设计一种基于属性分组的数字档案资源智能推荐检索系统。系统的硬件构成为服务器模块、爬虫模块,其中服务器模块的构成为检索服务器、数据处理...
  • 基于文本分类的信息检索模型,丁志刚,王小捷,本文探索了如何利用信息文本分类对检索系统结果进行改善。首先,根据特定的分类集分别对待检索文档和检索条件进行数据建模;讨论
  • 基于内容的图像检索系统(Content Based Image Retrieval, 以下简称 CBIR),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。本文实现的 CBIR 系统,允许用户输入一张图像,在图像数据库中查找具有相同或...

    代码资源

    图片数据集

    摘 要

    基于内容的图像检索系统(Content Based Image Retrieval, 以下简称 CBIR),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。本文实现的 CBIR 系统,允许用户输入一张图像,在图像数据库中查找具有相同或相似内容的其它图片。本文共实现七种方法基于内容的图像检索,其中基于深度学习的迁移学习法可以得到最好的检索效果,三种特征信息综合的方法次之。本文实现的方法分别是:基于颜色信息的图像检索,包括:HSI中心矩法和HSV中心矩法;基于纹理特征的图像检索,采用灰度共生矩阵实现;基于形状特征的图像检索,采用形状不变矩法;基于综合信息的图像检索,包括将三种特征信息综合的方法,主成分分析法,基于深度学习的迁移学习法。文主要工作如下:
    (1) 研究了基于颜色的HSI中心矩法和HSV中心矩法在图像检索系统中的应用。首先介绍了RGB颜色空间,HSI颜色空间和HSV颜色空间,然后实现了基于颜色HSI中心矩法和HSV中心矩法图像检索的方法。
    (2) 研究了纹理特征在图像检索中的应用。首先介绍了灰度共生矩阵进行纹理特征的原理,然后具体实现了灰度共生矩阵实现图像检索的方法。
    (3) 研究了形状特征在图像检索系统中的应用。分别介绍了形状不变矩法和边缘直方图法实现基于形状的图像检索方法,实现了基于形状不变矩法图像检索的方法。
    (4) 研究了三种特征信息综合的方法。本文实现了将HSI中心矩法,灰度共生矩阵法和形状不变矩法三种方法得到的特征值结合起来,作为一个维数更高的特征向量,对图像内容进行检索。
    (5) 研究了主成分分析法进行图像特征提取的方法。首先介绍了主成分分析法的基本原理,然后具体实现了运用主成分分析法进行图像检索。
    (6) 研究了迁移学习方法在图像检索系统中的应用。首先介绍了DenseNet201的网络结构,然后对图片数据集进行划分,采用了的预训练模型进行图像类别识别得到图片类别,最后结合三种特征信息筛选出相似图片完成图像检索。

    Abstract

    Content-based image retrieval system is a research branch in the field of computer vision that focuses on large-scale digital image content retrieval. The CBIR system implemented in this article allows users to input an image and search for other images with the same or similar content in the image database. This article implements seven methods of content-based image retrieval, of which the transfer learning method based on deep learning can get the best retrieval effect, and the three methods of feature information integration are the second. The methods implemented in this paper are: image retrieval based on color information, including: HSI central moment method and HSV central moment method; image retrieval based on texture features, using gray-level co-occurrence matrix; image retrieval based on shape features, using shape Variable moment method; image retrieval based on comprehensive information, including the method of integrating three kinds of characteristic information, principal component analysis method, and transfer learning method based on deep learning. The main work of this article is as follows:
    (1) Research the application of color-based HSI central moment method and HSV central moment method in image retrieval system. First introduced the RGB color space, HSI color space and HSV color space, and then realized the method of image retrieval based on the color HSI central moment method and HSV central moment method.
    (2) The application of texture features in image retrieval is studied. Firstly, the principle of the gray-level co-occurrence matrix for texture feature is introduced, and then the method of the gray-level co-occurrence matrix to realize image retrieval is realized.
    (3) The application of shape feature in image retrieval system is studied. The shape-invariant moment method and the edge histogram method are respectively introduced to realize the shape-based image retrieval method, and the method based on the shape invariant moment method is realized.
    (4) Three methods of feature information synthesis are studied. In this paper, the eigenvalues obtained by the three methods of HSI central moment method, gray-level co-occurrence matrix method and shape invariant moment method are combined to retrieve the image content as a higher-dimensional eigenvector.
    (5) The method of principal component analysis for image feature extraction is studied. First introduced the basic principle of the principal component analysis method, and then concretely realized the use of principal component analysis method for image retrieval.
    (6) Research the application of transfer learning method in image retrieval system. First, the network structure of DenseNet201 is introduced, and then the image data set is divided, the pre-training model is used to identify the image category to obtain the image category, and finally the three kinds of feature information are combined to screen out similar images to complete the image retrieval.

    第一章 绪论

    1.1 课题研究背景与意义

    近年来,随着通信及多媒体技术、计算机网络、大容量存储器以及数字化图像设备如扫描仪、数字相机等技术的迅速发展,对数字图像的使用包括国防军事、工业制造、医疗卫生、新闻媒体、大众娱乐和家庭生活等各个方面。在如此广泛的应用背景下,产生了大量的各式各样的图像数据库,图像数据出现了按指数级增长的趋势。如何更好地应用视觉数据,实现方便、快速、准确地查询和检索到用户所需的图像信息,使管理者可以从大量的单调的人工管理工作中解放出来,已成为人们迫切需要解决的问题。
    传统的数据库检索方法在进行上述方面的信息检索时,效果往往不够理想。这是因为传统数据库在进行信息检索时,主要依据关键字和文本信息进行检索。不能提供相似性检索。基于文本的检索是指对图像文件建立关键字或文本标题以及一些附加信息对图像进行描述,然后将图像的存储路径和图像的关键词建立联系。这种方法的缺点主要在于:随着大量图像的出现,需要大量的人力物力去管理和注释这些图像;不同的人对同一幅图像的理解不同,文本描述信息相对主观,不准确等等。因而仅仅基于关键词的检索已经不能满足用户的检索要求。并且,传统的数据库检索结果与信息的组织方式及查询结果的显示方式有关,无法按照查询结果的相似程度进行输出。
    为了解决上述问题基于内容的图像检索应运而生。CBIR与传统的文本信息的检索不同,它是直接对图像的内容进行分析,通过计算机程序自动原图像的内容特征并按一定规则进行量化,得到特征向量用来表征整个图像。在此基础上,利用这些已经得到的特征向量建立索引进行检索。基于内容的图像检索系主要是把图像的颜色、纹理、形状等可视化特征作为图像的内容特征进行匹配、查找。特征的提取和匹配过程完全可以由机器自动完成, 可以解决手工注释的低效性和二义性。

    1.2 国内外研究现状

    在20世纪70年,数据库专家便已经着手研究图像数据信息的管理方案,管理图像数据信息在早期,主要方法通常是对图像文件附加描述信息,例如编号,主题,作者,发布时间等文本信息,以及通过人工方式对图像内容进行描述的关键词并将这些记录与图像在磁盘上的存储路径建立关联。由此可见,早期的图像检索技术很大程度上依赖于人工对图像的标注,在数据库中存储图像描述记录,然后基于文本关键词在数据中进行检索,并没有利用原始的图像内容信息,其在本质上依然是文本信息检索。随着数据库技术的长足进步,大型商业数据库已经可以支持以二进制形式存储图像,但是在管理方式上,依旧是通过图像描述信息建立联系。
    基于内容的图像检索技术由Smeulders AWM在20世纪90年代提出,主要研究内容为图像的特征提取,特征匹配,特征索引以及检索评价指标等,该技术的主要思想是利用计算机视觉和数字图像处理的方法实现对图像内容的视觉特征的分析及提取,映射为特征向量,用以对图像的视觉特征的描述,并引进度量函数,以此衡量图像间的相似度,从而达到从图像数据库中检索出相似度较高的图像的目的[1]。
    传统的CBIR技术原理主要利用了低层次的视觉特征,比如颜色信息,结构信息,纹理信息等,它们大多数使用浅层分类器,如SVM 来对图像语义进行分类。传统的CBIR技术均是基于低层次的视觉特征相似性判定,这样使得系统存在-一个瓶颈,它和人类从高级的图像语义特征得到的相似性的往往存在差距,或称之为“语义鸿沟”。
    在高层次上,CBIR技术属于人工智能领域,在解决语义鸿沟问题上,机器学习是现阶段中所开发的技术里最具有前景的技术[2]。随着Hinton等人在深度学习模型优化问题取得了巨大进步[3],深度技术得到了快速发展,是人工智能领域在近几十年来取得长足进步的重要技术。深度学习发展自人工神经网络,是机器学习相关领域中一系列算法的简称,至今其框架种类已十分丰富,如深度神经网络(Deep Neural Network, DNN),卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络( Recurrent Neural Network, RNN),它们在图像及视频分析,语音识别,自然语言处理等多媒体均匀大量应用,并取得前所未有的成功。其中视觉表征领域中,使用最为广泛的模型为卷积神经网络,该模型允许局部感受野,与人类视觉感受相符,权值共享策略使得训练参数较全链接网络大量减少,实现以少量参数从原始图像到抽象语义表征映射[4]。

    第二章 相关内容综述

    2.1 图像检索的系统结构

    基于内容的图像检索技术是对输入的图像进行分析并分类统一建模,提取其颜色、纹理、形状等特征,建立特征索引, 存储于特征数据库中[5]。检索时,用户提交查询的源图像,通过用户接口设置查询条件,可以采用一种或几种的特征组合来表示,然后在图像数据库中提取出查询到的所需关联图像,按照相似度从大到小的顺序,反馈给用户。用户可根据自己的满意程度,选择是否修改查询条件,继续查询,以达到满意的查询结果。
    基于内容的图像检索系统框架如图1所示。系统的核心是图像特征数据库。图像特征可以从图像本身提取得到, 又可以通过用户交互获得, 并用于计算图像之间的相似度计算。系统框架应主要包含以下几个基本功能模块:检索方法设置、检索结果浏览、数据库管理维护等。其逻辑结构如图2所示。

    图1 基于内容的图像检索框架

    图2 基于内容的图像检索系统逻辑模型

    本文的CBIR系统典型界面如图3所示。该界面主要包括:待检索图像实现渲染,检索出的50幅图像滚动显示区域、树形控件、检索菜单参数设置等。

    图3 CBIR系统实现示例界面

    2.2 图像预处理

    图像预处理的方法主要包括:统一图像大小,使得每一幅待检索图像大小一致;图像降噪,避免图像噪声带来的影响。可使用数字图像处理课程中所学各种方法,如高斯模板、中值滤波等来实现;图像增强,主要用来增强对比度等。可使用数字图像处理课程中所学各种方法,如直方图均衡化等方法实现。
    本文主要采用了统一图像大小与中值滤波进行图片预处理。

    2.3 图像的特征提取

    图像的特征提取主要针对图像的颜色,纹理和形状。图像颜色特征采用HSI 中心矩法和HSV中心矩法为每张图片获取九个特征值,以图片路径作为关键字用“–>”分隔,存放在图像特征数据库中。图像纹理特征采用灰度共生矩阵法为每张图片获取八个特征值,以相同的格式存放在图像特征数据库中。图像形状特征采用形状不变矩法为每张图片获取七个特征值,存放在图像特征数据库中。
    对于综合属性检索,本文采用三种 “特征向量”:a) 三种特征综合的方法:将上述得到的图像颜色特征(HSI 中心矩法),图像纹理特征(灰度共生矩阵法)和图像形状特征(形状不变矩法)三个向量化为一个维数更高的特征向量。b) 主成分分析法:对图像进行预处理后,再对其进行主成分分析得到一个由64个主成分值组成的向量作为特征向量。c) 迁移学习法:利用网络DenseNet201训练模型,通过训练好的模型为每张图片打上类别标签,然后在进行图像检索时首先选出同类图像,然后再根据三种特征综合的方法为每张图像计算相似度。

    2.4 相似度匹配

    在基于内容的图像检索中,两幅图像是否相似是指图像的特征向量是否相似。常用的图像相似性测度通常采用几何模型,将图像特征看作是向量空间中的点,通过计算两个点之间的接近程度来衡量图像特征之间的相似度。基于内容的图像检索算法主要有最邻近查询算法和区间查询算法,它们都依赖于距离函数或者相似性度量[6]。算法步骤如下:
    (1) 按照前文方法,计算出待检索图像的特征。
    (2) 利用距离度量函数计算待检索图像特征和图像特征库间的距离。
    (3) 对计算出的距离值按照相似性大小进行高低排序。
    (4) 对计算出的距离值按照相似性大小进行高低排序
    下面分别以图像的直方图和中心矩为例来说明图像特征匹配的相似性度量函数计算方法。
    (1) 一般欧氏距离函数
    在这里插入图片描述

    (2) 加权距离函数
    在这里插入图片描述

    (3) 相交法度量函数
    在这里插入图片描述

    (4) 中心矩法的度量函数
    在这里插入图片描述

    本文为用户提供以上四种距离函数的实现接口,用户可以根据自己的需要选择所需的相似性度量函数计算方法,如图4所示。

    图4 相似性度量函数选择框

    2.5 数据库的构建和实现

    本文采用文本数据库的形式存储所有的特征向量,以“文件绝对路径–>特性向量/类别标签”的形式存储在txt文件中。采用HSI 中心矩法得到的图像颜色特征;采用HSV中心矩法得到的图像颜色特征;采用灰度共生矩阵法得到的图像纹理特征;采用形状不变矩法得到的图像形状特征;主成分分析法得到的图像主成分特征;迁移学习法得到的图像类别标签。
    2.6 系统介绍
    界面最上方菜单栏依次是:“文件”,“基于颜色检索”,“基于纹理检索”,“基于形状检索”,“综合属性检索”,“帮助”六个选项,在下面进行详细阐述。界面左上方是图库目录,展示图库中所有的图片的地址;界面左侧中间提供“中心矩”,“欧氏距离”,“加权距离”,“相交法度量”四种距离度量函数选择框,紧接着右侧提供“复位”按钮,用户可以将系统从不合理状态进行复位,保证系统鲁棒性。界面左下方实时展示当前需要检索的图片。界面右侧实时显示检索的结果,支持多达50张相似图片的滚动显示,如图5所示。当检索完毕后,用户可以点击匹配出的相似图片,系统绘制出目标图片与结果图片最相似的20个相似特征点,如图6所示。

    图5 检索结果渲染

    图6 相似特征点

    对于菜单栏的“基于颜色检索”选项,当用户点击时会出现HIS,HSV两种方法的选择框,用户可以按需选择,如图7所示。

    图7 HSI和HSV选择框

    对于菜单栏的“综合属性检索”选项,当用户点击时会出现三种特征综合法,主成分分析法,迁移学习法三种方法的选择框,用户可以按需选择,如图8所示。

    图8 三种方法选择框

    本系统的一个特色是,当用户点击菜单栏的“帮助”选项时,系统会主动跳转到该系统的帮助网站首页,如图9所示。

    图9 系统帮助网站首页

    系统首页介绍了一些CBIR系统的基本信息,网页右侧是菜单栏包括“介绍,使用用法,下载和其他”,点击“使用用法”选项进入系统使用方法说明网页,如图10所示。点击“下载”选项进入系统下载网页,在该网页用户可以下载系统源代码及数据集,如图11所示。

    图10 系统帮助网站使用方法页

    图11 系统下载网页

    第三章 基于颜色特征的图像检索技术

    颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的检索性。利用颜色特征进行检索的方法主要基于直方图,如:直方图相交法,比例直方图法,距离法,参考颜色表法和聚类算法,累计直方图法,此外,还有 HSI中心矩法。

    3.1 颜色空间

    3.1.1 RGB颜色空间

    RGB(red,green,blue)颜色空间最常用的用途就是显示器系统,彩色阴极射线管,彩色光栅图形的显示器 都使用R、G、B数值来驱动R、G、B 电子枪发射电子,并分别激发荧光屏上的R、G、B三种颜色的荧光粉发出不同亮度的光线,并通过相加混合产生各种颜色;扫描仪也是通过吸收原稿经反射或透射而发送来 的光线中的R、G、B成分,并用它来表示原稿的颜色[7]。RGB色彩空间称为与设备相关的色彩空间,因为不同的扫描仪扫描同一幅图像,会得到不同色彩的图像数据;不同型号的显示器显示同一幅图像,也会有不同的色彩显示结果。

    3.1.2 HSI颜色空间

    HSI色彩空间是从人的视觉系统出发,用色调(Hue)、色饱和度(Saturation或Chroma)和亮度 (Intensity或Brightness)来描述色彩[8]。HSI色彩空间可以用一个圆锥空间模型来描述。用这种 描述HSI色彩空间的圆锥模型相当复杂,但确实能把色调、亮度和饱和度的变化情形表现得很清楚。 通常把色调和饱和度通称为色度,用来表示颜色的类别与深浅程度。由于人的视觉对亮度的敏感程度远强于对颜色浓淡的敏感程度,为了便于色彩处理和识别,人的视觉系统经常采用HSI色彩空间,它比RGB色彩空间更符合人的视觉特性。在图像处理和计算机视觉中大量算法都可在HSI色彩空间中方便地使用,它们可以分开处理而且是相互独立的。因此,在HSI色彩空间可以大大简化图像分析和处理的工作量。HSI色彩空间和RGB色彩空间只是同一物理量的不同表示法,因而它们之间存在着转换关系。

    3.1.3 HSV颜色空间

    HSV(hue,saturation,value)颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集,圆锥的顶面对应于V=1。它包含RGB模型中的R=1,G=1,B=1 三个面,所代表的颜色较亮[9]。色彩H由绕V轴的旋转角给定。红色对应于角度0°,绿色对应于角度120°,蓝色对应于角度240°。在HSV颜色模型中,每一种颜色和它的补色相差180°。 饱和度S取值从0到1,所以圆锥顶面的半径为1。HSV颜色模型所代表的颜色域是CIE色度图的一个子集,这个模型中饱和度为百分之百的颜色,其纯度一般小于百分之百。在圆锥的顶点(即原点)处,V=0,H和S无定义, 代表黑色。圆锥的顶面中心处S=0,V=1,H无定义,代表白色。从该点到原点代表亮度渐暗的灰色,即具有不同灰度的灰色。对于这些点,S=0,H的值无定义。可以说,HSV模型中的V轴对应于RGB颜色空间中的主对角线。在圆锥顶面的圆周上的颜色,V=1,S=1,这种颜色是纯色。HSV模型对应于画家配色的方法。画家用改变色浓和色深的方法从某种纯色获得不同色调的颜色,在一种纯色中加入白色以改变色浓,加入黑色以改变色深,同时加入不同比例的白色,黑色即可获得各种不同的色调。

    3.2 HSI中心矩法

    颜色矩(color moments)是由Stricker 和Orengo所提出的一种非常简单而有效的颜色特征[10]。这种方法的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。因此,图像的颜色矩一共只需要9个分量(3个颜色分量,每个分量上3个低阶矩),与其他的颜色特征相比是非常简洁的。在实际应用中,为避免低次矩较弱的分辨能力,颜色矩常和其它特征结合使用,而且一般在使用其它特征前,起到过滤缩小范围(narrow down)的作用。
    HSI中心矩法算法步骤如下所示:
    (1) 图像灰度化 Gray=0.30R+0.59G+0.11*B。
    (2) 将图像从 RGB 颜色空间转至 HSI 颜色空间.
    (3) 以 HSI 空间的 Hue 分量为例,如果记 Hue(pi)为图像 P 的第 i 个像素的 Hue 值,则其前三阶中心矩分别为:
    在这里插入图片描述

    (4) 将特征值存放在图像特征数据库中。

    3.3 HSV中心矩法

    HSV中心矩法与HSI中心矩法及其类似,只是颜色空间不同,因此不在此处赘述。

    3.4 实验结果与分析

    选择三张代表性图片进行实验,分别是:/yin_yang/image_0001.jpg,/accordion/image_0001.jpg,/airplanes/image_0001.jpg,如图12所示。

    图12 三张实验图片

    选择这三张图片的原因:对于第一张图片,它具有良好的颜色特征和形状特征,对于第二张图片,它具有良好的纹理特征,而第三张图片的颜色特征,纹理特征和形状特征均不明显,这样可以更好的测试出几种方法的优劣。
    第一张图片在HSI和HSV上的检索结果如图13所示。第二张图片在HSI和HSV上的检索结果如图14所示. 第三张图片在HSI和HSV上的检索结果如图15所示。

    图13 第一张图片在HSI和HSV上的检索结果

    图14 第二张图片在HSI和HSV上的检索结果

    图15 第三张图片在HSI和HSV上的检索结果

    通过上述实验不难看出,无论在哪一张实验图片上,HSI方法均有更加优良的检索效果,虽然差距不明显。

    第四章 基于纹理特征的图像检索技术

    纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。用户可通过提交包含有某种纹理的图像来查找含有相似纹理的其他图像[11]。从人类的感知经验出发, 纹理特征主要有粗糙性、方向性和对比度。纹理分析方法,大致可分为两类:(1)统计方法。用于分析像木纹、沙地、草坪等细致而不规则的物体,并根据关于像素间灰度的统计性质对纹理规定特征及特征与参数间的关系。(2)结构方法。适于像布料的印刷图案或砖瓦等一类元素组成的纹理及其排列比较规则的图案, 然后根据纹理基元及其排列规则来描述纹理的结构及特征、特征与参数间的关系。

    4.1 灰度矩阵法

    共生矩阵用两个位置的像素的联合概率密度来定义,它不仅反映亮度的分布特征,也反映具有同样亮度或者接近亮度的像素之间的位置分布特性,是有关图像亮度变化的二阶统计特征。它是定义一组纹理特征的基础[12]。由于纹理是由灰度在空间位置上反复出现而形成的,因而在图像空间中像个某距离的两像素之间会存在一定的灰度关系,即图像中灰度的空间相关特性。灰度共生矩阵就是一种通过研究灰度的空间相关特性来描述纹理的常用方法。灰度直方图是对图像上单个像素具有某个灰度进行统计的结果,而灰度共生矩阵是对图像上保持某个距离的两像素分别具有某灰度的状况进行统计得到的。
    一幅图像的灰度共生矩阵能反映出图像灰度关于方向、相邻间隔、变化幅度的综合信息,它是分析图像的局部模式和它们排列规则的基础。

    4.2 实验结果与分析

    第一张实验图片采用灰度矩阵法的检索结果如图16所示。第二张实验图片采用灰度矩阵法的检索结果如图17所示. 第三张实验图片采用灰度矩阵法的检索结果如图18所示。

    图16 第一张实验图片采用灰度矩阵法的检索结果

    图17 第二张实验图片采用灰度矩阵法的检索结果

    图18 第三张实验图片采用灰度矩阵法的检索结果

    分析上述实验结果,不难发现采用灰度矩阵法进行图像纹理特征的检索,对于纹理特征较为明显的图像具有更好的匹配效果。

    第五章 基于形状特征的图像检索技术

    形状是描述图像内容的本质特征, 在实际检索中, 很多查询可能并不针对图像的颜色, 因为同一物体可能有各种不同的颜色, 但其形状总是相似的。如检索某辆汽车的图像,汽车可以是红的、绿的等, 但形状决不会像飞机的外形[13]。另外, 对于图形来说, 形状是它唯一重要的特征。目前用于图像检索的形状描述方法主要有两类:基于边缘和基于区域的形状方法。基于边缘的形状特征提取是利用图像的边缘信息,在边缘检测的基础上,用面积、周长、偏心率、角点、链码、兴趣点、傅里叶描述子、矩描述子等特征来描述物体的形状,适用于图像边缘较清晰、容易获取的图像。

    5.1 形状不变矩法

    Hu利用二阶和三阶归一化中心矩构造了7个不变矩,不变矩是一处高度浓缩的图像特征,在连续图像下具有平移、灰度、尺度、旋转不变性。
    7个不变矩构成一组特征量,实际上,在对图片中物体的识别过程中,只有M1和M2不变性保持的比较好,其他的几个不变矩带来的误差比较大,有学者认为只有基于二阶矩的不变矩对二维物体的描述才是真正的具有旋转、缩放和平移不变性(M1和M2刚好都是由二阶矩组成的)。由Hu矩组成的特征量对图片进行识别,优点就是速度很快,缺点是识别率比较低。Hu不变矩一般用来识别图像中大的物体,对于物体的形状描述得比较好,图像的纹理特征不能太复杂,像识别水果的形状,或者对于车牌中的简单字符的识别效果会相对好一些。

    5.2 实验结果与分析

    第一张实验图片采用形状不变矩法的检索结果如图19所示。第二张实验图片采用形状不变矩法的检索结果如图20所示. 第三张实验图片采用形状不变矩法的检索结果如图21所示。

    图19 第一张实验图片采用形状不变矩法的检索结果

    图20 第二张实验图片采用形状不变矩法的检索结果

    图21 第三张实验图片采用形状不变矩法的检索结果

    通过上述实验可以看出,基于形状不变矩的图像形状检索,仅仅对第一张图片——太极图,给出了较好的结果而对于第二,三张图片检索结果均不理想,分析可以设想其是因为图片形状特征不明显所致。

    第六章 基于三种特征信息综合的图像检索

    6.1 三种特征信息综合方法

    在上述简单提取图像的一种特征进行检索的基础上,不难想到将三种特征结合起来以待得到更优结果。基本思路是:将已经提取到的三种特征向量分别合并为一个特征向量,为每张图像获取一个维数更高,特征值更多的特征向量。

    6.2 实验结果与分析

    第一张实验图片采用三种特征信息综合法的检索结果如图22所示。第二张实验图片采用三种特征信息综合法的检索结果如图23所示。第三张实验图片采用三种特征信息综合法的检索结果如图24所示。

    图22 第一张实验图片采用三种特征信息综合法的检索结果

    图23 第二张实验图片采用三种特征信息综合法的检索结果

    图24 第三张实验图片采用三种特征信息综合法的检索结果

    分析上述实验结果,并且将其与三种特征独立使用时的实验结果进行对比,发现采用三种特征信息综合法这种简单的优化方式就可以得到比单独使用任何一种方法单独使用时更加精确的结果。

    第七章 基于主成分分析法的图像检索

    7.1 主成分分析法

    主成分分析方法的出发点简单来说就是把图像看做无数个连续像素点的载体。例如一个图像是一个由LL像素点组成的方形(MR 图像),那么其向量的大小是L的平方。典型的图像尺寸一般为256256,所以其向量的长度(维)为65, 536。但是在一个非常高的维度内,图像采集的方法就会改变,十万维空间中的图像进行比较的任务是艰巨的。所以说我们需要找到一个更合适的图像矢量表示,在准确表示图像本征维的同时,确保它的维度不会太高。
    将图像的像素点信息看做一个有特征向量组成的特征空间。然后根据欧氏距离算法,把图像间的相似度,也近似看做这个向量间的距离。再对这些距离结果设定一些区间,按照区间的数值来给图像分类。
    本文首先将图像缩放到64*64的矩阵,然后对每一维进行主成分分析得到一个主成分值,共计64个使其构成图像的特征向量。

    7.2 实验结果与分析

    第一张实验图片采用主成分分析法的检索结果如图25所示。第二张实验图片采用主成分分析法的检索结果如图26所示。第三张实验图片采用三主成分分析法的检索结果如图27所示。

    图25 第一张实验图片采用主成分分析法的检索结果

    图26 第二张实验图片采用主成分分析法的检索结果

    图27 第三张实验图片采用主成分分析法的检索结果

    分析上述实验结果可知,本文的主成分分析法的检索结果,虽然有一定的合理性,但是结果却差强人意。究其原因可能是因为,算法对于每张图像保留的主成分不具有很强的代表性,导致结果较差。

    第八章基于迁移学习的图像检索

    8.1 迁移学习

    稀疏结构是非常适合神经网络的结构,尤其是对大而深的神经网络,不仅可以减轻过拟合同时也可以降低计算量。但是随着网络层次的加深,模型抽取出的特征也会更加抽象,使得模型最后忽略了数据中的细节信息。并增加计算机的运行成本,即耗时过长。因此,CVPR2017年的Best Paper中出现了DenseNet来缓解网络层数加深和变宽之后带来的一系列问题。DenseNet网络脱离了原有的加深变宽思想,从特征角度去考虑。通过特征的重复使用和旁路设置(Bypass)设置,该网络既大幅度减少了网络的参数量,又在一定程度上缓解了gradient vanishing问题的产生。结合信息流和特征复用的假设。
    随着越来越多的机器学习应用场景的出现,而现有表现比较好的监督学习需要大量的标注数据,标注数据是一项枯燥无味且花费巨大的任务,所以迁移学习受到越来越多的关注。
    传统机器学习(主要指监督学习):基于同分布假设;需要大量标注数据;然而实际使用过程中不同数据集可能存在一些问题。比如,数据分布差异;标注数据过期;训练数据过期,也就是好不容易标定的数据要被丢弃,有些应用中数据是分布随着时间推移会有变化。如何充分利用之前标注好的数据(废物利用),同时又保证在新的任务上的模型精度?基于这样的问题,所以就有了对于迁移学习的研究。
    迁移学习是:将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。主要思想是:从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果[14]。
    在本项目中主要是将DenseNet201的网络结构及训练参数在稍作改编的情况下,直接对数据集进行学习。

    8.2 实验结果与分析

    DenseNet201网络训练过程,如图28所示;最终训练网络的loss曲线与accuracy曲线,如图29所示。

    图28 DenseNet201网络训练过程

    图29 loss曲线与accuracy曲线

    第一张实验图片采用迁移学习法的检索结果如图30所示。第二张实验图片采用迁移学习法的检索结果如图31所示。第三张实验图片采用迁移学习法的检索结果如图32所示。

    图30 第一张实验图片采用主成分分析法的检索结果

    图31 第二张实验图片采用迁移学习法的检索结果

    图32 第三张实验图片采用迁移学习法的检索结果

    根据上述实验结果分析可知,迁移学习对于基于内容的图像检索具有最好的效果。

    第九章 总结与展望

    9.1 总结

    本次综合实训,完成了基于内容的图像检索系统,共计实现了七种基于内容的图像检索方法,其中基于深度学习的迁移学习法可以得到最好的检索效果,三种特征信息综合的方法次之。本文实现的方法分别是:基于颜色信息的图像检索,包括:HSI中心矩法和HSV中心矩法;基于纹理特征的图像检索,采用灰度共生矩阵实现;基于形状特征的图像检索,采用形状不变矩法;基于综合信息的图像检索,包括将三种特征信息综合的方法,主成分分析法,基于深度学习的迁移学习法。
    根据实验结果来看,基于深度学习的迁移学习法在基于内容的图像检索方面有独特的优势,它的准确率往往优于传统方法,这是它的明显优势,但是该方法的弊端在于必须提前获取大量数据集对网络进行训练,使用较长的预处理时间,才可以得到效果较好的网络,因此它很难实现实时加载新的数据集对其进行检索。而三种特征信息综合的方法,虽然它的准确率很难与迁移学习方法比肩,但是它对于较小的数据集可以实现动态的图像数据集加载,完成检索工作。综上所述,当检索需求要求较高准确率,检索数据集较大,且无需实现动态的图像数据集加载,那么采用迁移学习的方法是比较好的选择;当检索需求要求准确率不高,检索数据集较小,但是需要实现动态的图像数据集加载,那么采用三种特征信息综合的方法是更优的选择。

    9.2 创新点

    本文在实现基本的颜色、纹理,形状三种特征提取的方法上,还进行了一些拓展:
    (1) 三种特征信息综合。最朴素,最自然的想法是将三种特征向量按照权重相同的方式融合,得到更好的检索效果。实验结果表明,这种简单的结合便可以得到更好的效果。
    (2) 基于主成分分析。图像检索中的特征提取,在更高的抽象意义来说就是在低维找到可以准确表征高维空间事物的本征维。而主成分分析法正好可以完成这个任务。因此,本文还采用了主成分分析对图像进行特征提取与检索。
    (3) 基于深度学习的迁移学习法。深度学习方法对处理图像数据的抽象内容信息有着较大优势。因此,本文采用迁移学习法对图像内容进行检索。实验结果表明,迁移学习具有最好的效果。
    (4) 系统设计。支持菜单按钮与树形目录选择并实时渲染目标图像;支持多达50张相似图片滚动展示;支持帮助门户网站功能,用户可以进入网站查看系统介绍,系统使用方法,下载源文件以及数据集和联系网页。

    9.3 展望

    本文认为主成分分析也是很有前景的方法,它将迁移学习的高准确率与三种特征信息综合的高效进行了折中,既有望实现较高的准确率,又可以实现图像数据集的动态加载

    致 谢

    光阴似箭,岁月如梭。转眼间,大三最后一门课程的就要接近尾声了,回顾我的大学三年以及自己实训过程中的点点滴滴,可以说是短暂又漫长,有苦也有甜,但此时此刻沉淀在自己心中的更多的是感激。感谢各位老师对我综合实训的指导,老师在课堂上不仅传授专业知识,更为我们指明前进的方向。

    参考文献

    [1] 祝晓斌,刘亚奇,蔡强,曹健.基于内容的图像检索技术研究[J].计算机仿真,2015,32(05):1-4+85.
    [2] Vincent, Pascal, et al. “Extracting and composing robust features with denoising autoencoders.” International Conference on Machine Learning ACM, 2008:1096-1103.
    [3] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. science, 2006, 313(5786): 504-507.
    [4] 陈乾明. 基于内容的图像检索系统的设计与实现[D].南京大学,2018.
    [5] 王海荣. 基于内容的图像检索技术研究及应用瞻望[D].西北大学,2009.
    [6] 白雪. 聚类分析中的相似性度量及其应用研究[D].北京交通大学,2012.
    [7] 郝贵青,王冰洋.一种基于RGB颜色空间的色彩还原方法[J].国外电子测量技术,2016,35(11):24-26+41.
    [8] 邵帅,郭永飞,刘辉,袁航飞,张择书.HSI色彩空间下的低照度遥感图像增强[J].光学精密工程,2018,26(08):2092-2099.
    [9] 马玲,张晓辉.HSV颜色空间的饱和度与明度关系模型[J].计算机辅助设计与图形学学报,2014,26(08):1272-1278.
    [10] 韩丁,武佩,张强,韩国栋,通霏.基于颜色矩的典型草原牧草特征提取与图像识别[J].农业工程学报,2016,32(23):168-175.
    [11] 陶华伟,赵力,奚吉,虞玲,王彤.基于颜色及纹理特征的果蔬种类识别方法[J].农业工程学报,2014,30(16):305-311.
    [12] 王昊鹏,李慧.基于局部二值模式和灰度共生矩阵的籽棉杂质分类识别[J].农业工程学报,2015,31(03):236-241.
    [13] 李平,魏仲慧,何昕,何丁龙,何家维,梁国龙,凌剑勇.采用多形状特征融合的多视点目标识别[J].光学精密工程,2014,22(12):3368-3376.
    [14] 庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(01):26-39.

    展开全文
  • 《先锋检索》——开发文档 目录 (一) 系统说明.... 2 一、 系统架构.... 2 二、 模块介绍.... 2 1. 网络爬虫——Larbin. 2 2. 前端+搜索引擎:Xunsearch(迅搜)& Xapian. 3 3. 网页解析与数据存储:...

    《先锋检索》——开发文档

    也是本人的第一篇博客


    这篇博客是本人《信息检索》课程大作业的开发文档,使用了larbin(网络爬虫)+xunsearch(搜索引擎解决方案)的解决方案。事实上,或许有更多更简单/更高超的方案,但是我使用的这个方案,一方面,相比一些需要较高技术的方案节省了大量的时间;另一方面,相对于一些现成的代码实际上仍然需要一些简单的操作,有利于进一步加强对“信息检索”实现过程的理解。

    注意:本系统需要在Linux下部署运行,本人曾尝试使用Ubuntu18.0 /Centos 7.0部署,均获得成功。可能需要使用虚拟机,有关教程请自行搜索,相信你一定行。

    第一部分主要介绍一些理论上的内容;实操性的内容从第二部分设计文档开始。

    文末附有本项目的仓库链接。

    一些细节,如文件应该放在那个文件夹下、命令行应该在哪个文件夹中运行,可能没有显式地指出,希望读者可以从附图中得到有关信息,或自行尝试。

    项目地址:https://gitee.com/CHH12/IR-project-pioneer-search

    仓库中含有完整设计文档。

    (由于选题原因,一些图片不能展示,敬请移步仓库下载PDF原版)


    目录

    (一)系统说明

    一、系统架构

    二、模块介绍

    1.网络爬虫——Larbin

    2.前端+搜索引擎:Xunsearch(迅搜)& Xapian

    3.网页解析与数据存储:Parser.py(BeautifulSoup4)

    (二)设计文档

    一、运行环境

    二、总体设计流程

    三、各模块设计细节

    1.网络爬虫模块

    2.解析器模块

    3.搜索引擎模块

    四、网站页面一览


    本搜索引擎主要收录与 红色 有关的网页文档,基于这一描述,我决定将本搜索引擎命名为“先锋检索”。

    本搜索引擎系统主要架构如上图所示。

    检索的源文档由网络爬虫从给定的种子网页开始爬取,爬取到本地后利用Python中的BeautifulSoup4模块进行网页的解析,并写入数据库中,完成网页文档数据的获取。

    之后利用搜索引擎解决方案Xunsearch(迅搜)构建搜索引擎,利用索引器Indexer对文档数据进行索引,并构建基于Xapian的后端搜索服务器与前端的搜索应用,向用户展示出搜索功能。

    Larbin是一种开源的网络爬虫,由法国人Sébastien Ailleret独立开发,用c++语言实现。

    Larbin设计简单,具有高度的可配置性,能够配置抓取深度、间隔、并发度、代理,并支持通过后缀名对抓取网页进行过滤。

    Larbin具有非常高的效率,一个简单的larbin的爬虫可以每天获取500万的网页,可以轻易的获取/确定单个网站的所有联结,还可以镜像一个网站。Larbin能够跟踪从给定的种子页面出发,进行自动扩展url的页面抓取与保存,从而为搜索引擎提供广泛的数据来源。

    美中不足的是,Larbin只是一个爬虫,只抓取网页,并不负责网页的解析、数据库的存储以及索引的建立,也不支持分布式系统。另外,Larbin已经较长时间不再更新,因而不支持https协议,这在今天很大程度上造成了网页页面的局限性。

    这里采用由国人在基于原版Larbin2.6.3版本上继续开发并发布于GitHub的Larbin2.6.5版本进行搜索引擎系统的构建。

    项目网址:https://github.com/ictxiangxin/larbin

    2.前端+搜索引擎:Xunsearch(迅搜)& Xapian

    (1)Xunsearch

    Xunsearch(迅搜)是一以 GPL 协议开源发布的高性能、全功能的全文检索解决方案,并针对中文深度优化和处理,用于帮助开发者针对海量数据快速建立搜索引擎。

    Xunsearch 采用结构化分层设计,包含后端服务器和前端开发包两大部分。后端是用 C/C++ 基于 Xapian搜索库、SCWS 中文分词、libevent 等开源库开发,借鉴了 nginx 的多进程多线程混合工作方式,是一个可承载高并发的高性能服务端。前端则是使用流行的脚本语言编写了开发工具包(SDK)。

    Xunsearch具有以下特点:

    1. 海量数据下高速搜索响应。单库最多支持 40 亿条数据,在 500 万张网页1.5TB 数据中,非缓存检索时间约 0.5 秒。
    2. 为搜索而自主开发 scws 中文分词库,支持复合分词、自定义补充词库,保障查全率、准确率。
    3. 拥有健壮稳定的后端守护程序、内置缓存池与线程池用于保障性能。
    4. 索引接口齐全,索引添加简便,支持实时搜索,支持多种数据源 ( SQL, JSON, CSV等)。
    5. 开发难度较低,具备规范的中文文档、示范代码,以及非常实用的辅助工具。
    6. 除通用搜索引擎功能外,还内置支持拼音检索、分面搜索、相关搜索、同义词搜索、搜索纠错建议等专业功能。
    7. 与 Lucene/Sphinx 等相比,xunsearch 提供了更丰富且必需的功能。

    在开发的过程中,正是得益于xunsearch所提供的多种方便的工具,才能够让我在短时间内得以顺利地开发完成本项目。

    特别注意到,Xunsearch中的索引有如下特点:

    1. Xunsearch 每个搜索项目的索引数据是分开单独存放的,索引本质上是一系列预设计文件, 内部都是特别设计的 Tree 结构。
    2. 包含 2 个主要索引数据库,分别是db 默认的主索引数据库,存放各种检索数据;log_db 搜索日志数据库,用于存放搜索日志相关,用于实现相关搜索、搜索建议、拼音搜索等。
    3. 索引操作(包含添加、删除、修改文档)均是异步的行为,以达到性能优化设计。

    (2)Xapian

    Xunsearch基于Xapian搜索引擎库开发,也正是在Xapian的支持下xunsearch才能有前文所述的高速搜索响应。

    在Xapian的文档中,官方称 Xapian是一个“允许开发人员轻易地添加高级索引和搜索功能到他们的应用系统的高度可修改的工具,它在支持概率论检索模型的同时也支持布尔型操作查询集”。

    实际上Xapian与Lucene有许多相似之处,如二者都有Term、Value、Posting、Position和Document这些概念。

    当然,而二者也有许多不同:Xapian基于C++进行开发,可以绑定到多种语言,可移植性高;Xapian采用BM-25模型,具有较好的检索效果;Xapian的检索性能远远高于Lucene。

    Xapian提供了多种查询机制,包括:概率性搜索排名、相关度反馈、邻近搜索、布尔搜索、词干提取、通配符查询、别名查询、拼写纠正等,为开发者提供了丰富的功能。

    Xpian的主要功能点总结如下:

    1. 开源,基于GPL协议
    2. 支持Unicode,存储索引数据也是用UTF-8
    3. 可移植性,可以运行在Linux, Mac OS X, Windows系统上
    4. 支持多种语言的绑定,现在有Perl, python, java, PHP, C#等
    5. 以概念模型为查询分数计算基础,利用BM25算法进行加权
    6. 可以实现相关度的反馈,Xapian能够基于用户的查询条件来返回与其相关的词组,并基于此进行检索,返回一类相关的文档
    7. 词组与近似词查询,用户的查询条件可以指定词组中词的出现顺序,出现次数等条件
    8. 支持Boolean查询,如"A NOT B",Boolean查询结果的排序是基于概率模型,
    9. 支持词干的查询
    10. 支持前缀查询,如Xap*
    11. 支持同义词查询,
    12. 支持基于用户查询条件的拼写检测
    13. 支持分面搜索。
    14. 支持大于2GB的数据文件
    15. 与平台(操作系统)独立的索引格式,linux和windows平台可以使用相同的索引

    Xapian的主要设计如下:

    1. 布尔型检索和概率性检索有两种组合的方式:先用布尔型检索得到所有documents中的某个子集,然后在这个子集中再使用概率性检索。 先进行概率性检索,然后使用布尔型检索过滤查询结果。
    2. 布尔型风格的查询都可以在检索得出documents集合结果后,然后使用概率性检索的排序(BM25)。
    3. 使用flint作为存储系统,以块的形式来存储,默认每块是8K,理论上每一个文件最大可以达到2048GB。Terms和Documents使用B-树来存储的,增删改查比较方便迅速
    4. Xapian的database是所有用于检索的信息表的集合,必须包含:
      1. posting_list_table:保存了被每一个term索引的document,实际上保存的应该是document的唯一识别Id。
      2. record_table:保存了每一个document所关联的data,data不能通过query检索,只能通过document来获取。
      3. term_list_table:保存了索引每个document的所有的term。

    3.网页解析与数据存储:Parser.py(BeautifulSoup4)

    对于网页文档内容进行解析和格式化。可以利用python的BeautifulSoup4模块编写一个简易的脚本程序实现这一功能。

    BeautifulSoup4是一个可以从HTML或XML中提取数据的python库,利用它可以很快的实现网页解析的功能。

    模块文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#

    主机:

    系统:Windows 10

    带宽:40Mbps

    虚拟机(搜索引擎运行环境):

    软件:VMware Workstation Pro 14

    配置设置:

           内存:2GB

           处理器:Intel(R) Core(TM) i7-8550U CPU @ 1.80GHz(核心数:1)

    系统:Linux Ubuntu 18.04

    依赖环境:

    Apache 2.0

    PHP 5.3.29

    python 3

    (1)概述:

    网络爬虫模块使用Larbin2.6.5进行网页文档的爬取。在按照配置进行爬取30分钟后,最终获得41612个文档(约1.25GB)。由于爬虫自身的限制,这些文档均来自http站点。

    (2)配置:

    1. 输出模式:简单保存
    2. 是否锁定种子站点:否
    3. 并行连接访问的数目:50
    4. 并行DNS请求的数目:5
    5. 爬取站点的最大深度:无限制
    6. 同一个服务器的两次请求的间隔时间:10秒
    7. 带宽限制:无限制
    8. 运行时间:30分钟
    9. 提取的页面数:无限制
    10. 是否哈希页面以去重:是
    11. 种子网页地址:
      1. http://www.12371.cn(共产党员网)
      2. http://www.uucps.edu.cn/(大学生网络党校)

    (3)爬取记录与分析:

    从统计结果可以看出,共收到56894个URL,访问了55685个页面,最终成功爬取41612个页面。平均每分钟爬取1387个页面,其效率之高可见一斑。

     

    从上图可以具体地得出爬虫的爬取效率,可见爬虫爬取的速度随着时间的推移也会发生较大的变化。

     

    上图反映了爬虫爬取结束时的资源使用情况。

    2.解析器模块

    1. 概述:

    解析器模块由我直接利用Python的BeautifulSoup4, Pandas模块编写,前者可以对网页文档进行解析,后者便于将数据以csv文件形式保存,便于后续搜索引擎使用。

    2.核心代码:

    id = []
    
    title = []
    
    body = []
    
    urls = []
    
    #确定id,保存url
    
    id.append(k)
    
    url = lines[k % 2000]
    
    url = url[url.find('h'):].replace('\n', '')
    
    urls.append(url)
    
    
    
    #解析网页
    
    with open(path + file, 'rb') as f:
    
        soup = BeautifulSoup(f.read(), 'html.parser')
    
        if soup.title == None or soup.title.string == None:
    
            title.append('')
    
        else:
    
            title.append(soup.title.string.replace('\n', '').replace('\r', ''))
    
        body.append(soup.get_text().replace('\n', '').replace('\r', ''))
    
    print(k)
    
    
    
    #生成记录
    
    data = {'id': id, 'title': title, 'body': body, 'urls': urls}
    
    frame = pd.DataFrame(data)
    
    #写入数据文件
    
    if k == 0:
    
        frame.to_csv('data_u.csv', encoding='utf-8', index=False)
    
    else:
    
        frame.to_csv('data_u.csv',
    
                     mode='a+',
    
                     header=False,
    
                     encoding='utf-8',
    
                     index=False)
    
    k = k + 1

    (3)处理结果:

     

    每个文档被分出id,title,body, urls四个字段,存储在一个csv文件中。

    3.搜索引擎模块

    (1)概述:

    搜索引擎模块利用xunsearch提供的开发工具即可实现。首先确定运行环境正常,然后对格式化的csv文件进行索引,并生成搜索骨架代码,即可实现基本检索功能。

    (2)构造流程:

    #环境检查:

    工具包中配备了运行检测工具RequiredCheck ,检查当前环境是否满足Xunsearch的运行条件。

    这里可以看出系统环境能够运行Xunsearch。

    #编写项目配置文件:

    Xunsearch工具包中配备了配置文件生成工具IniWizzard(http://xunsearch.com/tools/iniconfig),仅需指定项目的名称,服务器的端口,以及数据中各个字段在索引中的类型、索引方式、检索权重,摘要长度等属性,就可以自动生成配置文件。

    回顾网页解析的部分,在生成的csv文件中,每条文档记录有四个字段:id,title,body,urls。在搜索引擎中,对这三个字段进行如下定义与说明:id为主键,作为每个文档的标识符;title为每个文档的标题,可以指定字段搜索,也可从“全文”搜索中得到结果,且赋予较高权重;body为每个文档的内容,可以从“全文”搜索中得到结果,并截取300个字符作为搜索结果的摘要显示;urls 作为每个文档在展示时的附属信息,不进行索引;这里截取完整url进行展示,故取较大长度100。利用该工具可以生成配置文件。由于大多配置与默认相同,因此没有显式地在配置文件中指出。

    #建立索引:

    工具包中配备了索引管理器Indexer,可以批量导入索引、清空索引、刷新索引队列等。可以方便地为格式化的csv文件建立索引。

     

     

    在db文件夹下,可以看到建立的索引文件。

    #搜索测试:

    工具包中配备了搜索测试工具Quest,可以在当前索引中进行测试搜索,测试给定查询词的返回的数据。

     

    #骨架代码生成:

    工具包中配备了骨架代码生成工具SearchSkel,可以生成按照配置文件生成前端代码,大大加快了开发速度,避免了“反复造轮子”的困扰。

     

    如图所示,已经在./search中生成了骨架代码,访问php文件即可使用搜索功能。

    #部署到web可达目录:

    运行Apache2.0,PHP5.4,将骨架代码放入/var/www/html中,即可在本地服务器localhost访问搜索页面,实现搜索引擎的功能。

     

    输入查询词,生成url,并输出对应检索页面。

    点击文档标题,会返回对应的文档主键(id)

    #l利用给定代码进行再开发:(修改php文件等,请自行摸索)

    • 重新设计页面logo,更加符合本搜索引擎主题
    • 对骨架代码中的国外cdn进行修改,加快访问速度
    • 对页面中的不合理的内容、样式进行优化,增加美观性
    • 对搜索反馈的结果进行优化,加入指向源网页的超链接,优化用户体验

    #部署到服务器:

    本项目已经部署到公网服务器(出于安全缘故这里不进行开放)。

    (图片无法上传,请进入仓库下载原文)

    在部署到web可访问的目录后,通过虚拟机的端口转发设置,即可实现在主机访问搜索引擎。若将本项目布置在服务器上,即可通过互联网进行访问。

    1. 首页:

    可以从本地浏览器访问到检索页面。在使用了搜索功能后,搜索引擎将分析搜索日志,从而提供了热门搜索词。

    页脚标明了作者的信息。

    搜索时,可以选择按照标题字段检索或全文检索,可以开启同义词搜索、模糊搜索等功能,也可以选择排序规则。

    2.查询词联想

    可以看到在输入查询词的同时系统会自动进行联想。

    3.搜索纠错:

     出现查询词可能出现错误时,系统会给出替换用词;当没有搜索到结果时,系统会给出纠错提示与修改建议

    4.结果反馈:

    在反馈搜索时,会反馈查询结果的标题、文档摘要以及文档对应的原网址,并进行对查询词进行高亮表示(红字斜体),并会返回检索条目,检索时间,检索相似度等信息。在页脚还提供了与查询词相关的搜索内容。

    5.结果交互:

    为每个搜索结果的标题进行特殊设置:一是在选中条目时,条目样式会发生改变,增强交互感;二是设置超链接,方便从搜索结果直接跳转至原页面进行内容查看。

    项目地址:https://gitee.com/CHH12/IR-project-pioneer-search

    链接中含完整设计文档

    展开全文
  • 信息检索习题

    千次阅读 2021-06-30 16:49:44
    1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。 2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。 3.中国专利法在1985年开始实施 4.在会议文献中,常用英文哪个单词表示“专题讨论会...

    一、填空题

    1.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。

    2.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。

    3.中国专利法在1985年开始实施

    4.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop

    5.在CNKI平台下,“主题”检索的内容,不包含以下哪个?(作者)

    6.一本印刷的检索工具,其结构大体可以分为,三大部分:文前栏目、正文和书后附属部分

    6.按约束力来划分,标准可以分为强制性标准和推荐性标准。

    7.一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。

    8.一个期刊被SCI收入后,会有一个WOS开头的入藏号。

    9.广义的文献检索工具,可以分为:检索工具和【参考工具】。

    10.《中图分类法》中,字母S代表的是“农业科学”,字母【T】代表的是“工业技术”。

    11.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。

    12.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。

    13.著名的SCI检索工具,其英文全称是:【Science Citation Index】。

    14.判断一本国内期刊是否合法的一个简单方式是,查看该期刊的哪个信息?(CN)

    15.按信息的出版类型分:学位论文,属于以下哪种信息源?(特殊文献)

    16.Spischolar平台主要是搜索,哪种类型的参考文献?(电子学术论文)

    17.政府出版物,从信息出版形式的角度看,属于以下哪类信息源?(特殊文献)

    18.一般情况下,Open Access方式发表的文献,版权是归谁所有?(作者所有)

    19.CPCI检索是针对哪种文献类型**(会议论文类型的文献)**

    20.中科院文献情报中心,对JCR期刊按其影响因子和引用率,分类几个区?(4个)

    21.引文检索除了实现信息评价外,还能达到**【信息检索】**的目的。

    22.关键字是论文的组成部分,学术论文的关键字,其数量一般控制在:**(3-8)**个?

    23.美国是在1976年的《著作权法案》,首次为合理使用制定了标准。

    24.按《中国标准文献分类法》,其一级类目中“电子元件与信息技术”,用哪个字母表示?(L)

    25.学术造假一般分为三类,分别是:伪造、篡改和造假。

    26.百度、谷歌这样的搜索引擎,属于什么类型的搜索引擎【全文搜索引擎】

    27.Compendex数据库是属于:【二次】文献数据库。

    28.用户想要检索和下载“电子图书”,一般推荐选择哪个检索平台?【读秀】

    29.书生之家平台上检索的文献类型主要是哪类?【电子图书文献】

    30.不是Web of Science平台的主要期刊来源的是哪个?【EI】

    31.防止学术剽窃,一般采取的方法有:教育、法律和科技手段。

    32.在大多数情况下,检索的目的是为了找到 相关文献 ,而不是"答案"。

    33.二八定律在期刊文献检索中的体现是:20%的期刊登载了80%的重要文献,体现这种特性的期刊是 核心期刊 。

    34.文献的特性有 知识信息性 、 客观物质性 、 人工记录性 、 动态发展性 。

    35.文献的 内容 特征用于找出相关文献, 外部 特征用于获得特定文献。

    36.文献获取与利用的过程中存在三重语言障碍,分别为: 自然语言障碍 、 专业语言障碍 、 检索语言障碍

    37.检索工具的基本类型有: 目录 、 题录 、 文摘 、 索引 。

    38.以单篇文献为著录对象,并附有摘要的检索工具为: 文摘 。

    39.从内部特征进行检索的最重要的两种检索途径是: 主题途径 、 分类途径 。

    文献检索语言是 标引 与 检索 共同使用的约定语言。

    40.主题词语言具有三个基本特征:着眼于从 内容 特性方面去提示文献主题、采用 文字符号 、按 字顺 排列。

    41.当查询关键词具有多个含义的时候,容易造成 误检 ,使得 查准率 较低。

    42.主题词的体现形式是 叙词表 。

    43.辨识科技报告最明显的标志是 科技报告编号 ,一般由 单位编号 和 报告序号 组成,有的还包括类型代码。

    44.《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为22个大类。

    45.按内容可将计算机检索系统的数据库类型分为: 文献书目型 数据库、 事实型 数据库、 数值型 数据库和 全文型 数据库。

    46.我国标准可分为国家标准、 部标准 和 企业标准 三大类。

    47.在实际检索中,文献的检索方法主要有: 直查法 、 追溯法 、 工具法 和综合法。

    48.国际标准化组织简称:ISO 、本标准每 5 年修订一次

    49、信息素质的内涵包括 信息意识 、 信息能力 和 信息道德 。

    50.连续出版物的主要类型有 期刊 、 报纸 和 年底出版物 。

    51、. 构成文献的三要素是 知识 、 载体 和 记录 。

    52.CNKI的中文全称是: 中国知识基础设施工程 。

    信息检索常用的方法有: 引文追溯法 、 工具法 和 循环法
    55、专利有三层含义: 新颖性 、 创造性 和 实用性 。

    55.按检索手段划分,文献检索工具可以分为手工检索工具和【机械检索】工具。

    56.国家标准的代号体系中,地方标准的代号是__ DB__

    二、选择题

    在网络上检索某地的天气预报,属于检索事实型的信息。A.事实 B.数值 C.微内容 D.全文

    在我国,专利的类型不包括,以下哪个?
    A.实用新型专利 B.软件设计专利 C.外观设计专利 D.发明专利

    1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。
    A.分类索引  B.作者索引  C.引文索引   D.主题索引
    2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。
    A.超星数字图书馆 B.万方学位论文 C.国研网 D.维普科技期刊 E.高校财经库
    4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E )。
    A.关键词   B.作者   C.刊名   D.题名   E.文摘
    5、二次文献又称检索工具,包括:( A C D )。
    A.书目  B.百科  C.索引  D.文摘  E.统计数据
    书生之家平台上检索的文献类型主要是哪类?(C)P126
    A 、学位论文文献 B、期刊文献 C、电子图书文献 D、会议论文文献

    文献是记录有知识的( A )A 载体 B 纸张 C 光盘 D 磁盘
    下列哪种文献属于一次文献( A )A 期刊论文 B 百科全书 C 综述 D 文摘
    下列哪种文献属于二次文献( D )A 专利文献 B 学位论文 C 会议文献 D 目录
    下列哪种文献属于三次文献( C )
    A 标准文献 B 学位论文 C 综述 D 文摘
    下列选项中属于连续出版物类型的选项有( C )
    A 图书 B 学位论文 C 科技期刊 D 会议文献
    下列选项中属于特种文献类型的有( D )
    A 报纸 B 图书 C 科技期刊 D 标准文献
    利用文献末尾所附参考文献进行检索的方法是( C )
    A 倒查法 B 顺查法 C 引文追溯法 D 抽查法
    至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为( A )
    A 数据库 B 记录 C 字段 D 文档
    广义的信息检索包含两个过程( B )
    A 检索与利用 B 存储与检索 C 存储与利用 D 检索与报道
    狭义的专利文献是指( C )
    A 专利公报 B 专利目录 C 专利说明书 D 专利索引
    根据国家相关标准,文献的定义是指“记录有(A )的一切载体”。 A.情报 B.信息 C.知识
    2、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献 C.二次文献 D.三次文献
    3、文摘、题录、目录等属于( B ) A.一次文献 B.二次文献 C.零次文献 D.三次文献
    4、手稿、私人笔记等属于( C)文献,辞典、手册等属于( )文献 A.一次,三次 B.零次,二次 C.零次,三次 D.一次,二次
    5、按照出版时间的先后,应将各个级别的文献排列成( A ) A.三次文献、二次文献、一次文献 B.一次文献、三次文献、二次文献 C.一次文献、二次文献、三次文献 D.二次文献、三次文献、一次文献
    6、( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。 A.零次文献 B.二次文献 C.一次文献 D.三次文献
    7、一次文献、二次文献、三次文献是按照( A )进行区分的。 A.内容的公开次数 B.原创的层次 C.印刷的次数 D.评论的次数
    8、从文献的( C )角度区分,可将文献分为印刷型、缩微型等。 A.内容的公开次数 B.载体类型 C.出版类型 D.公开程度
    9、具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D ) A.图书 B.会议文献 C.学位论文 D.期刊
    10、利用文献后面所附的参考文献进行检索的方法称为( A ) A.追溯法 B.直接法 C.抽查法 D.综合法
    12、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录
    14、课题“计算机在情报检索中的应用”的中图法分类号及类名为( D ) A.TP3计算机技术 B.TP399计算机技术的应用 C.G250图书馆学 D.G252.7情报检索
    17、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于( C ),在书目数据库中,一条记录相当于( ) A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘
    27、《中国学术期刊全文数据库》提供的文献内容特征检索途径有( B ) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者
    28、《中国学术期刊全文数据库》提供的文献外表特征的途径有( B ) A.关键词,篇名 B.机构,中文刊名 C.作者,篇名 D.文摘,中文刊名
    37、《中图法》中基本大类由22个字母表示,“E”表示的是(C ) “O”表示的 是 ( )。 A:经济、军事, B:自然科学、文学, C:军事、数理科学和化学 D:经济、外语
    1.下面哪些属于二次文献( BCD )。
    A.手册; B.文摘; C.目录; D.题录.

    三、名词解释题

    1、文献
    用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。
    2、体系分类语言
    体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。
    3、引文语言
    引文语言是根据文献所附参考或引用文献的特征进行检索的语言。
    4、事实检索
    以事项为检索内容的文献信息检索
    5、二次文献
    对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等
    16、从广义上讲,什么是文献检索工具?
    就是根据需要,以特定的编排方式和检索方法,为人们提供某方面的基本知识或文献检索,专供查询的书籍或电子数据库。可分为检索工具书和参考工具书两大类。
    17、按文献的加工层侧来分,什么是零次文献?
    就是记录在非正规物理载体上的未经任何加工处理的源信息叫做零次信息。
    比如书信、论文手稿、笔记、实验记录、会议记录等,这是一种零星的、分散的和无规则的信息。零次信息的载体形式就称之为零次文献。
    18、请解释一下,什么是纸质型文献?
    概述:以纸张为载体,用书写或印刷等方式记录知识的文献。纸质文献最早出现在中国,4世纪以后逐渐在世界各地传播和应用。纸质文献按纸的种类大致可分为麻纸文献、皮纸文献、竹纸文献等。
    特点:1、符合人们的阅读习惯2、便于保存3、具有权威性4、有利于知识产权保护5、纸质文献仍具有强大的生命力
    19、请解释一下,什么是引文索引?
    引文索引就是是利用文献之间的相互引证关系来检素文献的。
    我们从引文索引中查出一批所需的文献后,再利用这些文献的引文查找一批新的文献,这样不仅能获得一定数量的相关文献,还能揭示旧文献对新文献的影响,新文献对旧文献的评价,展现新旧文献在学术研究中的关系;。
    20、文献的开放获取(Open Access)。
    开放获取的英文全称是Open Access,简称OA。
    它是一种国际上的学术界、出版界、情报界为了推动科研成果利用互联网自由传播而采取的行动。指文献全文的免费、即使和永久获取。

    四、问答题

    1、简述论文选题的基本原则?
    1)选题要目的明确,学以致用,理论联系实际 。2)要选择有创造性有学术价值的课题。3)选题要量力而行,难易适中。4)选题地方法。5)题目的确定
    2、制定检索策略的步骤与技巧是什么?
    1)分析检索课题明确检索需求(2)选择检索系统和数据库(3)确定检索词和检索途径

    五、判断题

    在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?F
    各国专利文献数据库中,文摘可以免费检索,但浏览全文需付费。×
    一般来说,我们把SCI、EI、ISTP称为,三大科技文献检索系统。(√)
    一篇被CSCD数据库收入的文献,会有一个CSCD开头的入藏号。(√)
    对于发明专利,在中国的保护期,要比在美国的保护期短。×
    在论文发表的时候,对于2个贡献程度一样的执笔人或主要撰写者,不允许出现“共同第一作者”?×
    目录是目和录的合称,定其次之谓目,辨其名之谓录。( × )
    21.在文献检索guo’chen各种,为了在查找某个作者,可以通过该作者的DOI进行查找。F
    22.学术论文具有:科学性、学术性和创新性的特征。
    23.在会议文献中,常用英文哪个单词表示“专题讨论会”。(单词首字母,请大写)Workshop
    24.著名的引文索引检索工具SCI的中文全称是《科学引文索引》。
    25.超星电子图书的读者可以选择的阅读方式是:阅读器阅读和网页阅读。
    EI检索,提供的是全文检索方式。(× )
    一般的检索平台提供的跨库检索,也被称为一站式检索。(√ )
    DOI(Digital Object Identifier)既数字对象标识,是数值环境中内容对象的永久性标识号。( √)
    以“磁盘”作为载体的电子文献类型,其标识代码为:MT。(× )
    Open Access(OA)属于发表人付费,阅读与引用人免费的论文出版模式?(√ )
    67. 1948年,美国数学家、信息论的创始人维纳在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。 ( × )
    1948年,美国数学家、信息论的创始人仙农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。
    68. 从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。( × )
    从文献检索的角度来看,一次文献是检索的对象,二次文献是用于检索的主要手段和工具。
    69. 《中国图书馆分类法》是按知识门类的学科体系的逻辑次序进行分类。( √ )
    70. 核心期刊是指经常使用的期刊。( × )
    核心期刊是指那些信息密度大、内容质量高、论文寿命长、被引率、被索率、被摘率、借阅率也较高,能代表某学科、专业最新发展水平和趋势的期刊。
    71. 一项发明创造要获得专利权必须具备新颖性、创造性和实用性。( √ )
    72. 专利是受法律保护的,其中发明专利的保护期限是10年。( × )
    73. 题录型检索工具,其著录项目主要包括文献篇名、作者、文献出处。( √ )
    74. TCP/IP协议的作用是保证各种不同类型的计算机网络实现相互通信。( √ )
    75. EBSCOhost 数据库中的BSP(Business Source Premier)是学术期刊数据库的简称。( × )

    六、问答题:

    23、一般的文献检索工具,必须具备哪四个基本条件?
    1.必须详细著录文献的外部特征(篇名、著者姓名、文献序号等)和内容特征(文献的学科属性和主题内容等);
    2.必须具有既定的检索标识(如文献的分类标识、主题词、著者姓名、文献序号等);
    3.能够提供多种检索途径。
    4.全部文献必须根据标识,系统地、科学地排列,成为一个有机的整体;
    76. 请解释信息、知识、文献的概念,并简述三者之间的关系
    答:不同领域对信息的定义不同,图书情报界对信息的定义:信息是客观事属性和运动状态的外在表现。知识是人们对客观事物存在和运动规律的认识。
    文献是记录有知识的一切物质载体。
    信息、知识与文献的关系可以归结为:信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储、传递知识和信息的载体。信息不等于知识,知识是信息的重要组成部分。信息与知识这种包含关系可以表示为:信息大于知识。在自然界的万事万物中,信息是物质世界表征其存在的一种形式。信息,有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制;知识,无形的、与行动和决策相关、经过处理改变思维、精神产品、环境改变涵义、经过学习才能转让、无法复制。
    知识是有组织的大量的信息,获得知识有赖于获得信息;信息是知识得以形成和传播的中介,而不是知识本身,知识是经过精心研究、领会后的有用信息,是人类对信息加工处理后的产物。并非所有信息都可成为知识,在信息时代,源于众多复杂客体的大量信息,只有借助于现代化的信息手段,并通过掌握现代信息科学技术的认知主体,才能真正转化为知识。

    2、信息、知识、情报、文献的概念?文献的组成要素?
    信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。
    2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理
    3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。
    知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总和。
    情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。
    文献的概念:是记录有知识的一切载体。
    文献的组成要素:不但包括现代图书馆的全部馆藏,同时也包括了档案馆、博物馆、声像馆和情报中心收藏的全部馆藏。

    3、信息、信息资源包括那些类型?
    1)信息的类型:从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。以信息所依附的载体为依据,可分为文献信息、口头信息、电子信息、生物信息等
    信息资源类型:根据存储媒介不同,信息资源可以划分为印刷型信息资源、电子信息资源、数字信息资源和多媒体信息资源。

    4、文献有那些类型?将文献划分成这些类型的依据是什么?
    1)根据载体材料、存储技术、和传递方式划分
    可划分为:印刷型、缩微型、试听型和机读型文献信息源
    2)根据加工程度的不同划分
    可分为:一次文献信息源、二次文献信息源、和三次文献信息源
    3)根据文献信息源的内容划分
    可以分为:图书、期刊、报纸、科技报告、政府出版物、会议文献、专利文献、学位论文、标准文献、档案文献、产品样本

    5、数据库的类型?网络资源有那些特点?
    数据库的类型:联机数据库和光盘数据库、网络数据库
    网络资源有那些特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等

    6、何为“核心期刊“?本专业的核心期刊有那些?
    核心期刊定义是 :在某一学科中 ,少数期刊覆盖了该学科的大部分文献 ,而多数期刊仅包含该学科的少量文献 ,这少数期刊就是该学科的核心期刊。
    本专业的核心期刊有:《政治与法律》、《环球法律评论》、《当代法学》、《法学》

    7、什么是信息检索?类型有哪些?
    定义:是通过一定的方法和手段将用户的提问特征与数据源所采用的特征标志进行对比,然后将二者相一致或比较一致的信息提取出来供用户使用的过程。
    类型:文献检索、数据检索、事实检索

    8、简述信息检索的原理。
    信息检索的实质是一个匹配过程,也就是信息用户需求的主题概念或检索表达式同一定信息系统的系统语言相匹配的过程,如果两者匹配,则所需信息被检中,否则检索失败。

    9、什么是计算机信息检索系统?它由几个部分组成?
    计算机信息检索系统:是利用计算机和一定的通信设备查找所需信息的检索方式,检索的系统就是人的设计操作和计算机自动化处理相结合的系统。
    组成部分:光盘检索系统、联机检索系统、网络检索系统

    10、计算机信息检索技术包括哪些?
    布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索并向着智能化方向发展。

    11、从外表特征和内容特征来看,检索语言的类型各有哪些?不同特征各举一简单的检索式。
    描述信息外部特征的检索语言包括题名(书名、刊名、篇名)、著者姓名\单位名称、出版事项、代码\序号(如专利号、报告号、标准号)等,其作为检索标志直接明了,使用时较为简单。
    描述信息内容特征的检索语言包括分类语言和主题语言,主题语言又可分为关键词语言、单元词语言、标题词语言和叙词语言。

    12、为什么要创建检索语言,它有哪些类型?比较分类语言和主题语言的优缺点。
    1)检索语言是指用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言,目的是为了便于检索文献。
    2)类型:按检索语言是否受控可分为人工语言和自然语言,按检索时的组配实施状况可分为先组式和后组式检索语言,按描述信息特征的不同可分为描述信息外部特征的检索语言和描述文献内容特征的检索语言。

    15、简述“超星电子图书馆”、“书生之家数字图书馆”、“中国学术期刊全文数据库”、“维普中文科技期刊数据库”和“万方数字化期刊”收藏资源的特点
    1)、超星电子图书馆:收录的电子图书内容丰富,包括经典理论、哲学、社科、经济、语言文字、文学、数理化、生物、工业技术、计算机等50余个学科门类,现拥有中文电子图书80万种,论文300万篇,全文总量4亿余业,并且每天仍在不断地更新与增加
    2)书生之家数字图书馆:主要收录1999年以后出版的新书,其收录量为每年中国出版的新书品种一半以上,目前拥有图书15万种,数量可观,学科门类齐全。
    3)中国学术期刊全文数据库:该库的产品分为十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。个专辑分为若干专题,共168个专题。
    4)维普中文科技期刊数据库:按照《中国图书馆分类法》进行分类,所有文献被分为8个专辑:社会科学、自然科学、工程技术、医药卫生、农业科学、经济管理、教育科学和图书情报。8大专辑又被细分为36个专题 。
    5)万方数字化期刊收藏资源的特点:目前集纳了理、工、农、医、人文五大类70多个类目,2500多种科技类核心期刊,实现全文上网。该系统收录的期刊种类主要有7个:基础科学、农业科学、社会科学、哲学政法、医学卫生、教科文艺、经济财政。

    16、结合“中国学术期刊全文数据库”、“维普中文科技期刊数据库”两种数据库,谈各自的“高级检索”的方法
    1)、维普中文科技期刊数据库“高级检索”的方法:打开维普数据库,点击高级检索,输入关键词、作者、分类号、机构、刊名,扩展检索条件,如:时间条件、专业限制、期刊范围,然后点击检索。
    2)、中国学术期刊全文数据库“高级检索”的方法:打开中国知网,点击高级检索,进入中国学术期刊全文数据库,输入检索控制条件,如:发表时间 来源期刊` 期刊年期 支持基金,然后输入内容检索条件。

    17、简述特种文献的特点和作用,学术论文的结构
    特点:发行渠道特殊,形式各异,具有特殊的、其它文献所不能取代的价值
    作用:传递科技信息
    结构:一般而言,学术论文包括八个必要的组成部分,其中前置部分包括题名、作者、摘要、关键词,主体部分包括引言、正文、结论、参考文献。
    18、按级别分的标准的类型?我国标准分为哪些等级?分别用那些符号表示
    分类:1)按使用范围可分为:国际标准、区域标准、国家标准、行业标准、地方标准、企业标准
    2)按标准的约束性可分为:强制性标准、非强制性标准
    我国:国家标准GB 行业标准FZ 地方标准DB 企业标准Q

    19、专利的新颖性、创造性、实用性各自含义,中国保护的专利类型
    1、新颖性,是指在申请日以前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。
    2、创造性,是指同申请日以前已有的技术相比,该发明有突出的实质性特点和显著的进步,该实用新型有实质性特点和进步。
    3、实用性,是指该发明或者实用新型能够制造或者使用,并且能够产生积极效果。
    中国保护专利的类型:发明、实用新型、外观设计

    20、中国何时实施专利法?中国专利法对专利采用怎样的审批程序?受中国专利法保护的对象分别有哪些
    1、自1985年4月1日起施行
    2、程序:1)、专利局收到发明专利申请后,经初步审查认为符合本法要求的,自申请日起十八个月内,予以公布。专利局可以根据申请人的请求早日公布其申请。
    2)、发明专利申请自申请日起三年内,专利局可以根据申请人随时提出的请求,对其申请进行实质审查;申请人无正当理由逾期不请求实质审查的,该申请即被视为撤回。
    专利局认为必要的时候,可以自行对发明专利申请进行实质审查。
    3)、 发明专利的申请人请求实质审查的时候,应当提交在申请日前与其发明有关的参考资料。
    发明专利已经在外国提出过申请的,申请人请求实质审查的时候,应当提交该国为审查其申请进行检索的资料或者审查结果的资料;无正当理由不提交的,该申请即被视为撤回。
    4)、 专利局对发明专利申请进行实质审查后,认为不符合本法规定的,应当通知申请人,要求其在指定的期限内陈述意见,或者对其申请进行修改;无正当理由逾期不答复的,该申请即被视为撤回。
    5)、 发明专利申请经申请人陈述意见或者进行修改后,专利局仍然认为不符合本法规定的,应当予以驳回。
    6)、 发明专利申请经实质审查没有发现驳回理由的,专利局应当作出审定,予以公告,并通知申请人。
    7)、 专利局收到实用新型和外观设计专利申请后,经初步审查认为符合本法要求的,不再进行实质审查,即行公告,并通知申请人。
    8)、 专利申请自公告之日起三个月内,任何人都可以依照本法规定向专利局对该申请提出异议。专利局应当将异议的副本送交申请人,申请人应当在收到异议副本之日起三个月内提出书面答复;无正当理由逾期不提出书面答复的,该申请即被视为撤回。
    9)、 专利局经审查认为异议成立的,应当作出驳回申请的决定,并通知异议人和申请人。
    10)、 专利局设立专利复审委员会。申请人对专利局驳回申请的决定不服的,可以在收到通知之日起三个月内,向专利复审委员会请求复审。专利复审委员会复审后,作出决定,并通知申请人。
    发明专利的申请人对专利复审委员会驳回复审请求的决定不服的,可以在收到通知之日起三个月内向人民法院起诉。
    专利复审委员会对申请人关于实用新型和外观设计的复审请求所作出的决定为终局决定。

    11) 对专利申请无异议或者经审查异议不成立的,专利局应当作出授予专利权的决定,发给专利证书,并将有关事项予以登记和公告。
    3、发明、实用新型、外观设计
    21、中国专利文献的编号体系含有几种专利文献号?如何称谓?
    6种 申请号 专利号 公开号 审定号 公告号 授权公告号

    22、专利文献的特点、专利说明书的结构
    特点:新颖性、创造性和实用性
    结构:通常一件专利说明书包括:专利文献著录项目,权利要求书,说明书,附图,摘要。有些专利说明书还附有检索报告。
    23、专利文献的分类方法,分类号的结构组成,专利检索的目的
    分类方法:
    26、什么是科技报告?它有哪些类型?用哪些检索工具查找我国的科技报告
    科技报告:是一种非常重要的资源,他们往往反映科学技术前沿和正在进行中的研究项目,注重详细记录科研进展的全过程,多与高科技领域有关,传播研究成果的速度较快,并且以内部的发行为主,外界较难获得。
    科技报告的类型
    2)科技报告可划分为不同类型:
    1、 按内容可分为:基础理论研究和工程技术两大类。
    2、按形式可分为:技术报告(Technical Reports, 简称TR)、技术札记(Technical Notes,简称TN)、技术论文(Technical Papers, 简称TP)、技术备忘录(Technical Memorandum,简称TM)、通报(Bulletin)、技术译文(Technical Translations, 简称TT)、合同户报告(Contractor Reports, 简称CR)、特种出版物(Special Publications, 简称SP)、其它(如:会议出版物、教学用出版物、参考出版物、专利申请说明书及统计资料)等。
    3、按研究进展程度可分为:初步报告(Primary Report)、进展报告(Progress Report)、中间报告(Interim Report)、终结报告(Final Report)。
    4、按流通范围可分为:绝密报告(Top Secret Report)、机密报告(Secret Report)、秘密报告(Confidential Report)、非密限制发行报告(Restricted Report)、非密报告(Unclassified Report)、解密报告(Declassified Report)。属于保密的科技报告大多属于军事、国防工业和尖端技术成果
    3)检索工具:EI CompendexWeb INSPEC DIALOG

    27、什么是会议文献?若查找国外各种学术会议的信息,利用哪些检索工具
    1、会议文献是传递和获取科技信息的一种极为有效的重要渠道。
    2、检索工具:中国知网《中国重要会议论文全文数据库》 万方数据《中国学术会议论文文摘数据库》 中国学术会议在线 因特网会议预告 欧洲研究会议 国际标准化组织的标准化会议预告 医学会议查询

    2.简述会议论文的概念和特点,国内和国外会议论文的检索系统有哪些?
    参见文献类型-会议论文的介绍,国内的检索系统主要是万方数据和CALIS的高校会议论文检索,国际上的会议论文检索系统最重要的是ISTP,隶属于WEB OF PROCEEDINGS。

    3.请简单说一说如何选择网络信息资源?主要的标准有哪些?主要的标准有:
    a. 发布者的权威与可靠性
    b. 信息质量
    c. 信息资源的内容覆盖面
    d. 获取方便程度
    e. 检索途径多,检索界面容易使用,有无全文。

    利用外文文摘数据库查出文献线索后,若要查找1篇期刊论文的全文有哪些途径?
    解:
    1…使用搜索引擎搜索,如谷歌,百度,bing,搜狗,Ask,Yahoo等等
    2…利用文献线索,到文献的来源数据库进行搜索。
    3…利用文献线索,到全文数据库中进行检索。

    33、网络资源的特点和种类;搜索引擎的功能
    特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等
    种类:1、按人类信息交流的方式分类可分为非正式出版信息、半非正式出版物、正式出版物
    2)、从网络信息检索角度,按信息查询方式对网络信息进行分类可分为互联网信息、FTP信息、TELNET信息、USENET信息资源、USTSERV信息、JOPHER信息
    3)、按信息存取方式分,可分为邮件型、揭示板型、广播型、图书馆型以及书目型
    4)、按组织形式分可分为文件型、数据库型、超媒体型
    5)、按时效性分,可分为动态信息、电子报纸、电子期刊、电子图书、联机馆藏目录、联机数据库等
    6)、按信息的媒体形式分为,文本信息、超文本信息、多媒体信息、
    7)、按网络信息服务方式分为,网站信息、新闻信息、论坛信息、文件服务信息
    8)、按信息的格式分为,HTTML TXT DOC PDF RM MP3
    功能:网页搜索、图片搜索、视频搜索、地图搜索、新闻搜索、音乐搜索、论坛搜索等等

    34、试对百度、中文搜狐、北大天网、一搜四种搜索引擎的功能进行比较
    百度的功能特点:1. 基于字词结合的信息处理方式。
    2. 支持主流的中文编码标准。
    3. 智能相关度算法。
    4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
    5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。
    6. 相关检索词智能推荐技术。
    7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。
    8. 可以提供一周、二周、四周等多种服务方式。
    9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。
    10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。
    11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
    12. 高可配置性使得搜索服务能够满足不同用户的需求。
    13. 先进的网页动态摘要显示技术。
    14. 独有百度快照,巧妙解决了搜索用户经常遇到的死链接问题。
    15. 支持多种高级检索语法,使用户查询效率更高、结果更准。
    一搜的功能特点:1、MP3功能 2、娱乐功能 3、投票功能 4、翻译功能 5、视频功能 6、部落功能
    北大天网的功能特点:北京大学开发,简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、FTP检索(北京大学、中科院等FTP站点)。目前大约收集了100万个 WWW页面(国内)和14万篇Newsgroup(新闻组)文章。支持简体中文、繁体中文、英文关键词搜索,不支持数字关键词和URL名检索。
    搜狐的功能特点:搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。

    36、查阅有关文献,写出“标准文献、专利文献、学位论文、研究报告”作为参考文献时的标注格式
    37、学术论文一般由哪几部分构成?各部分的写作规范分别是什么
    1、标题:准确、精炼的技术术语表达的创新点名称
    2、单位和作者:只写作者和实际参与了论文写作的人名,按对论文而不是工作的贡献排序。
    3、摘要:是论文不加注释和评论的精炼缩写,是一篇独立的短文。
    4、关键词:关键词是表达论文所属门类的主题词。列出能通过模糊检索查到这篇文章的3~8个主题词。关键词要反映研究范围,但不一定是文中的高频词,排列最好按范围,先大后小。关键词忌生僻,最好出自《中文主题词表》。
    5、引言:引言可以作为论文的一节(符号可以是0、可以是1),也可以是正文前的一段无标题文字。应鲜明简洁,不要图表、公式。
    6、正文:正文要分节,合理分节并拟定小标题可以突出重点,有助于理解。要尽量多用图表直观地表达,图表要有自明性,使用中文表头、坐标,无需解释就能看懂。
    7、结论:全文而不仅是试验或仿真的总结。①归纳研究中发现的规律、优点;②应用或应用方向;③局限或不足,今后努力方向。结论应相对独立,提到创新点时不应使用“该方法”之类代用词。不十分肯定时可用“讨论”代替“结论”,但不得使用“结束语”、“小结”之类标题。结论中不应有图表、公式。
    8、参考文献:列出作者在研究范围内所看过的国内外文献。参考文献与引言呼应,反映作者跟踪技术发展的眼界和敏锐性,反映作者知识的广度和深度,反映作者有资格说自己是创新。数量不可过少,例如中国科协期刊优秀论文评选要求研究性学术论文参考文献不少于20篇。参考文献不限于中文但,教科书不可多,不宜过陈旧。
    38、什么是学术造假与剽窃?一般而言,剽窃的形式有哪些?司法实践中对剽窃
    是如何界定的?剽窃与参考文献的区别是什么
    剽窃的定义:剽窃是指把他人的作品当成自己的作品。
    学术造假的定义 :
    39、简要回答:三大检索工具SCI,EI和ISTP的内涵
    1、SCI ,即《科学引文索引》,是自然科学领域基础理论学科方面的重要期刊文摘索引数据库。
    它创建于1961 年,创始人为美国科学情报研究所所长 Eugene Garfield(1925.9.15).利用它,可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自 1945 年以来重要的学术成果信息;SCI 还被国内外学术界当做制定学科发展规划和进行学术排名的重要依据。
    2、Ei,即《工程索引》,创刊于 1884 年,由 Elsevier Engineering Information Inc. 编辑出版。主要收录工程技术领域的论文(主要为科技期刊和会议录论文 ) ,数据覆盖了核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程等学科领域。
    3、ISTP ,即《科学技术会议录索引》,创刊于 1978 年,由美国科学情报研究所编制,主要收录国际上著名的科技会议文献。它所收录的数据包括农业、环境科学、生物化学、分子生物学、生物技术、医学、工程、计算机科学 、化学、物理学等学科。从 1990-2003 年间, ISTP 和 ISSHP( 后文将要讲到 ISSHP) 共收录了 60 , 000 个会议的近 300 万篇论文的信息。
    文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体( V)
    文献知识的内容与其记录方式、载体材料无关( V )
    文献有知识内容、信息符号和载体材料三个不可分割的基本要素构成(X )
    一次文献是产生二、三次文献的基础,是检索利用的主要对象(V )
    从零次文献、一次文献到二次文献,再到三次文献,是一个知识内容由分散到集中,由无组织到系统化的过程( V )

    展开全文
  • Wumpus(《信息检索:实现和评价搜索引擎》其中一位作者开发的一个多用户开源信息检索系统 可以在网上下载)提供了模型实现 可作为学生练习的一个基础 《信息检索:实现和评价搜索引擎》采用的模块化结构使教师可以将...
  • patentics专利检索系统

    2014-07-03 16:52:13
    Patentics是集专利信息检索下载、分析与管理为一体的平台系统,其包括服务器端和客户终端,采用web浏览格式、用户安装终端格式及建立局域服务器网络格式呈现专利数据,是全球最先进的动态智能专利数据平台系统
  • 信息检索复习笔记

    万次阅读 多人点赞 2020-12-17 17:14:46
    信息检索复习 第一讲 搜索 IR(信息检索是什么样的学科): 实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科 为什么要进行信息检索?信息过载 搜索 搜索的过程 从大规模非结构化数据...
  • 领域知识库构建及信息检索系统

    千次阅读 2019-05-07 17:38:13
    系统源码及原文免费下载地址请访问:www.54manong.com 一、系统简介 通过对网络爬虫工具的设置并扩展,自动抓取行业领域资料,或通过语料管理模块上传领域相关资料,形成语料库。调用信息抽取模块和信息去噪模块,...
  • 本文主要介绍基于 Milvus 搭建的多模态图文检索系统。检索流程为:1. 通过 TIRG(Text Image Residual Gating)模型将图片特征和文本特征转化为多模态特征向...
  • 第二章 信息资源与信息源 文章目录 2.1 信息资源的构成 2.1.1 按文献的载体形式划分 1.印刷型文献 印刷型文献又称纸质文献、印本文献,是以手写、打印、印刷等为记录手段,将信息记载在纸张上形成的文献。它是传统...
  • 是一种有组织的电子邮件系统,用户在其间通过电子邮件进行一对多的交流 信息组织: 答:信息组织就是把数据按照一定的结构、顺序、排列方式组织起来,或者说是按照信息查询的需要,对数据根据其特征进行组织。 词典 ...
  • 文章目录摘要Abstract1 绪论1.1 课题研究背景1.2 课题研究目的与意义2 系统设计2.1 图像检索系统框架2.2 图像检索系统展示3 数据集处理3.1 数据预处理3.2 预处理结果展示4 基于颜色特征的图像检索4.1 颜色直方图特征...
  • 很多小伙伴都遇到过win7系统提示windows无法检索有关这台计算机上的磁盘信息的困惑吧,一些朋友看过网上零散的win7系统提示windows无法检索有关这台计算机上的磁盘信息的处理方法,并没有完完全全明白win7系统提示...
  • 手把手教你使用pytorch+flask搭建草图检索系统(一)

    千次阅读 热门讨论 2019-09-27 18:16:52
    手把手教你使用pytorch+flask搭建草图检索系统 文章目录手把手教你使用pytorch+flask搭建草图检索系统一. 写在前面1.1 系统框架说明1.1.1 检索网络1.1.2 检索框架 top-k1.2 准备工作1.2.1 环境配置1.2.1 检索数据集...
  • 为了提高专利检索分析的效率,提出了一种专利信息管理系统的设计与实现方案。系统使用Visual Studio 2008和SQL Server 2005进行开发,采用C/S架构。通过网络下载获取专利信息,并存入数据库。用户检索专利时直接从...
  • 信息检索

    千次阅读 2019-05-10 19:31:00
    论文数据库,中国科学院学位论文检索系统,eThesys分布式学位论文共建共享计划,中 文电子学位论文服务,台湾地区的博硕士论文资讯网 国外 :ProQuest学位论文全文数据库,网络化的博硕士论文数字图书馆(NDLTD...
  • 登录网站同样可以进行快速检索,但是检索能力不如LetPub的,好处是通过检索出来的项目直接可以跳转到项目详情中,查看详细信息。 按项目编号查询项目 获取了项目编号,可以直接通过项目编号在结题项目检索网页进行...
  • 图书管理系统图书查询功能程序源码.zip
  • 1、信息素养的核心是( )。 A、信息意识 B、信息知识 C、信息能力 D、信息道德 2、20世纪70年代,联合国教科文组织提出:人类要向着( )发展。 A、终身学习 B、学习型社会 C、创新发展 D、信息素质 3、从对文献的生产...
  • 文献检索与管理系统

    2014-10-16 20:53:34
    国内最专业的文献检索与管理系统,完全支持中文,NoteExpress 可以帮助您通过各种方途径高效,自动的搜索(含互联网),下载,管理文献资料和论文。该软件可嵌入MS Word环境使用,在使用Word中输出各种格式化的参考...
  • 简单的检索式问答系统

    千次阅读 2019-01-15 20:50:31
    这是我之前做的一个小项目,趁现在有时间就把它拿出来...简单的检索式的问答系统 问答系统所需要的数据已经提供,对于每一个问题都可以找得到相应的答案,所以可以理解为每一个样本数据是 <问题、答案&g...
  • 829-信息检索教程【考点汇总】

    千次阅读 2020-04-03 14:56:21
    狭义的信息指经过搜集、记录、处理和存储的可供检索的文献、数据和事实。它是人类对客观事物的认识,是实践经验的总结,是认识的结果,是我们检索的对象。 机读型信息 通过编码和程序设计,以机器语言存储在磁盘、...
  • 股票F10检索工具V8.8

    2014-06-04 20:59:40
    股票F10检索工具是一款专门通过分析离线的F10文件,来发现潜力牛股的工具。 主要功能包括 任意关键字过滤,支持同时过滤多个关键字。 最新消息,八面来风,信息快讯等内容的过滤。 任意股东过滤,过滤该股东持有的...
  • 那么搜索引擎和信息检索之间又有什么关联呢?今天,小编网为大家带来的是搜索引擎和信息检索的关系。希望对您有所帮助。一、什么是搜索引擎优化?搜索引擎优化,英文SEO,全称Search Engine Optimization。...
  • 信息检索期末复习

    千次阅读 2021-08-08 23:00:13
    信息素养的内容P4、信息素养的核心P4 1、信息——概念:自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互联系、相互作用等运动状态的表达。 2、知识——人们在改造世界的实践...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 95,849
精华内容 38,339
热门标签
关键字:

信息检索系统下载