精华内容
下载资源
问答
  • 文本检索 关键词检索和_文本检索系统-1:简介
    千次阅读
    2020-07-08 11:53:25

    文本检索 关键词检索和

    问候,

    介绍

    在上一期Compiler文章的最后,我说我想写

    关于文本处理。 我不知道该说什么。 直到我老婆

    吩咐我“清理您永远不会使用的烂摊子,请丢弃

    剩下的东西放在阁楼上,或者干脆扔掉那些垃圾”。

    我想在这里声明:

    1)我一点都没有。

    2)我每天都用这个烂摊子;

    3)我的烂摊子不是垃圾。

    只是因为我是一个非常听话的人,所以我开始检查我那堆有价值的东西

    东西:当然,我发现了自己的笔记,这些笔记我不再阅读也没有

    多年以来,我决定将它们放到新的有价值的堆上。

    然后我找到了旧的K&R1(Kernighan和Ritchie的C编程第一版)

    充满我的注释。 我好几年都没看过那本书了

    是我在书架上的最新K&R2副本),所以我决定创建一堆新书

    为我的珍贵旧书。

    然后我发现一个印有“即食蘑菇奶油酱”的东西

    日期为“ 2002年1月”,并决定将其粘贴到最后一个

    我宝贵的K&R1副本的各个章节。 我先打开它,因为我当时非常

    好奇(智能?)生命形式能否在其中成长。 它会

    浪费掉它。 不要告诉我的妻子; 她不知道是什么

    纯科学是。

    将几堆重新堆成两堆后,我发现

    有趣的是:一台旧台式机。 我意识到那个旧台式机尽管

    我好几年没见过这个事实了:它属于我的老邻居德克

    几年前去世的人

    德克在路上住了几所房子,有时我去探望他。 他是

    经常阅读; 阅读存储在他计算机上的东西,他一直在喃喃自语

    关于事情,他把事情记在纸上,有时他打了几下

    轻轻地咒骂和抱怨琴键时,只用一根或两根手指

    他在那一刻还无法找到的那个键盘上找不到

    之前。 德克是个好又有趣的老家伙。

    在他去世前几个月,他已经将该桌面“捐赠”给我,说:

    “您将那台计算机当做儿子,您对这些事情一无所知”。 那东西跑了

    Microsoft Windows '98的版本。 我碰巧了解的那一刻

    关于该Flaky操作系统的所有信息,我希望可以在

    一个好朋友仁慈地返回。 我的意思是。

    有一个键盘和系统单元。 我记得我把显示器放了

    在阁楼上,决定看看我是否可以再次打开它。 我找到了显示器

    在阁楼上,拿下来,放到餐桌上,钩住

    一切都完成了,并打开了那台旧计算机:哇,它仍然有效!

    可用文字

    里面有一个60MB的磁盘,我发现了一堆文件,它们整齐地存储着

    在他们的目录中。 一个目录名为“ C:\ KJ”,我决定给

    偷看。

    该目录包含完整的圣经文本,分为不同的文件,

    每本都包含其中一本圣经书。 这是国王詹姆斯的版本

    圣经。 我再次跑上楼去阁楼,在那里发现了一堆旧软盘。

    我的一台旧笔记本电脑有一个软盘驱动器和一个无线网卡,

    通过这些软盘转移整个shebang(我需要其中的五个),

    从我的旧笔记本电脑一直到我用于日常工作的笔记本电脑

    我输入此文本。

    我现在是大量文本的骄傲所有者。 障碍之一

    在开始撰写本文之前,我曾设想过我在谈论文字

    进行处理,而我却无法显示东西在很大程度上如何工作

    大量的文字。

    我不想为此输入CD的歌词(我太懒了

    ),并且只有一点点文字也不会删减。 我要用那个

    詹姆士国王圣经的文字为我的例子和小实验。

    我的老邻居德克(Dirk)一直在阅读国王詹姆斯(C:\ KJ)版本

    圣经。 我想知道是否有任何荷兰语版本的圣经可供

    正在下载,但我也找不到; 可能像我的老邻居

    Dirk找不到荷兰文字版本。 我想他诉诸于此

    英文版本是因为缺少可下载的荷兰语版本。

    我将所有其他桩放回原处,并决定该工作已经结束,

    完成。 我的妻子不同意这一点,但我不会再深入探讨了。

    这些东西属于我,我从餐桌上卸下了Dirk的桌面

    毕竟,所以我做了我的工作; 所以在那里。

    我将以詹姆士国王圣经的文字为例来进行文字处理

    软件。 另一方面:我不想将我的文本处理内容绑定到

    圣经文字,无论是国王詹姆斯版还是任何其他版本,包括

    该文本的不可用荷兰语版本或任何其他类型的文本。

    尽管如此,詹姆士国王圣经的文字还是我想要的一个很好的例子

    谈论甚至是Dirk的版本。 英语会更好

    毕竟是国际论坛。

    准备原始文本

    这是詹姆士国王圣经文本的第一部分:

    
    GENESIS 1:1 In the beginning God created the heaven and the earth.
    GENESIS 1:2 And the earth was without form, and void; and darkness {was} upon 
    the face of the deep. And the Spirit of God moved upon the face of the waters.
    GENESIS 1:3 And God said, Let there be light: and there was light. 
    看起来不错:我们在讲话时所说的每个段落(或“诗句”)

    关于圣经的文字)。 附书名,一章和

    段落/节号。

    在第二节中,我不喜欢那个'{was}',所以决定用谷歌搜索

    位 我怀疑Dirk在这里的工作,但不确定。 经过一番谷歌搜索我

    弄清楚国王詹姆斯的文字是经过几个世纪的编辑和修改的

    并且必须在其中一项编辑中的某处添加了“ {was}”东西

    会议。 老德克与此无关。

    我决定删除括号,没有特别的原因。 浏览后

    通过阅读其他几本书,我发现:

    
    I KINGS 22:23 ÿNow therefore, behold, the Lord hath put a lying spirit in the 
    mouth of ÿall ÿthese thy prophets, ÿand the Lord hath spoken ÿevil ÿconcerning 
    thee.  
    24 But Zedekiah the son of Chenaanah went near, and smote Micaiah on the 
    cheek, and said, ÿWhich way went the spirit of the Lord from me to speak 
    unto thee?  
    25 And Micaiah said, Behold, thou shalt see in that day, when thou shalt 
    go into an inner chamber to hide thyself.  
    老鼠,书名和章号不见了,而且很有趣

    那里的字符。 我浏览和浏览了一下

    在新的一章开始时包括了章号。 有时

    我在各个文件的末尾发现了^ Z个字符。

    我不想用手纠正所有这些; 我不是和尚,我还有其他

    要做的事情。 根据经验,我知道任何文字,无论多么细致

    处理并输入,编辑和校对,其中包含错误。 要么

    输入错误或结构错误。 上面的示例是结构错误。

    键入错误几乎不可能以编程方式找到。 那些结构

    错误可以由程序处理到一定程度。

    工作要做:我决定要设计和实现以下内容:

    一个简单的文本处理引擎

    上一段显示错误发生在大量文本中。

    我认为一部完整的圣经包含大量文字。 为了能够

    阅读,搜索,查询或其他方式,文本必须采用一致的格式。

    文本需要进行预处理; 如果此自动预处理失败,我

    必须手动更正文本,但这将是最后的选择。

    如果预处理成功,我想以一种允许的格式存储文本

    以便快速检索,查询等。我决定使用最小的文本单元

    应该是一个段落。 一个段落包含一个或多个句子,每个句子

    句子由一个或多个单词组成。

    我希望能够快速找到段落中的一个或多个单词。 一堆

    段落组成一章,一个或多个章节组成一本书。 一堆

    一堆书被分成一组,一堆组成一个

    图书馆(或书架或任何您想称呼的图书馆)。

    因此,基本上,我将文本从粗到细分成如下:

    1:组

    2:预定

    3:章节

    4:段落

    这个小场景非常适合圣经以及CD的收藏

    如果该组是按艺术家分组的所有CD,则该书将是等效的

    到一张CD。 这些章节将是歌曲,而段落将是

    歌曲歌词的各个部分。 其他设置也是可能的

    小场景。

    丑陋的部分是文本的预处理。 预处理器必须是

    为特定文本撰写,理论上可以扔掉

    文本已被预处理时。 我必须分开我的那一部分

    文本处理和检索引擎。

    我还想实现另外三个目标:任何Unicode文本都应

    可处理的,不仅是ASCII文本和结果结构的大小,还是

    对象或任何不大于原始文本大小的内容

    存储在磁盘上。 这些国王詹姆斯圣经经文的总大小约为4.7MB

    因此这将是我的King James文字检索对象的最大尺寸。

    最后:我想在每个段落中添加自己的注释。 笔记

    应该与整个东西一起保存,我想在什么时候检索它们

    我想要。 我基本上想要一种只读的数据库,其中包含

    一堆书,包括我自己的笔记。

    我必须添加各种索引和列表,以及应该包含的所有内容

    某种形式的压缩,也许还有其他一些冗余删除。 应该

    是这个小系统中的三个主要部分:

    1)预处理程序,根据原始文本提供良好的文本结构;

    2)创建最终文本检索系统的生成器;

    3)图书馆,实际的文本检索系统(包括我自己的注释)。

    这三个类(或类组)的设计和实现是

    本文下一部分的主题。 希望我下次再见

    一周,我们必须解决一些技术问题。 我们有工作要做。

    谷歌是一个剧透

    在输入了这篇文章的一部分之后,我对这本国王詹姆斯圣经进行了更多调查

    并发现还有更多书籍。 他们被撕掉了

    官方圣经。 书籍中的章节或整本书均被禁止

    来自官方圣经。 不仅国王XTeam做到了,而且

    已经发生了几个世纪:教皇,新教徒,天主教徒

    为幻想,虚构或真理辩解。

    一堆书最终成了垃圾,但仍然被认为是

    真正'。 “真正的”书籍构成了“经典”; 国王詹姆斯版

    就是这样的“经典”。 经过更多的谷歌搜索后,我发现国王詹姆斯

    XTeam接受了16本书作为“或多或少真实的东西”。

    这些书被称为“伪经”书(希腊语:“ apogrypha”,“

    已被隐藏起来”)。 我可以问谁隐瞒了谁?

    无论如何,我决定不参加几个世纪的古老运动,而你呢?

    我只是把那十六本伪造的书放在我的老邻居那里

    德克版的《国王詹姆斯圣经》。 我希望我没有侮辱德克,也没有

    其他人:我只想使用该文本作为该软件的示例文本

    我打算设计和实施。

    经过更多的谷歌搜索之后,我发现了那些伪造的文字。 我编辑了一下

    手动(实际上,VI完成了所有肮脏的工作,我只是做了一些宏),并且

    将它们添加到要为我的文本检索系统处理的书籍列表中。

    我要告诉妻子我的笔记,书本,东西等不是一堆垃圾:

    这是荒谬的。 所以那里。

    下周见

    亲切的问候,

    乔斯

    翻译自: https://bytes.com/topic/java/insights/674155-text-retrieval-systems-1-introduction

    文本检索 关键词检索和

    更多相关内容
  • 为了解决关键字信息检索语义缺失问题,提出了一种基于相关度的关键词语义信息检索方法。该方 法通过考查文档中的词语、概念之间关系(内在联系)和文档与文档之间关系(外部联系)的相关度,提出了一种词语-概念相关度的...
  • 文献检索语言

    2021-07-27 04:17:06
    检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。中文名文献检索语言含义文献信息的加工等编制的专门语言...

    本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧!

    检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。

    中文名

    文献检索语言

    含    义

    文献信息的加工等编制的专门语言分    类

    规范化语言和非规范化语言

    作    用

    沟通信息存储与信息检索

    文献检索语言检索语言概念

    编辑

    语音

    简言之,检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言和非规范化语言(自然语言)两类。

    文献检索语言检索语言作用

    编辑

    语音

    检索语言在信息检索中起着极其重要的作用,它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献。

    检索语言的主要作用如下:

    ①特征

    标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;

    ②相关性

    对内容相同及相关的文献信息加以集中或揭示其相关性;

    ③有序化检

    索使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;

    ④一致性

    便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;

    ⑤最高全准率

    保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。

    文献检索语言检索语言类型

    编辑

    语音

    目前,世界上的信息检索语言有几千种,依其划分方法的不同,其类型也不一样。(一)按照标识的性质与原理划分,(二)按照表达文献的特征划分。

    按照标识的性质与原理划分检索语言

    文献检索语言分类语言

    分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。

    以知识属性来描述和表达信息内容的信息处理方法称为分类法。著名的分类法有《国际十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆图书分类法》等。

    文献检索语言主题语言

    主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题语言来描述和表达信息内容的信息处理方法称为主题法。主题语言又可分为标题词、元词、叙词、关键词。

    文献检索语言代码语言

    代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。

    文献检索语言相关词汇检索

    编辑

    语音

    标题词、元词、叙词、关键词

    文献检索语言标题词

    标题词是指从自然语言中选取并经过规范化处理,表示事物概念的词、词组或短语。标题词是主题语言系统中最早的一种类型,它通过主标题词和副标题词固定组配来构成检索标识,只能选用“定型”标题词进行标引和检索,反映文献主题概念必然受到限制,不适应时代发展的需要,目前已较少使用。

    文献检索语言元词

    元词又称单元词,是指能够用以描述信息所论及主题的最小、最基本的词汇单位。经过规范化的能表达信息主题的元词集合构成元词语言。元词法是通过若干单元词的组配来表达复杂的主题概念的方法。元词语言多用于机械检索,适于用简单的标识和检索手段(如穿孔卡片等)来标识信息。

    文献检索语言叙词

    叙词是指以概念为基础、经过规范化和优选处理的、具有组配功能并能显示词间语义关系的动态性的词或词组。一般来讲,选做的叙词具有概念性、描述性、组配性。经过规范化处理后,还具有语义的关联性、动态性、直观性。叙词法综合了多种信息检索语言的原理和方法,具有多种优越性,适用于计算机和手工检索系统,是目前应用较广的一种语言。CA、EI等著名检索工具都采用了叙词法进行编排。

    文献检索语言关键词

    关键词是指出现在文献标题、文摘、正文中,对表征文献主题内容具有实质意义的语词,对揭示和描述文献主题内容是重要的、关键性的语词。关键词法主要用于计算机信息加工抽词编制索引,因而称这种索引为关键词索引。在检索中文医学文献中使用频率较高的《CMCC》数据库就是采用关键词索引方法建立的。

    3、代码语言代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。

    文献检索语言文献特征检索

    编辑

    语音

    按照表达文献的特征划分检索语言

    表达文献外部特征的检索语言

    表达文献外部特征的检索语言主要是指文献的篇名(题目)、作者姓名、出版者、报告号、专利号等。将不同的文献按照篇名、作者名称的字序进行排列,或者按照报告号、专利号的数序进行排列,所形成的以篇名、作者及号码的检索途径来满足用户需求的检索语言。

    64bd10e62333c237cbe457fdbfa21cf5.gif

    描述文献内容特征的检索语言可简要概述

    表达文献内容特征的检索语言

    表达文献内容特征的检索语言主要是指所论述的主题、观点、见解和结论等。

    展开全文
  • 【829】【02检索语言】【理解】

    千次阅读 2020-04-09 21:59:52
    文章目录检索语言的含义检索语言的特点检索语言的功能检索语言的分类检索语言的理论基础分类检索语言/分类法 检索语言的含义 传统意义上的检索语言仅指根据信息检索需要而创制的人工语言。目前,检索语言有广义和...


    信息检索比较偏

    【一】 检索语言的含义

    (什么是检索语言)(18华师简答)

    检索语言:广义的检索语言泛指信息检索过程中涉及的人工语言和自然语言人工语言是根据一定的规则认为编制而成的检索语言,它有严格的使用规则,可用于表述文献的主要内容,建立信息检索系统。自然语言是人类交流时使用的语言,不受任何限制,未经加工和规范。狭义的检索语言是指根据信息检索需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言
    在这里插入图片描述

    传统意义上的检索语言——根据信息检索需要而创制的人工语言
    广义的检索语言泛指——信息检索过程中涉及人工语言和自然语言
    狭义的检索语言——仅指根据信息检索的需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言

    人工语言是根据一定的规则人为编制而成的检索语言,可用于表述文献主要的内容,建立信息检索系统。
    自然语言人类交流时使用的语言,不受任何限制,未经加工和规范,更符合用户的日常表达习惯。

    检索语言的特点

    作为沟通信息标引与信息检索两个过程而编制的人工语言,检索语言不但能够保证不同的标引人员描述信息特征的一致性,而且能够保证检索提问标识与信息特征标识的一致性
    与其他语言相比,检索语言突出的特点是:
    ①具有必要的语义和语法规则,能准确地表达科学技术领域中的人和标引和提问的中心内容和主题;
    ②具有表达概念的唯一性,即同一概念不允许有多重表达方式,不能模棱两可;
    ③具有检索标识和提问特征进行比较和识别的方便性;
    ④既适用于手工检索系统,也适用于计算机检索系统。

    检索语言的功能

    在这里插入图片描述
    (1)标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性
    信息标引是一个群体行为,只有共同依据检索语言,才能保证标引信息的一致性。

    (2)对内容相同及相关的文献信息加以集中或揭示其相关性
    检索语言采用等级结构、参照系统、轮排聚类法、范畴聚类法等显示概念之间关系的方法,来实现此功能。

    (3)使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索
    检索语言将表达成千上万个信息主体概念的全部信息标识排列成一个有序的系统。
    排列信息标识的方法包括:分类排列法,字顺排列法,分类和字顺结合的排列法

    (4)便于将标引用语和检索用语进行相符性比较:一般来说,任何一种检索语言都有便于将标引用语和检索用语整体上进行相符性比较(即判断标引用语是否与检索用语完全相符)的功能。大部分检索语言还可以将标引用语和检索用语从局部上进行相符性比较(即判断标引用语是否与检索用语局部相符)。

    检索语言的功能/性能

    (2006年简答)
    (1)标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性
    (2)对内容相同及相关的文献信息加以集中或揭示其相关性
    (3)使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索
    (4)便于将标引用语检索用语进行相符性比较

    检索语言的分类

    (1)按描述文献的特征(文献外表特征和文献内容特征)

    在这里插入图片描述
    文献外表特征——以文献的篇名(题目)、作者姓名、出版者、合同号、报告号、引文等,据此作为文献标识和检索依据而形成的检索语言成为描述文献外表特征的检索语言,如题名索引,著者索引、报告号索引、合同号索引、存取号索引、引文索引等。

    描述文献内容特征的检索语言(分类语言、主题语言和代码语言)

    (2)按结构或原理(分类语言、主题语言、代码语言和引文语言)
    在这里插入图片描述
    分类语言,用分类号来表达各种概念,将各种概念按学科性质进行分类和系统编排,包括等级体系分类语言(体系分类法)分析——综合分类语言(组配分类法),它们统称为分类法系统。

    主题语言是采用表达某一事物或概念的名词术语,用于标引、存储、检索的一种检索语言。包括标题词语言、单元词语言、叙词语言和关键词语言等,可统称为主题法系统。

    代码语言一般只是就事物的某一方面特征,用某种代码系统来加以标引和排列。

    引文语言是利用文献之间的相互引证关系而建立的一种自然语言,其标引词来自文献的主要著录项目。

    (3)按信息标识的组合使用方法(先组式语言、后组式语言和散组式语言)
    在这里插入图片描述

    先组式语言表达信息主题概念的标识在编制词表时就已固定组配好,信息存储和检索人员在标引和查找信息时,依据词表选用组配好的主题标识进行操作。

    • 典型的先组式语言有体系分类法和标题词法
    • 先组式语言标识明确,系统性较好,适用于传统的文献单元方式的目录索引。但是表达专指概念和新概念较困难,灵活性较差,容易造成词表体积庞大,检索途径少。

    后组式语言指在词表编制和标引信息时不规定表达主题标识的组配关系,在检索时再根据需要将各个标识进行组配,来表达较为复杂的主题概念。

    • 比较典型的后组式语言有叙词语言和单元词语言
    • 后组式语言能够以较少的词语来表达较多的概念和较为专指的概念,可以比较及时地表达新概念,概念容纳能力强。同时,可以实现概念的多向成族,多途径检索,能够灵活地扩大和缩小检索范围,因此其检索的灵活性好。采用后组式语言所编制的词表体积相对较小。但是编制和使用的难度较大,组配语义的明确性较差。

    散组式语言是指对于复杂的主题标识,在词表中不组配,而是在标引阶段将表达主题概念的若干个标识,根据一定的的规则组配在一起的检索语言,如**《冒号分类法》**。

    • 散组式语言的性能与其检索标识是否分段轮排有很大关系。如果检索标识能够分段轮排,散组式语言就兼有先组式和后组式语言的主要优点。如果检索标识不轮排,性能和先组式语言差不多,只是其专指概念和新概念表达能力有所增强。

    (4)按语言的规范程度,可分为人工语言和自然语言
    人工语言有主题法、分类法和某些代码等种类。
    自然语言是直接取自文献信息本身,不经加工或规范的词语或句子。

    (5)按包括的学科或专业范围(综合性检索语言、专业性检索语言和多学科检索语言)
    (6)按所用语言文字(单语种检索语言和多语种检索语言)

    【二】检索语言的理论基础

    检索语言其主要理论基础有概念逻辑、知识分类和术语学

    概念逻辑

    在这里插入图片描述

    检索语言不论是语词的还是符号的,都是表达一系列概括信息内容的概念及其相互关系的概念标识系统。
    概念逻辑,是一种科学思维方法,通过明确各种概念及其相互关系而揭示事物的本质属性及各种事物之间的联系与区别。
    检索语言在建立词汇、显示概念关系以及在文献标引和检索中,都离不开概念逻辑。概念是事物本质属性的概括。
    任何概念都有其内涵与外延。

    某一概念的内涵指其反映事物的本质属性;外延指其反映事物的范围,它们之间存在着反变关系

    (1)概念间的关系:概念之间的关系,按其外延是否有相同部分,可归结为相容关系与不相容关系
    如果两个概念的外延至少有一部分相重合,则两者之间是相容关系;如果两个概念的外延没有相重合的部分,则两者之间是不相容关系。

    在相容关系中可以分为同一关系、属种关系、交叉关系、整体与部分关系、全面与某一方面关系、不相排斥的并列关系。在不相容关系中包括互相排斥的并列关系、矛盾关系和对立关系。

    (2)概念逻辑方法:检索语言在表达各种概念及其相关关系时,普遍地应用了概念逻辑的原理,有效地利用了“概念的划分与概括”和“概念的分析与综合”这两种逻辑方法来建立自己的结构体系。

    概念的划分与概括(分类):即利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形成新的概念,概念内涵与外延成反变关系等性质,对概念进行划分(缩小)或概括(扩大),形成更为专指或更为泛指的新概念,用以区别客观世界千差万别的事物,并利用划分或概括过程中所产生的概念隶属关系和并列关系,建立某种形式的检索语言结构体系,即概念等级体系,用以显示客观世界千差万别的事物之间的内在联系。
    这种结构具有很好的系统性。例如,体系分类法就是应用此种逻辑方法的典型。

    概念的分析与综合(组配):即利用在概念的交叉关系中两个概念外延的相同部分可以形成一个新概念,其内涵等于原来两个概念内涵之和,并且它与原来的两个概念具有隶属关系的这种性质,进一步发展为将一个内涵较深的概念分解为两个或两个以上内涵较浅的概念的一种概念逻辑方法,用以建立另一些形式的检索语言结构体系,即概念组配体系。

    这种结构体系可以提供从多种途径来进行信息检索的功能,而且可以任意选择检索标识的专指度,根据实际需要扩大、缩小或改变检索的范围。例如,叙词语言与组配分类法便是应用概念分析与综合的典型。

    知识分类

    在这里插入图片描述
    知识分类是对千差万别的事物做系统研究的重要方法,是对各种事物之间的区别和联系从本质上、原理上进行揭示的重要手段,对信息的系统化具有重要的价值,其实质是划分知识单元、组织知识体系,包括学科分类和事物分类

    学科分类是以信息的学科属性为分类标准,根据各门学科的区别和联系,对学科进行区分和组织,确定每门学科在科学整体中的位置,揭示科学的内部结构,建立符合科学发展规律的分类体系。
    事物分类是根据事物属性的异同将事物划分成类,构成事物分类体系。

    学科分类是知识分类的主题,事物分类是知识分类的基础。

    知识分类应当遵循的两条基本原则是客观性和发展性
    客观性原则即对学科或事物进行划分和组织时,应依据知识对象固有的、客观存在的区别和联系。
    发展性原则是指知识分类应按照学科或事物的发展规律,将知识对象由低级到高级、由简单到复杂进行划分和组织。

    术语学

    在这里插入图片描述
    术语是在特定学科领域用来表示概念的称谓的集合,或者说,是通过语音或文字来表达或限定科学概念的约定性语言符号

    术语是传播知识、技能,进行社会文化、经济交流等不可缺少的重要工具。研究概念、概念定义和概念命名基本规律的学科即术语学。

    检索语言是由概念标识系统组成的,而概念是由术语来表达的。术语是分类表、词表的基本组成要素,检索语言其实就是一个经过精细组织的术语集。

    检索语言的创制是以术语学的研究成果为基础的。在编制分类表、词表而采用术语时,应以术语学对科学术语的研究成果为依据。在检索语言创制、发展和完善过程中,更多地吸收术语学的研究成果,是提高检索语言质量的要求和重要途径。
    检索语言要能适合实践应用和科学研究的需要,除了依据概念逻辑的理论基础外,还须利用知识分类的成果,把各种概念之间的关系建立在知识分类的基础上。如果说概念逻辑是检索语言的基础,则知识分类便是概念逻辑的基础。

    检索语言中的体系分类法、组配分类法、叙词法等,都在不同程度上反映了知识分类。只有较充分反映知识分类的检索语言,才能保证检索语言在信息检索工作中得到有效运用,并达到较好的效果。

    【三】分类检索语言

    分类检索语言——分类法(体系分类、组配分类)

    分类检索语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号)来代表各级类目固定其先后次序的分类体系。

    它是直接体现知识分类的概念系统,是对概括文献信息内容及某些外表特征的概念运用逻辑的方法进行系统排列而构成的。

    • 分类法按学科、专业集中文献信息,并从知识分类角度揭示各类文献信息在内容上的区别和联系,提供从知识分类检索文献信息的途径。主要包括体系分类法和组配分类法两种
    • 分类检索语言比较全面和客观地反映了知识全貌及其内在的逻辑联系,其体系结构的系统性、标识符号的通用性以及族性检索功能,是其他信息检索语言所不具备的,也是无法取代的,而且,分类方法符合人类认识事物的逻辑思绪方式

    体系分类法

    (1)体系分类法的含义:信息检索中常用的分类语言是体系分类法,也称等级列举式分类法。是基于概念的划分与概括,以学科分类为基础,把概括文献内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系

    具有代表性的体系分类法有《杜威十进分类法》、《美国国会图书馆图书分类法》、《中国图书馆图书分类法》、《中国人民大学图书馆图书分类法》等。

    体系分类发的特点和不足

    体系分类法在实际工作中,主要被用来组织分类排架、统计藏书和建立分类检索系统

    体系分类法的主要特点是
    按学科、专业属性构建类目体系,形成按学科、专业集中文献、信息的知识概念系统,从而能够直接地满足用户从学科、专业出发检索课题的需要,可以达到较高的查全率。
    ②采用等级列举式的概念标识系统来揭示概念之间的相互关系,便于用户“鸟瞰全貌”、“触类旁通”、“层层深入”地查找某一专业的信息,用户也无须事先知道事物或概念的确切名称,就可以在一定的类目下通过浏览查到该领域的相关信息。
    采用分类号作为主题的标识,不受语种的限制

    体系分类法的不足之处在于
    修订不便,无法及时增加反映新知识主题的类目。同时,分类表也不可能永无止境地细分下去,如遇到主题十分狭窄的文献,则可能很难找到相应的类目和分类号;
    体系分类法采用的是先组定组式标识,难以进行组配检索,使得其检索途径单一,检索效率不高
    采用分类号作为主题的标识,缺乏直观性
    ④体系分类法是按学科、专业集中文献信息以及线性的分类体系,使得其处理学科之间相互交叉渗透和综合而形成的新知识领域很困难,难以反映客观实际中多维的知识空间结构。

    体系分类法的结构(微观结构、宏观结构)

    ①微观结构
    在这里插入图片描述
    微观结构指分类法中类目的构成结构。按照类目之间的关系建立起来的类目集合称为类目体系,类目体系是分类法的核心,它的建立涉及类目的划分、引用次序、类目的排列、类名的确定、类目之间的相互关系的处理等。

    1)类目的划分:一个类目分为若干个小类,从而提示这个类目外延的逻辑方法。被分的类目称为母类或上位类,分出来的类目称为子类或下位类。

    通过类目划分可以明确母类的全部外延,建立若干子类,给设立类目打下基础。

    2)引用次序:分类标准的使用次序,当某一类事物连续划分需要采用几种分类标准时,分类标准的使用次序是否合理,直接影响分类体系,决定着类目体系展开方式。

    合理的引用次序应该满足逻辑性原则、符合检索需要的原则和表达性原则

    3)类目的排列:许许多多的类目按照一定的顺序排列起来的体系,类目的排列直接影响到分类法的质量。

    类目的排列应该体现出系统性、整体性、等级性、逻辑性、连续性和一致性。尤其是在体系分类法中,类目的排列应坚持相关排列准则,其中,同位类的排列次序反映了客观事物本身发展和联系的排列次序,具有重要的意义。

    4)类名的确定:类名是体系分类法的“语词”,起着表达类目含义的作用。类名的选择和确定应坚持科学性、确切性、简洁性。

    5)类目之间相互关系的处理:分类法是依赖于类目之间的相互关系建立起来的。在体系分类法中,类目间的基本关系主要有从属关系、并列关系、交替关系和相关关系

    ②宏观结构
    按功能分,类目体系、标记系统、说明与注释、类目索引

    在这里插入图片描述
    1)类目体系:类目体系是按照类目之间关系建立起来的类目集合
    大多数体系分类法的类目体系由主表和复分表组成
    主表是指由基本部类、基本大类、简表、详表逐级展开而形成的类目表。
    复分表,又称辅助表或者附表,是将详表中按相同标准划分某些类所产生的一系列相同子目抽出来,配以特定号码,单独编列,供主表有关类目进一步细分用的类目表。

    2)标记系统:标记系统是分类语言所有标记符号的集合

    分类语言的标记符号即分类号,是用于标记某一分类体系各类目的序数系统。

    理想的分类标记应符合简短性、容纳性、灵活性、表达性、助记性和适应性等要求。

    分类号有两种,一种是单纯式号码,主要使用的是纯数字标记
    另一种是混合式号码,通常是字母和数字结合使用。

    标记制度是指标记符号构成分类标记的基本方法,可以分为顺序制、层累制、混合制和分面标记制四种。

    特殊的标记方法:八分法、双位法、借号法、组配法、空号法。

    在这里插入图片描述
    3)说明与注释:说明与注释是对分类表结构及使用方法的揭示,用它来进一步阐述分类法的编制原理、特点和使用方法,明确类目之间的关系,确定类目的性质和范围,确定类分图书时的方法等。

    主要包括编制说明、大类说明和类目注释3种形式。

    在这里插入图片描述
    4)类目索引:类目索引是从类目名称字顺查找相应分类号的类表辅助工具,是分类表的重要组成部分。类目索引的主要作用是帮助不熟悉分类表的使用者从主题名称速度找到相应的类目。另外,类目索引还能集中分类表中被分散的有关同一事物不同方式的类目,弥补分类表依学科集中,却将同一事物的不同方面分散的不足。类目索引可分为直接索引、相关索引和主题分类对照索引。

    主要体系分类法介绍

    在这里插入图片描述
    国内常见的体系分类法有

    • 《中国人民大学图书馆图书分类法》,简称《人大法》
    • 《中国图书馆图书分类法》,更名为《中国图书馆分类法》
    • 《中国科学院图书馆图书分类法》,简称《科图法》。

    国外常见的体系分类法有

    • 《杜威十进分类法》(DC或DDC)Dewey Decimal Classification
    • 《美国国会图书馆分类法》(LC)Library of Congress Classification
    • 《国际十进制分类法》(UDC)Universal Decimal Classification

    ①《中国图书馆分类法》:简称《中图法》《中国图书馆图书分类法》,并更名为《中国图书馆分类法》,是新中国成立后编制出版的一部具有代表性的大型综合性分类法

    它是由国家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分类法。它将学科分成五大部类,基本序列是:马克思主义、列宁主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综合性图书,由5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条类目组成一个完善的分类体系标记制度,采用拉丁字母与阿拉伯数字相结合的混合号码制,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制原则。

    中图法(2014简答)

    它是由国家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分类法。它将学科分成5大类,基本序列是:马克思主义、列宁主义、毛泽东思想、邓小平理论、哲学、社会科学、自然科学、综合性图书,由5大部类、22个大类等组成一个完善的分类体系。

    杜威十进分类法

    ②《杜威十进分类法》:由美国的威尔·杜威编制,是一部在国际上出现最早、流行最广、影响最大的图书分类法。1876年出版,当时取名为《图书馆图书小册子排架和编目用分类法及主题索引》,收入近1000个类目。之后不断修订更新,到2003年已出版第22版,四卷本。卷一为编制说明和通用复分表,卷二、卷三为类表,卷四为索引和使用手册。

    它依据哲学家培根的知识分类思想,将图书分为十大类:总论,哲学,宗教,社会科学,语言学,自然科学,技术科学,美术,文学,史地。它采用纯阿拉伯数字作为基本标记符号,基本上按照层累制展开。除了印刷版以外,其Web环境下的电子版也于2003年推出。目前,DDC已被全球超过135个国家的图书馆使用,并且被法医逾30中语言,包括阿拉伯文、中文、法文、希腊文、俄文等。在美国大部分的公共图书馆及学校图书馆都在使用这种分类法

    ③《国际十进制分类法》:《国际十进制分类法》(UDC)也称《通用十进分类法》,由比利时的奥特勒和拉封丹在《杜威十进制分类法》的基础上扩充而成,1905年以法文出版UDC第1版,当时称为《世界图书总目手册》。伺候,UDC以23种语言出版了不同的版本。UDC是一种文献分类表,其分类对象为各种类型文献,包括小册子、科技报告和期刊论文等。目前,UDC主要用于欧洲各国的专业图书馆、文献中心和情报机构。

    UDC的主表是在DDC基本结构的基础发展起来的一个层层展开的十进制系统,其基本大类序列如下:0总论、科学与知识;1哲学、心理学;2宗教、神学;3社会科学;4(暂空)5数学、自然科学;6应用科学、医学、技术;7艺术、文娱、体育;8语言、语言学、文学;9地理、传记、历史。

    UDC的标记符号式小数制的阿拉伯数字,大类用一位数字标记,二级类用两位数字,三级类用三位数字,以此类推,大多数分类号的长短反映类目之间的从属关系。为了醒目,处有其他辅助符号间隔外,每达三位数字就用小圆点隔开。

    【四】组配分类法

    在这里插入图片描述
    (1)组配分类法的定义:组配分类法又称分面分类法分面组配分类法

    是基于概念的可分析性和可综合性,即复杂的主题概念可以分析为若干简单的主题概念,若干简单的主题概念可以综合表达复杂的主题概念,将一个复杂的文献主题概念用若干个表达简单概念的标识组配来表达的一种文献分类法。

    在组配分类法中,一般只将简单主题概念设为类目,标引时,从类目中找出与主题概念相对应的各个类目,用相应的类号组配表达所标引的主题概念

    (2)组配分类法的分类:可分为全分面分类法和半分面分类法两种。
    全分面分类法是纯粹的组配分类法,一般仅在较小的学科或专业范围内使用。
    半分面分类法是全分面分类法与体系分类法相结合的混合式分类法,一般综合性或多学科的分类法,如《冒号分类法》、《布利斯书目分类法》等,这种分类法一般是综合性或者多学科的分类法。

    (3)组配分类法的特点
    通过简单主题概念的组配,一方面可以简化分类表,缩小类表体积,另一方面能够表达各种复杂主题概念和专深主题概念,并且能够揭示主题因素之间的相互关系。
    ②可以对信息所表达的主题概念进行多方面标引,从而可以实现多途径检索
    ③可以较为及时地增补新的主题概念,类表修订灵活、方便

    组配分类法是体系分类法思想的改进,弥补了体系分类法存在的一些不足之处,如难以揭示细小的主题概念、检索途径单一、造成“集中与分散”的矛盾,难以及时修订类表等,但其自身仍然也存在不足,主要表现在:类目体系不如体系分类法直观,标引和检索有一定的难度,使用不太方便。非专业人员使用难度较大等。因此,不适合图书馆、资料室组织文献分类排架。

    (4)组配分类表
    组配分类表是由编制说明、基本类表、分面类表和分面公式以及通用辅表组成,它的建立,主要采用了分面分析法

    它由两个层次的分面结构所组成,第一层次的分面结构是对整个知识领域进行分面所形成的基本分面结构;第二个层次的分面结构是以第一层次的分面结构为依据,对某一知识领域进一步进行分解所形成的分面结构

    在组配分类表的编制过程中,需要考虑到分面的引用次序与排列次序、标记符号与标记制度等方面的问题。

    ①分面的引用次序与排列次序:
    分面的引用次序是指组配表达主题概念时,各分面被引用的先后次序。同一组配分类表的引用次序应力求明确、规范。

    分面排列次序是指组配分类表中各分面以及分面内各类目的排列先后顺序

    分面排列次序可以采取与分面引用次序相同或相反的两种排列方法。
    当分面排列次序与分面引用次序相同时,称为顺排法。
    当分面排列次序与分面引用次序相反时,称为倒排法。

    ②标记符号与标记制度:
    组配分类表中的标记制度主要采用的是分面标记制和回归标记制
    分面标记制是用分面符号把类号分成若干段,使每一段的号码代表主题的一个方面,以实现类目组配结构的一种标记制度。采用分面标记制所标引出的主题能够直观显示类目的组配结构,揭示各个主题因素及其联系。

    分面标记制所采用的分面符号有两种基本形式:采用数字或字母作为分面符号;采用标点符号作为分面符号

    回归标记制也称回溯标记制,是通过将分类表中位于前面的分面类目号码直接加在位于后面的分面类目号码之后,组配表达复杂主题概念的标记制度。回归标记制的号码较简短,并且具有较强的表达容纳性,不过其配号比较复杂,后面分面类号不能与前面类号相同,不能进行分段轮排,不能提供多途径检索。

    (5)主要组配分类法介绍
    最早提出分面组配思想的是比利时的奥特莱。系统的分面组配分类理论是由印度图书馆家阮冈纳赞提出的。阮冈纳赞认为图书分类的主要作用,在于给予每一个特定的主题以一个特定的类号,从而使每个不同的主题都能区别开来,并在类号中把主题的组成要素反映出来。

    《冒号分类法》

    《冒号分类法》是阮冈纳赞编制的一部分面分类法,初版于1933年,提出了分面标记符号,只用“:”作为分段符号。目前已出至第7版。《冒号分类法》提出了五个基本范畴的理论。它们依次是:本体personality、物质material、动力energy、空间space、时间time。通过这五个基本范畴来分析、归纳和组织文献。每个基本范畴都采用特定的指示符表示P/M/E/S/T。在第7版中,又将物质面进一步分解成3个方面:物质M, 物质性质MP,物质方法MM。冒号分类法创立了分面标记制度,使每一特定的主题有一个特定的类号,并在号码中把主题的组成要素反映出来,针对列举式的类表和单线式的标记还提出了一些其他的标记方法,如八分法、百分法(双位法)等。阮冈纳赞还成功地创造了相的标记法,把它运用于不同学科之间的相互联系。

    《冒号分类法》具有标记表达性强、类表简练、容纳性强、适应性好、易于揭示复杂主题等优点,对今天的知识组织产生了一定的影响。其不足之处有,类目体系不够直观,标记符号种类繁杂、规则繁多,使用起来比较复杂等。因此,在实践中,冒号分类法并没有得到广泛的使用。

    主题检索语言/主题法

    在这里插入图片描述
    (1)主题检索语言的含义:主题检索语言又称主题法。它采用语词直接作为文献主题标识,按字顺排列主题标识,提供各种检索词语的途径。

    主题检索语言从描述事物的特性角度出发,按文献所论述的事物(即主题)集中文献,用规范化的名词术语标引和表达文献的主题概念,用参照系统显示事物概念主题词之间的关系。

    (2)主题检索语言的特点
    它具有较好的按事物集中文献和便于从事物出发检索文献的功能。目前,在机检数据库的检索中,主题法是最常用的检索语言

    主题检索语言与分类检索语言相比,具有明显的优点
    ①专指性高:主题语言主要以规范化的名词术语为基础,着眼于事物及事物的各个方面。凡是论述某一事物的文献,几乎都被标引在表达该事物概念的语词标识之下。从一个语词标识下即能检索到它所表达的事物的比较完全的有关文献。

    ②直观性好:主题语言直接采用主题词作标识,可以直呼其名,依名查检。对用户来说,易读、易记、易理解。而且按照字顺排列主题标识,更突显出了它的直接优点。

    ③灵活性强:主题语言根据需要对主题词进行灵活组配,特别适合计算机的逻辑组配功能。主题语言对于从事物出发的比较狭小检索提问,以及关于新事物、新概念、新学科的检索提问,检索效果特别好。

    主题语言的主要缺点表现为:由于是按字顺排列,所以同一门类学科的文献易被分散在各处,在族性检索方面不及分类语言

    主题检索语言的特点和类型

    主题法的类型很多,一般都具有下述特征
    ①以特定事物、问题、对象,即主题为中心集中信息资源;
    ②直接以语词作为信息的组织和检索标识
    ③以字顺作为主要检索途径

    根据选词原则、词的规范化处理规则的不同,主题检索语言可分为标题词语言、单元词语言、叙词语言和关键词语言

    在这里插入图片描述

    标题词语言

    标题词语言是一种先组定组式语言,它选择标题词作为文献内容的标识和检索依据,具体表现为标题词表的利用。
    标题词语言是主题检索语言中使用最早的一种类型。
    标题词语言的主要优点体现在:
    ①词表直接用事物名称列举出表达事物的主题,直观性强;
    ②采用先组定组式方法,因而词表中标题结构固定,含义明确;
    ③用参照系统显示主题之间的相互关系。其不足之处是先组定组式的方法使得标题词表检索途径较为单一,无法实现多因素、多途径检索。另外,词表一般收词量大并且专指度相对不足,修订量大。

    标题词一般分为主标题和副标题两级,通过主标题词和副标题词的固定组配来构成检索标识,因而只能选用“定型”标题词进行标引和检索,所反映的主题概念必然受到限制,并且无法从多因素、多途径进行检索。尤其是现代科技主题的内涵与外延越来越复杂,几乎不可能用一对主、副标题完全、确切地表达出来。因此标题词语言已不适应时代发展的需要,目前已较少使用。比较典型的标题词表有《工程标题词表》。

    单元词语言

    单元词语言是以单元词作为语词标识对文献进行标引与检索的主题检索语言,是一种后组式语言。单元词法采用后组配的方式,在标引时不组配单元词,在检索时才对单元词下所列的文献号进行对比,号码相同的就表示有组配关系。单元词具有相对的独立性,词与词之间没有隶属关系和固定组合关系,标引时可根据需要加以组配。在单元词法中,组配功能得到了充分的应用。克服了标题词法的不足,比较适合机械检索系统。单元词语言的主要优点第:①通过单元词的组配可以表达大量专指概念和新概念,适应性强。②不存在词序问题,表达信息或文献标识中每一个单元词都可以做为检索入口,并且通过对单元词的增减,可以自由地扩大、缩小或改变检索范围。③单元词词表体积一般比较小,编制、更新和修订所需工作量小。其不足在于:①单元词法的字面分拆和字面组配,容易造成语义失真。②单元词法缺乏完善的参照系统,难以满足族性检索的要求。③单元词法的直观性和系统性较差。单元词语言只适用于标识单元方式检索系统,它目前已经发展成为叙词语言。

    关键词语言

    关键词语言作为信息存储和检索依据的一种检索语言,是直接从原文的标题、摘要或全文中抽选出来,具有实质意义的,未经规范化处理的自然语言词汇。关键词语言的原理是:运用关键词语言编制的关键词索引,其关键词按字顺排列构成索引款目,所抽选的关键词都可以作为标引词在索引中进行轮排,作为检索“入口词”进行检索。关键词语言的主要优点是:①直观性强。关键词法直接采用自然语言进行标引和检索,符合普通用户的检索习惯。②检索途径多。关键词法采用的轮排方式,可以多途径检索文献。③标引简单。关键词接近自然语言,是由计算机自动抽取的。不用人工标引,不但节省人力,而且可以降低对人员的水平的要求。④关键词表达事物、概念直接、准确,不受词表控制,能及时反映新事物新概念。其主要缺点是:①不揭示关键词之间的等级关系和相关关系,使得相同主题的信息或文献因作者用词不同而导致漏检,影响查全率。②难以进行族性检索。③由于关键词法采用机械抽词和轮排,有可能会导致不少关键词款目失去检索作用而徒增篇福。关键词语言只有与计算机结合起来才能发挥它的独有优势,随着计算机的深入发展与应用,它的作用越来越突出,已被称为使用最广泛的检索语言。
    关键词索引的主要类型有题内关键词索引、题外关键词索引、词对式关键词索引等。题内关键词索引又称为上下文关键词索引,它以文献篇名为基本素材,以篇名中的关键词做索引款目的标目,以关键词的上下文做说明语。题外关键词索引改进和精简了题内关键词索引。这时的关键词不局限于从篇名当中抽取,可以根据需要从其他地方抽取。同时,改变了题内关键词索引检索入口在中间的做法,将关键词作为独立目标排在题目的前头。词对式关键词索引即将篇名关键词相互组配,从某一篇名所含的全部关键词中每次取两个来做一个款目的标目。

    叙词语言

    1)叙词语言的原理
    叙词语言是以表示单元概念的规范化语词为基础,以概念组配为基本原理,对文献主题进行描述的后组式检索语言。叙词是指一些以概念为基础的、经过规范化的、具有组配功能并可以显示词间关系和动态性的词或词组。叙词有这样一些特点:①直观性。叙词标识比较直观,按字顺排列,序列明确。②规范性。叙词都经过了规范化处理,包括对词义、词类、词形等的规范。③组配性。叙词可以灵活、自由地组配在一起表达各种复杂的概念,比较适合于计算机检索,在检索中可以充分采用布尔逻辑检索法、加权检索法等。
    ①叙词语言吸收了其他多种检索语言的原理与方法,吸纳了体系分类法的基本原理,编制了叙词范畴索引和词族索引,从多方面来反映主题词之间的等同关系、等级关系和相关关系等;②保留了单元词语言的组配原理,采用了组配分类语言的概念组配来代替单元词语言的字面组配,并取代了单元词语言;③吸收了关键词语言的轮排方法,编制了各种叙词索引;④采用了标题词语言对语词进行严格规范化的方法,保证了词与概念的一一对应,采用并进一步完善了标题词语言的参照系统。
    2)叙词语言的性能
    叙词语言继承和发展了体系分类语言、组配分类语言、标题词语言、单元词语言、关键词语言等多种检索语言的思想、原理和优点,具有多方面的优势,并且已经成为了当今互联网时代应用最为广泛的人工检索语言之一。
    叙词语言吸收了单元词语言用组配来表达主题概念的方法,但摒弃了单元词语言采用字面分解和字面组配而容易造成语义失真等消极因素,将字面分解和组配完善为概念组配。叙词语言适当借鉴了标题词语言的先组方式,将一些通用的专称、俗语、专指作用很强的词组、专业文献中出现频率较高的经常用以检索的词组等先组词的方式直接收入叙词表中。叙词法继承了组配分类语言分面组配的思想,形成了自身概念组配思想。体系分类法通过类目的层层划分所形成等级、标记制度、编撰说明和注释来标识类目之间的相互关系,而叙词语言参考了体系分类法的思想,建立了范畴索引、词族索引和参照系统来揭示主题之间的相互关系。叙词语言还借鉴了关键词语言的轮排技术,通过编制轮排索引,从而加强了叙词语言的族性检索功能,同时也增加了检索途径。
    总之,叙词语言是一种非常优秀的检索语言,并且已经成为在当今互联网时代应用最广泛的人工检索语言之一。但是,它也有不足之处,主要表现在:叙词表的编制工作难度较大、标引复杂、标引速度慢、族性检索功能不够强、使用人员需要较多的专业知识等。

    叙词表的编制

    叙词表是叙词语言的核心体现。
    叙词表一般由一个主表和若干个附表构成。

    在叙词表的编制过程中尤其要注意以下问题

    • 主题词的选择与规范:在编制叙词表的过程中,主题词的选择要以所编制叙词表规定的专业或职能范围为依据。选词要考虑文献检索的具体要求,以及被标引文献的数量和增长速度。还要考虑被选词的使用频率和检索意义,一般不选用使用频率过高或过低的词做为主题词。另外,基本词汇要完备而精练,要注意选用词义明确、符合科学性和通用性的词作主题词。叙词法规范化处理的内容包括四个方面词形规范、词义规范、词类规范和先组度规范
    • 主题词之间关系的显示:参照系统对于主题词的语义关系的揭示,是通过制订各种符号来加以联系和反映的,具体表现在同义关系、属分关系和相关关系
    • 主题词的组配:叙词语言的组配吸收了组配分类语言的概念组配原理,采用了单元词法的后组方式,超越了单元词的字面组配,实现了概念组配。主题词的组配可分为交叉组配、限定组配和联结组配。概念组配是叙词语言的基本原理。概念组配依据概念的分析与综合,与字面组配有时相同,有时不同。通过组配可以增强叙词语言的表达能力,控制词表的词汇量,提升叙词法的匹配能力,提供多途径检索,提高查全率,还可以及时反映新事物、新学科。

    主要主题词表介绍

    国外使用最广的综合标题词表《美国国会图书馆主题词表》、专业叙词表《医学主题词表》
    国内比较有影响的主题词表有《汉语主题词表》、《中国分类主题词表》、《社会科学检索词表》《中国档案主题词表》等。其中,《汉语主题词表》在国内的影响最大。

    《汉语主题词表》

    《汉语主题词表》是我国第一部大型的综合性的叙词表。
    中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册。
    其结构体系比较全面,由主表(字顺表)、附表、词族索引、范畴索引和英汉对照索引组成。

    • 主表(字顺表)包括社会科学和自然科学两部分,是词表的主体部分,由全部正式叙词款目和非正式叙词款目组成,所有款目严格按汉语拼音音序排列。每一个叙词款目的结构包括叙词、汉语拼音、英文译名、范畴号、注释项及其语义关系项等。
    • 附表包括4种专有词汇表:世界各国政区名称、自然地理区划名称、组织机构名称和人物。词族索引又称族系索引、等级索引,是将主表中具有属分关系的正式主题词集中在一起,显示词间从属关系的一种索引系统。
    • 词族索引用来揭示主题词之间族系关系,满足族性检索的需要
    • 范畴索引是主表中全部叙词的分类索引。它将全部叙词和非叙词按社会科学和自然科学两大范畴划分为58个大类,方便人们从分类角度查找与某一范围内容相关的主题词。
    • 英汉对照索引是将主表和附表中的正式和非正式主题词的英文按字母顺序排列的一种索引,是通过英译名来选择主题词的辅助工具。

    《汉语主题词表》《中国分类主题词表》比较

    主题检索语言与分类检索语言的相同点

    【看相关论文:主题法与分类法的比较】
    (1)主题检索语言与分类检索语言同样都是表现文献内容特征的检索语言
    (2)描述和揭示的对象都是各种各样的文献
    (3)它们都是建立在概念逻辑、知识分类和术语学的基础上,即利用区分概念的各种逻辑规则来显示词与词之间的关系,利用概念分析与综合的逻辑方法来构造标引语词;
    (4)在应用知识分类方面主要是应用事物分类原理。

    分类主题一体化检索语言

    (1)分类主题一体化检索语言的定义
    分类主题一体化检索语言,又称为分类主题一体化词表,是指在一个检索语言系统中,对它们的分类表部分和叙词表部分的术语、参照、标识及索引实施统一的控制,使两者有机地融合为一体,从而能够同时满足分类和主题标引、检索的需要,发挥其最佳的整体效应。
    (2)分类主题一体化检索语言的原理
    分类检索语言与主题检索语言两者之间的区别主要是表现在形式、结构和应用不同等方面。分类检索语言是按学科、专业集中信息或文献,以分类号作为主题概念的标识,经过类目的层层划分与排列,形成了等级式的学科与逻辑体系。而主题检索语言是按事物来集中信息或文献,以受控的主题词直接作为主题概念的标识,通过参照系统和范畴索引、词族索引来揭示主题词相互关系的字顺系统。
    分类主题一体化检索语言的原理建立在分类检索语言与主题检索语言相通的原理基础之上。首先,分类检索语言与主题检索语言都是建立在概念逻辑、知识分类和术语学的理论基础之上,都应用了概念划分与概括、概念分析与综合的方法。其次,所采用的表达信息或文献主题概念的标识在本质上是相同的,只是表现形式不同而已,即分类检索语言是用分类号作标识,而主题检索语言是用主题词作标识的。最后,分类检索语言与主题检索语言的处理对象都是语义单元,所类集的内容是相同的,表达的都是主题概念。
    (3)分类主题一体化检索语言的功能
    分类主题一体化检索语言除了单独具有分类检索语言与主题检索语言的功能外,还具有如下功能:
    ①标引人员可以同时完成分类标引和主题标引,通过标引数据之间的对应转换,可以节省人力物力,并且可以减少标引错误和标引不一致性。
    ②用户既可以从学科、专业出发来进行分类检索,也可以从事物主题出发进行字顺检索,并且可以加以比较,从而较大程度地提高查全率和查准率。
    ③可以为进行过分类标引而未进行过主题标引的书目数据库通过主题词与分类号的转换而提供主题标引,同样,也可以为进行过主题标引,而未进行过分类标引的书目数据库通过主题词而进行分类标引。
    (4)分类主题一体化检索语言的类型
    按照兼容互换的方式,可分为三种类型:分面叙词表、分类表—叙词表对照索引和集成词表。
    ①分面叙词表:是以艾奇逊等主编的世界上第一部一体化词表的名称命名的,它也是最典型,影响最大的分类主题一体化检索语言。一般由分类表和叙词表两大部分组成,有的还附有轮排索引及英汉对照索引。分类表和叙词表通过分类号相联系,分类表主要起字顺索引的作用,而叙词表则不仅起着传统叙词表范畴和词族索引的作用,还可以直接用于主题标引。我国编制出版的分面叙词表有《教育主题词表》、《农业科学叙词表》、《音像资料叙词表》等。
    ②分类表—叙词表对照索引:通常由分类号与主题词对应表、主题词与分类号对应表两部分组成。前者为每个类目列出其对应的一个或多个主题词,后者为每个主题词列出对应的一个或多个分类号。这种对照索引是分类检索语言和主题检索语言兼容互换的工具,通常用作情报检索查词选类的辅助工具,便于分类标引数据与主题标引数据的相互转换。我国编制出版的《中国分类主题词表》、《中图法教育专业分类表》等就属于此类型的词表。
    ③集成词表:是将某些特定主题领域的若干叙词表和分类表汇编而成的一种词表,可以用于联合分类标引和主题标引,用于实现分类表和叙词表之间的兼容互换。

    《中国分类主题词表》

    《中国分类主题词表》是在《中图法》编委会主持下,经全国约40个单位160位专家学者的共同努力,历时8年编制而成的,于1994年6月正式出版。
    《中国分类主题词表》是在《中图法》第三版和《汉语主题词表》的基础上编制的我国第一部分类检索语言和主题检索语言相互兼容对照索引式的一体化词表。全表共分两卷6册,包括《分类号—主题词对应表》和《主题词—分类号对应表》两部分。
    第1卷《分类号—主题词对应表》以《中图法》的类目体系为基础,将《汉语主题词表》的全部主题词以及增加的主题词兼容对应于各级类目之下,可视为一部以主题词作注释的新版《中图法》。其主要功能是文献分类标引和通过分类的途径查找主题词。进而进行主题标引。第2卷《主题词—分类号对应表》是从主题词到分类号的对照索引体系。它按主题词的字顺排列,其后列出对应的分类号。其主要功能是进行文献主题标引和通过主题查找相关的分类号,作为分类标引的辅助手段。
    (优点)《中国分类主题词表》是分类与主题、先组式检索语言与后组式检索语言相结合的一体化检索语言体系。使用该表不仅可以使分类标引、主题标引在经过同一主题分析、采用同一标引工具的过程中一次完成,而且能够降低主题标引的难度,提高标引的一致性。同时,由于分类号和主题词之间建立了对应联系,有利于在检索系统中实现分类号与主题词之间的相互转换,从而提高检索效率。
    (不足)《中国分类主题词表》也存在一些不足,如没有编制主题词轮排索引和英汉对照索引,标引组配不够灵活,而且,在分类号和主题词的对应过程中,受到主观因素的影响,也很难做到完全的科学和准确。

    网络信息检索语言

    (一)检索语言面临的网络环境
    随着互联网技术的快速发展与广泛应用,受控的检索语言面临着巨大的挑战,主要表现在以下四个方面:
    (1)信息类型的变化:传统环境下,检索语言所面临的信息类型主要表现为文献资料,并且其类型基本上都是纸质文本型信息。而网络环境下的信息类型多样,除了有电子化的传统文献资料外,还出了许多新的类型。既有大量的电子文本型信息,也有图形、图像、音频、视频、动画等形式的信息。
    (2)信息数量与质量的变化:传统环境下的信息数量尽管是庞大的,但仍然无法与网络环境下的信息数量势相比。另外,网络信息内容范围极其广泛涵盖了人类所有社会生活领域。传统环境下的信息在传播之前一般都经过较为严格的规范和控制,因此,信息质量较高。而在网络环境下,任何组织和个人都可以自由地发布信息,不需要经过规范和控制,使得网络信息质量参差不齐,既有质量非常高的学术信息,也存在着大量质量低下的垃圾信息。
    (3)信息检索技术的变化:传统环境下的信息检索是依靠目录、索引、工具书、年鉴等进行的,检索到的信息只有文本信息,并且检索范围比较狭窄,检索效率较低。由于计算机技术、多媒体技术、网络技术、数据库技术等以及相应硬件技术的发展和应用,新的检索技术不断出现,如全文检索技术、多媒体检索技术、超文本和超媒体检索技术等,这些信息检索技术的应用,大大方便了用户的检索行为,提高了检索的效率。
    (4)信息用户的变化:分类检索语言、主题检索语言的规范性与复杂性,使得传统的信息检索用户一般为专业性情报检索人员,或者是受过专业培训的人员,并且他们进行信息检索的目的多为科学研究需要。而伴随互联网的广泛应用,信息技术和信息检索系统的易用性使得信息检索用户从专业人员扩大到广大的普通用户,并且用户信息需要也不再仅仅是为了学习和科学研究,而是呈现出多样化、个性化。

    网络环境下的分类检索语言的特点

    在网络环境下,分类检索依然有着强大的生命力,只是由于分类语言描述对象和利用对象都发生了变化,分类检索语言为适应这些变化必须作出相应的调整,主要表现在形式和内容两方面:
    (1)在形式上,实现了电子化和体系结构的多维化
    ①分类法的电子化:印刷版分类法翻阅、携带不方便,维护管理困难、更新周期长,以及分类法本身的复杂性,大大影响了标引和检索的速度与效率。分类法的电子化由于其直观方便的浏览、显示功能,超文本链接功能和完善的检索功能,提高了标引与检索的速度与效率,减少了标引成本,其修订也较为方便,更新周期缩短。
    ②分类体系结构的多维化:传统分类法的体系是以一种典型的线性结构来揭示类目之间内在关系的,表现出明显的单维特征。超文本技术在分类语言中的应用,彻底改变了类目之间的线性关系,同时,新型的网络分类目录在类目划分标准、横向关系揭示和类目设置方面表现出明显的多维化趋势。
    (2)在内容上,编制方法作了很大的调整,主要表现为聚类标准的主题化、类目划分的随意性、类目排列的非逻辑性和类名的通俗化等。
    ①聚类标准的主题化:传统分类检索语言以信息的学科属性作为聚类依据,网络分类法则是以网络信息的主题作为聚类的主要依据,这样更符合普通用户的使用习惯。
    ②类目划分的随意性:传统分类语言中类目的划分是按照严格的逻辑划分规则。网络分类语言中类目划分是根据用户的需要和习惯,一般没有按照严格的划分规则,注重开放性和可变性,所划分的类目之间隶属关系比较模糊,类目体系不太严密,列类较杂。此外,网络分类法的划分层次比传统分类法的划分层次要少得多。
    ③类目排列的非逻辑性:传统分类检索语言同位类的排列注重类目之间的内容关系和逻辑关系,系统性、整体性、科学性、逻辑性、连续性和一致性较强。网络分类检索语言中同位类的排列不局限于使用逻辑排列法,往往为了方便、快速、自动地排列类目,而使用字顺排列、按重要性排列等方法。
    ④类名的通俗化:传统分类检索语言中类名的确定有比较严格的规范,类名稳定性高。网络分类检索语言中类名的确定是从用户的角度出发,关注普通用户的一般思维方式、检索习惯和需求特点,力求简单和通俗易懂,并且类名会根据社会发展和用户检索习惯而进行调整,因此,类名的稳定性不强。
    在新的网络环境下,分类语言沿着两个方向继续得到发展。一个方向是积极地调整传统分类法自身,以满足信息资源数量的迅速增长;另一个方向是抛开传统的分类法,重新建立新的分类体系,即网络分类目录。

    网络环境下的主题检索语言

    主题语言使用语词对信息进行揭示和组织,直接用语词标识信息内容,可以较好地满足用户的特性检索需要,主题语言在网络环境下仍然是一种重要的检索语言。互联网的普及、网络信息资源的迅猛增长和信息检索用户的改变对主题语言的发展产生了较大的影响,网络环境下的主题检索语言主要表现为以下几种形式:
    (1)传统主题检索语言在网络信息检索系统中的应用
    传统主题检索语言在网络信息检索中的应用主要表现在标题语言、叙词语言和关键词语言在网络信息检索系统中的应用。采用主题词表,叙词表的网络检索系统一般是学术性较强的专业网站。如图书馆网站的书目信息检索系统、网络联机数据库检索系统等。关键词语言在网络环境中的主要应用形式是搜索引擎的关键词搜索。搜索引擎的易用性和良好的检索性能,使得其已成为目前世界上最流行的检索方式。

    辅助词表

    辅助词表的主要类型有哪些

    辅助词表的主要类型有后控词表、禁用词表、同义字词典和反义字词典等。

    后控词表

    也称为词间关系表,是利用受控语言的基本原理和方法编制的自然语言检索用词表。后控词表的主要特点是
    ①词汇只用于检索,不能用于标引。
    ②词汇控制不如先控词表严格,一般只对同义词、近义词和不同书写形式进行控制,适当处理部分与相关关系。
    ③收词丰富,包括同义词、近义词、俗称、缩写、流行俚语等。
    ④动态性强,及时更新和增补新主题概念。
    ⑤有较强的灵活性和自由度,标引工作简单、编制简便。
    ⑥具有面向文献和用户的特点,文献保障和用户保障能力强。
    后控词表只对系统的输出阶段进行控制,它的控制处理相对受控语言检索系统比较简单,无需标引人员花费很长时间去分析文献的主题概念,选用合适的检索词进行标引、归类,检索者也不必花太大的精力分析检索要求,考虑用符合标准的检索语言来表达自己的信息需求。后控词表展现了比较完整的语义关系,用户通过浏览词表选用检索词,大大减轻了构造检索策略的负担,提高了检索速度,节省了检索时间。

    后控词表作为自然语言和受控语言相结合的产物,对于提高自然语言检索系统查全率和查准率具有重要的意义,为用户准确选词、精确检索、扩检和缩检、改变检索范围、进行相关检索提供了捷径。

    禁用词表

    也称停用词表、禁用词典、禁用单元词表等,是将一些单独使用时无检索意义,或者出现频率过高的词作为检索系统的非检索用词,以对检索词的有效性进行控制。禁用词表按收入词的类型,一般可分为普通禁用词表和条件禁用词表。普通禁用词表是指在任何情况下都无实际检索意义的词所构成的词表,如包含介词、连词、代词等的词表。条件禁用词表是指由在一定条件下才成为禁用词的词汇构成的词表。这种禁用词表主要出现在专门性的检索系统中,因此,不同网络检索系统在理论上其禁用词表不会兼容。条件禁用词表除了收录条件禁用词外,通常还包括无实际检索意义的普通禁用词。

    同义字词典和反义字词典

    是根据把用户检索标识转换成规范性叙词,或者扩展出所有可能出现的同义词、近义词和反义词以提高查全率的目的编制,基于主题语言,显示概念等同关系原理而产生的。同义字词典和反义字词典除了能够提高用户的查全率外,对自然语言与受控词表的一体化、系统与检索用户的交互选择、自动扩展的智能化检索的发展也起到非常重要的作用。

    自然语言

    随着计算机技术的发展,计算机信息检索系统的广泛使用,自然语言在信息检索领域的应用开始流行起来。传统的采用受控语言(人工语言)的信息检索系统要求检索者必须具备一定的检索理论和实践技能,熟悉系统的检索功能与操作命令、检索语言的特点及有关的检索策略与检索技巧等方面的知识。随着信息资源的海量化、信息需求的不断扩大,越来越多的非专业人士开始涉及信息检索领域,人们开始不满意传统受控语言的严格与规范,渴望信息检索更加简洁和易用

    自然语言指直接取自文献本身,不经加工和规范的语言,它包含词、词组或句子,没有繁琐规则的约束,不添加任何人工的色彩

    自然语言具有许多人工语言所没有的优点

    (与人工语言相比,自然语言在信息检索系统中的应有有什么优点)
    ①自然语言检索方便,不受人工语言的各种限制,不需要复杂的检索规则,使用者能够较快适应,易用性突出。
    ②自然语言采用从文献中直接抽词的方式,避免了人工标引过程中的失真现象。
    ③自然语言非常容易吸纳新的词语、新的概念。

    采用自然语言检索新出现的事物可以获得较好的检索效果,使用者可以直接使用这一新词作为检索入口,不必像传统的人工语言那样,必须将该词先转换成另一规范词,再进行检索。

    自然语言的优势(特点)与不足(01北大、07华南师范简答)

    自然语言检索是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言

    优点

    • 自然语言检索方便,不受人工语言的种种限制,不需要复杂的检索规则,不经加工和规范。
    • 直接从文献中抽词,避免了人工标引的失真现象
    • 非常容易吸纳新词、新概念,可以获得较好的检索效果。

    缺点

    • 对同义词、近义词、多义词及与其相关的一些词没有进行规范和统一,词间缺乏有机的联系,影响查全率
    • 由于选词没有严格限制,词量势必过多过杂,从而影响查准率,并且会过多地占有磁盘的存贮空间。因此在实际操作中,必须对自然语言采取一些辅助措施,以弥补其缺陷

    自然语言信息检索系统 与 受控语言信息检索系统 的不同。

    受控语言信息检索系统是在文献信息和用户信息需求输入系统之前进行控制,控制的工具是人工编制的词表或分类表,而且需要对检索的课题进行主观的思考和分析,检索结果的优劣在很大程度上取决于用户对规范化词表或分类表的掌握程度及经验技巧。文献信息的输入(前控)和检索提问的输入(后控)都采用同一词表,前控和后控的程度相等。但自然语言信息检索系统主要是在输入系统之后,在系统内部进行控制,文献信息输入时基本不做处理,而主要依赖后控,即将自然语言转换为系统的提问,并对同义、近义、相关等关系的词进行组织。同时,自然语言检索系统与计算机自动标引和自动分词等技术紧密地联系在一起。

    全文检索

    自然语言在信息检索中的应用主要表现为使用关键词的全文检索

    • 全文检索是指不经过任何标引,而直接通过计算机以自然语言的形式在文本中进行匹配查找。文本中任何字符和字符串均可作为检索入口。因此,全文检索是一种不依赖叙词表而直接使用自由词的检索方法。
    • 全文检索具有直观性、详尽性和广泛的适应性等特点。

    采用全文检索技术的检索系统一般具有如下优势

    方便易用。采用用户所熟悉的自然语言进行检索,用户使用检索系统之前一般不需要进行培训和学习。
    查全率高。全文检索系统可以对文本中任意字符都进行匹配检索,不受标引限制,因此,可以实现较高的查全率,并且用户可以直接查看文本中的任何章节、段落、句子、词或字,而不只是索引或摘要。
    检索功能强大。一般的全文检索系统都能进行布尔检索、截词检索、位置检索、相关检索等能够满足用户不同的检索需求。

    国外著名的全文检索系统

    ProQuest系列数据库、EBSCO数据库、SpringerLink全文数据库、Alta Vista全文搜索引擎等

    国内比较著名的全文检索系统

    《中国期刊全文数据库》、《中文科技期刊数据库》、万方数据资源系统等。

    展开全文
  • 检索语言(广义、狭义) 概念逻辑 知识分类 术语学 什么是检索语言? 功能有哪些? 类型有哪些? 与概念逻辑、知识分类、术语学的关系?

    检索语言/情报语言/文献语言

    实质:用于表达一系列概括文献信息内容的概念及其相互关系概念标识系统
    可用于对文献内容进行主题标引、特征描述或逻辑分类

    检索语言的组成(词汇和语法)

    检索语言由词汇和语法组成。
    词汇: 是登录在类表、词表中的全部标识。一个标识(分类号、检索词、代码)就是它的语词,而分类表、词表就是它的词典
    语法:如何创造和运用那些标识来正确表达信息内容和信息需要,以有效实现信息检索
    的一整套规则。

    💚检索语言(广义、狭义)

    作为沟通信息标引与信息检索两个过程而编制的人工语言。
    retrieval language
    广义:泛指信息检索过程中涉及人工语言和自然语言
    狭义:指根据信息检索的需要,按照一定的规则,对自然语言进行规范,并专门用于信息标引和用户检索的人工语言。

    • 人工语言:是根据一定的规则人为编制而成的检索语言,可用于表述文献主要的内容,建立信息检索系统
    • 自然语言:是人类交流时使用的语言,不受任何限制,未经加工和规范,更符合
      用户的日常表达习惯

    与其他语言相比,检索语言突出的特点是

    • 保证不同的标引人员描述信息特征的一致性
    • 保证检索提问标识与信息特征标识的一致性

    检索语言的特点
    ①具有必要的语义和语法规则,能准确地表达科学技术领域中的人和标引和提问的中心内容和主题;
    ②具有表达概念的唯一性,即同一概念不允许有多重表达方式,不能模棱两可;
    ③具有检索标识和提问特征,进行比较和识别的方便性;
    ④既适用于手工检索系统,也适用于计算机检索系统

    🧡检索语言的功能/性能

    • 标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性
      信息标引是一个群体行为,只有共同,依据检索语言,才能保证标引信息的一致性。
    • 对内容相同及相关的文献信息加以集中或揭示其相关性
      采用等级结构,参照系统,轮排聚类法,范畴聚类法等显示概念之间关系的方法,来实现此功能。
    • 使信息的存储集中化、系统化、组织化、便于检索人员按照一定的排列次序 进行有序化检索
      排列信息标识的方法包括:分类排列法、字顺排列法、分类/字顺排列法
    • 便于将标引用语和检索用语进行相符性比较

    🧡检索语言的分类

    按描述文献特征

    分为描述文献外表特征的检索语言和描述文献内容特征的检索语言
    (1)描述文献外表特征的检索语言
    题名索引,著者索引,报告号索引、合同号索引、存取号索引,引文索引。
    (2)描述文献内容特征的检索语言
    分类语言(体系分类语言、组配分类语言)
    主题语言(标题词索引、关键词索引、单元词索引、叙词索引)
    代码语言(分子式索引、结构式索引、专利号索引)

    按结构或原理

    分类语言、主题语言、代码语言和引文语言
    (1)分类语言(体系、组配)
    分类号来表达各种概念,各种概念按各学科性质分类、编排

    • 等级体系分类语言(体系分类法)
    • 分析—综合分类语言(组配分类法)

    (2)主题语言(标题法,单元词,叙词法,关键词)
    表达某一事物或概念的名词术语,用于标引,存储,检索的一种检索语言。
    (3)代码语言(就事物的某一方面特征,用某种代码系统来加以标引和排列。)
    (4)引文语言(利用文献之间的相互引证关系而建立的一种自然语言,其标引词来自文献的主要著录项目)

    按信息标识的组合使用方法(先组式、后组式和散组式)

    (1)先组式语言(体系分类法和标题词法)
    信息主题概念的标识在编制词表时就已固定组配好。

    优点:标识明确,系统性较好,适用于传统的文献单元方式的目录索引
    缺点:表达专指概念和新概念较困难,灵活性较差,易造成词表体积庞大,检索途径少。
    (2)后组式语言(叙词和单元词)
    指在词表编制和标引信息时不规定表达主题标识的组配关系,在检索时再根据需要将
    各个标识进行组配,来表达较为复杂的主题概念

    优点:

    • 能够以较少的词语来表达较多的概念和较为专指的概念,可以比较及时地表达新概念,概念容纳能力强。
    • 可以实现概念的多向成族,多途径检索,能够灵活地扩大和缩小检索范围
    • 因为其检索灵活性好。采用后组式语言所编制的词表体积相对较小。

    缺点:

    • 编制和使用的难度较大
    • 组配语义的明确性较差。

    (3)散组式语言(冒号分类法)
    是指对于复杂的主题标识,在词表中不组配,而是在标引阶段将表达主题概念的若干
    个标识,根据一定的的规则组配在一起的检索语言。

    如果检索标识能够分段轮排,散组式语言就兼有先组式和后组式语言的主要优点。
    如果检索标识不轮排,性能和先组式语言差不多,只是其专指概念和新概念表达能力有所增强。

    语言的规范程度(人工和自然)

    人工语言有主题法(标题词、单元词、叙词、关键词)
    分类法(体系分类法、组配分类法)
    某些代码等种类
    自然语言 直接取自文献信息本身,不经加工或规范的词语或句子。

    包括的学科或专业范围(综合性、专业性和多学科)

    按所用语言文字(单语种、多语种)

    检索语言的理论基础

    🧡检索语言与概念逻辑、知识分类和术语学的关系

    • 检索语言的主要理论基础有概念逻辑、知识分类、术语学
    • 检索语言以概念逻辑为基础,知识分类是概念逻辑的基础
    • 检索语言的创制以术语学的研究成果为基础。

    检索语言是由概念标识系统组成的,而概念是由术语来表达的,是分类表、词表的基本组成要素,检索语言其实就是一个经过精细组织的术语集。

    💚概念逻辑

    是一种科学思维方法,通过明确各自概念及其相互关系而揭示事物的本质属性及各
    种事物之间的联系与区别。

    检索语言是表达一系列概括信息内容的概念及其相互关系概念标识系统。是建立在概念逻辑的基础上。

    概念的含义

    是反映对象本质属性的思维形式,是对事物本质属性的概括
    (1)概念的内涵是概念所反映的对象的本质属性的总和。
    (2)概念的外延是概念所反映对象的范围。
    (3)它们之间存在反变关系。 “被定义的概念(种概念)= 种差(与其它属概念的本质的 差别) + 邻近属概念(包含被定义者的最小的属概念)

    概念间的关系

    外延有相同部分:相容关系
    外延无相重合部分:不相容关系

    相容关系(同一、属种、交叉、整体与部分、全面与某一方面、不相排斥的并列)

    (1)同一关系 外延相同而内涵不同(同义词、学名与俗名、同一产品正式命名与简写)
    (2)属种关系 外延呈包含于被包含 属种是相对的→等级关系
    (3)交叉关系 部分外延相重合 内涵为交叉内涵之和,新概念为下位概念。
    (4)整体与部分 隶属关系 上位下位
    (5)全面与某一方面关系 全部问题,某一方面的问题 上位、下位
    (6)不相排斥的并列关系 同属概念下,两个以上同级种概念的交叉关系

    不相容关系(相互排斥的并列、矛盾、对立)

    (1)互相排斥的并列关系
    同属概念下,两个以上外延完全不同的种概念之间的关系
    (3)矛盾关系
    外延完全不同,其外延总和等于其上位概念全部外延的概念之间的关系
    (3)对立关系
    是指外延完全不同,其外延总和小于其上位概念全部外延的概念之间的关系

    概念逻辑方法

    概念的划分与概括(分类)概念等级体系 体系分类法
    原理

    • 用概念内涵由反映事物本质属性的概念因素构成
    • 概念因素的增加或减少可以形成新的概念
    • 概念内涵与外延成反变关系等性质
    • 对概念进行划分(缩小)或概括(扩大),形成更为专指或更为泛指的新概念

    概念的分析与综合(组配)概念组配体系 叙词语言与组配分类法
    外延相同部分可以形成一个新概念,其内涵等于原来两个概念内涵之和

    💚知识分类

    实质(划分知识单元、组织知识体系)
    类型 (学科分类、事物分类)

    • 学科分类 以学科属性为分类标准
    • 事物分类 根据事物属性的异同将事物划分成类,构成事物分类体系
    • 学科分类是知识分类的主题,事实分类是知识分类的基础。

    基本原则 (客观性和发展性)
    (1)客观性
    即对学科或事物进行划分和组织时,应依 据知识对象固有的、客观存在的区别和联系。
    (2)发展性
    指知识分类的应按照学科或事物的发展规律,将知识对象由低级到高级,由简单到复
    杂进行划分和组织。

    知识分类在检索语言中的意义

    (1)检索语言要能适合实践应用和科学研究的需要,除了依据概念逻辑的理论基础外,还须利用知识分类的成果,把各种概念之间的关系建立在知识分类的基础上。
    (2)如果说概念逻辑是检索语言的基础,那知识分类就是概念逻辑的基础。
    (3)检索语言反映当代知识分类的程度是其质量的重要标志之一。只有较充分反映知识分类的检索语言,才能保证检索语言在信息检索工作中得到有效运用,并达到较好的效果。

    💚术语学

    术语是在特定学科领域用来表示概念的称谓的集合。通过语音/文字表达或限定科学概念的约定性语言符号
    研究概念、概念定义和概念命名基本规律的学科即术语学。

    展开全文
  • 从信息检索角度出发,提出一种高效的索引,在结构索引中集成了倒排文档,可同时查询XML结构部分和关键词。双重索引策略很好地解决了基于路径表达式查询效率低的问题。
  • 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法用语言模型与LDA模型对蒙古文文档进行建模,利用吉普斯抽样方法进行推理间接计算模型的参数,...
  • 科技文献检索(六)——检索语言

    千次阅读 2020-03-03 18:21:00
     检索语言——是用于文献标引和检索的一种人工语言。 2.检索语言的作用 建立标引和检索的桥梁 便于文献集中化、系统化和组织化 保证检索者按不同需求检索文献时能有较高的检全率和检准率。 3.检索语言类型 检索...
  • 语音关键词检索(KeywordsSearch),是指在连续语音流中检测出组给定的关键词的过程。与大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition)相比,语音关键词检索不需要对非关键词的精确识别...
  • 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法用语言模型与LDA模型对蒙古文文档进行建模,利用吉普斯抽样方法进行推理间接计算模型的参数,...
  • 关键词提取是文本挖掘领域的个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。 从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法和有监督关键词提取方法。 ...
  • 共回答了18个问题采纳率:83.3%2、 分类法在检索中的利用优势?分类法的优势是比主题法有更大的容量,内容更有针对性、更具学术性、符合研究...检索语言是应文献信息的加工、存储和检索的共同需要而发展起来的专门语...
  • 设计了一种新的关键词自动抽取方法,使计算机能够像人类专家一样,利用知识库对目标文本进行学习和理解,最终自动抽取出关键词。专利数据因其数据量庞大、内容丰富、表达准确、专业权威而被选中作为知识库来源。详细...
  • 检索

    千次阅读 2021-06-26 02:05:33
    中文名检索式外文名search strategy构成关键词、逻辑运算符、搜索指令方法查询范围选择,查询年限选择概念搜索引擎理解和运算的查词串检索式组成部分编辑语音(1)检索词检索词是检索者检索意图的集中体现,也是检索...
  • 自然语言处理()--关键词提取

    千次阅读 2019-04-05 09:58:51
    最近学习使用了传统的自然语言处理技术进行...TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF-IDF是一种统计方法,用来评估一个字词对于一个文件集或语料库...
  • 因此,关键词提取在文本挖掘领域是个很重要的部分。 关于文本的关键词提取方法分为有监督、半监督和无监督三: 1 有监督的关键词抽取算法 它是建关键词抽取算法看作是二分类问题,判断文档中的词或者短语是...
  • 这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词项。 ​ 关键词在文献检索、自动文摘、...
  • 信息检索习题

    千次阅读 2021-06-30 16:49:44
    、填空题 1.著名的引文索引检索工具SCI的...6.本印刷的检索工具,其结构大体可以分为,三大部分:文前栏目、正文和书后附属部分 6.按约束力来划分,标准可以分为强制性标准和推荐性标准。 7.一般来说,我们把SCI、
  • 自然语言处理TF-IDF关键词提取算法

    千次阅读 2022-03-23 11:40:13
    自然语言处理TF-IDF关键词提取算法 1、关键词提取简介 关键词是指能反映文本主题或者主要内容的词语。关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来,是NLP领域的个重要的子任务。在信息检索中...
  • 全文检索概念;2. 全文检索引擎 ElasticSearch;3. 安装 ElasticSearch 以及中文分词插件 IK;3.1 安装 ElasticSearch7;3.2 安装 elasticsearch-head;3.3 ElasticSearch 设置密码;3.4 安装中文分词插件 IK;4. ...
  • 文献检索期末复习

    2021-07-03 01:39:15
    下面哪种检索语言是后组式规范检索语言?A.单元词语言3.下列对MeSH描述错误的是D.MeSH中的主题词可以词多义4.图书馆为读者提供书刊外借服务的主要部门是C.书刊流通部5.以下哪项不是常用的文献传递服务方式?B...
  • 关键词抽取方法

    千次阅读 2021-01-28 20:47:13
    关键词抽取就是通过一定的方法抽取出能表达文章的中心主题的系列方法。 2、关键词抽取方法分类 2.1、有监督无监督抽取方法 无监督关键词提取方法主要有三类:基于统计特征的关键词提取(TF,TF-IDF);基于词图...
  • 北 京 师 范 大 学 网 络 教 育 PAGE PAGE 1 计算机信息检索作业 一选择题每题1分...D政府未解密的文件 3信息检索语言是 a A一种专门的人工书面语言 B一种机器语言 C一种数据库语言 D一种编程语言 4以下不属于零次文献
  • 目标是找到一种算法,能够以有效的方式提取关键字,并且能够平衡提取质量和执行时间,因为我的数据语料库迅速增加已经达到了数百万行。 我对于算法一个主要的要求是提取关键字本身总是要有意义的,即使脱离了上下文...
  • ElasticSearch的几种检索方式

    千次阅读 2019-02-20 11:44:53
    主要分为以下几: 1、query string search :查询字符串搜索 2、query DSL :特定领域的语言 3、query filter : 过滤查询 4、full-text search :(全文检索) 5、phrase search :(短语搜索) 6、highlight ...
  • 中文文本关键词抽取的三方法-python

    万次阅读 多人点赞 2020-07-22 22:52:23
    文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信息。目前,用于文本关键词提取的主要方法有四种:基于TF-IDF的关键词抽取、基于TextRank的...
  • 信息检索期末复习

    千次阅读 2021-08-08 23:00:13
    、考试题型(参考): 1、填空题(10空,1空1分) 2、实务题(10分) 3、单选题(20题,1题1分) 4、多选题(1-10题为双选题,11-20题为多选题,1题2分,错选、多选不得分,漏选按比例得分,) 5、判断题(20题,1...
  • 为了更加有效地检索到符合用户复杂语义需求的图像,提出一种基于文本描述与语义相关性分析的图像检索算法。该方法将图像检索分为两步:基于文本语义相关性分析的图像检索和基于SIFT特征的相似图像扩展检索。根据自然...
  • 常见的提取关键词的算法(4)

    千次阅读 2020-07-02 09:00:16
    有监督的文本关键词提取算法需要高昂的人工成本,因此现有的文本关键词提取主要采用适用性较强的无监督关键词抽取。其文本关键词抽取流程如下: 图 1 无监督文本关键词抽取流程图 无监督关键词抽取算法可以分为三大...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,508
精华内容 10,603
关键字:

关键词是一种检索语言