精华内容
下载资源
问答
  • 信息组织与检索 知识点整理 1.信息检索技术与方法 2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会有...

    目录

    1 简单的定义

    (一)广义的信息检索(信息组织+信息检索)

    (二)狭义的信息检索

    2 信息检索技术与方法

    (一)文本信息检索

    (二)多媒体信息检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    (二)信息组织各功能模块

    (三)信息检索各功能模块

    (四)知识组织工具(作用)

    (五)信息检索系统结构实例分析

    4 信息采集(没有具体程序噢~)

    5 信息描述(重点)

    (一)理解信息描述

    (二)传统文献信息描述

    (三)数字化信息描述

    (四)信息描述需要注意的问题

    6 信息标引(重点)

    (一)信息标引的目的

    (二)信息标引的方法

    (三)信息标引和信息检索结果

    7 信息存储(重点)

    (一)理解资源库

    (二)理解索引

    (三)倒排索引及构建


    1 简单的定义

    基本概念:数据、信息、知识、智慧、信息检索、信息生命周期

    (一)广义的信息检索(信息组织+信息检索)

    定义:利用一定的科学规则和方法,通过对信息外在特征和内容特征的分析、选择、描述、标引、存储、排序和重组等活动,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合

    信息组织主要包括对某范围内的信息选择的基础上对信息的内外特征进行描述、标引、存储并使其有序化,形成信息集合

    (二)狭义的信息检索

    定义:借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息的过程

    发展历程

    • 图书目录和文摘、索引(手工检索)
      • 印刷型文献为主要检索对象
      • 以各类文摘、题录和目录型工具书为可利用的主要检索工具
      • 以图书馆的参考咨询部门作为开展信息检索服务的中心机构
    • 计算机化检索【脱机批处理——联机实时检索——联机网络化与多元化检索】
      • 各类机读数据库为检索对象
      • 各类信息中心、联机服务中心作为信息服务部门
      • 信息检索用户逐渐由专业检索人员向个人终端用户转移和扩散
    • 网络化检索
      • WWW为核心的网络应用上的各种资源做检索对象,包括各种网页、FTP资源、用户组资源、联机数据库等和各种通过网络提供服务的数据库等
      • 以搜索引擎为主要检索工具
      • 信息用户多为终端用户
      • 人工智能得到应用,自动化程度、智能性大大提高(如自然语言理解、语义检索、推理等)

    2 信息检索技术与方法

    (一)文本信息检索

    常用检索技术:布尔检索、加权检索、截词检索、限制检索、位置检索和聚类检索等

    布尔检索

    • 算符含义

    逻辑或OR:A OR B

    逻辑与AND:A AND B

    逻辑非NOT:A NOT B

    逻辑异或XOR:A XOR B //检索结果是含有检索词A但不含有检索词B的文献或者是包含检索词B但不含有检索词A的文献

    • 优先级
      • 同级运算自左向右
      • AND和NOT先执行,OR后执行
      • 检索式中如果包括其他检索技术的算符,布尔运算最后执行

    加权检索

    • 加权检索的定义和示例
      • 加权检索是对布尔逻辑检索的一种扩充
      • 加权在标引及检索阶段都可使用

               示例:Q=知识管理(4)and竞争情报(2)and企业文化(1)

    • 加权检索优缺点
      • 优点:明确了各检索词在检索中的重要程度;可以通过提高和降低阈值来扩大和缩小检索范围;检索结果易于顺序排
      • 缺点:提问表达式烦琐,权值确定比较困难

    截词检索

    • 检索者将检索词汇在他认为合适的地方截断,并使用该截断词进行检索匹配
    • 截词检索有多种类型

               按照截断位置分:后截断(主要方式)、前截断和中截断

               按照截断的字符数量分:有限截断和无限截断

    限制检索

    方式:字段检索、二次检索、其他方式的限制

    位置检索(区别于字段检索)

    针对自然语言文本中检索词之间的特定位置关系而进行的检索匹配

    主要方式:邻接检索、同句检索、同字段检索、同记录检索

    聚类检索

    聚类检索起源于向量空间模型

    针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和聚类方法,计算出文献与文献之间的相似度,将相似度较高的文献聚集在一起,形成文献类目,进而形成文献的聚类文档聚类检索针对聚类文档进行

    其他文本辅助检索技术

          信息的浏览时检索与链接技术的运用;检索结果的翻译和多语种检索;检索结果的后处      理(排序输出/联机聚类/去重合并)

    (二)多媒体信息检索

    特性:集成性/交互性/独立性

    音频信息

    • 关注音频声波的数字化问题;
    • 采样、量化、编码和压缩等;
    • 传统音频信息检索特征的提取:外部特征的描述(文件名、文件类型、创建者、创建时间等,多用元数据表示)+内容特征的标引(如对歌词中的关键词、主题词进行提取)

    图形与图像信息

    • 传统图像信息的检索特征提取方法:外部特征(图像创建日期、文件格式、数据大小等)+内容特征的标引(图像描述的主要对象、作者的创作意图等)

    视频信息

    • 外部特征+内容特征的标引(简单文本转化)
    • 基于内容的检索:指根据多媒体对象的听、视觉等特征及其蕴含的内容和语义特征进行检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    • 系统结构:指系统的组成及各组成部件之间的关系
    • 基本结构:集中式与分布式
      • 集中式检索系统:信息资源分布在同一物理地点,往往具有统一标准的信息组织手段
      • 分布式检索系统:利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对于用户有用的信息。这里的分布式环境指的是信息资源在物理上分布于不同的地点,在数据库结构上具有异构性,但是这些分散和异构的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统
    • 逻辑结构
      • 信息组织模块:资源采集——信息标引——数据库创建
        • 信息检索模块:用户界面——提问处理——检索匹配

    (二)信息组织各功能模块

    • 信息资源及其采集(决定信息检索系统中数据库的类型及收录范围)
    • 信息描述与标引处理
    • 决定检索系统的检索点(入口),也决定了标引深度及后续检索功能的提供
    • 信息描述规则往往需要先行制定
    • 标引分为人工标引和自动标引
      • 人工标引多依赖词表和规范工具
      • 自动标引更多针对自然语言文本进行,标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理,再依据语言学规则进行文本内容的自动抽词或辅词,也可进行自动分类或聚类
    • 数据库创建与维护
    • 依据上述步骤形成的有序信息一般以数据库的形式存储在检索系统
    • 常见的数据库有文献型数据库和非文献型数据库
      • 文献型数据库包括书目(如索引、文摘等)和全文数据库,它们的设计与实现流程也各不相同;
      • 非文献型数据库包括指南数据库(如人物传记、公司名录、机构指南数据库等)、数值数据库和图像数据库以及术语、软件等特殊类型的数据库

    (三)信息检索各功能模块

    • 理解用户界面
    • 提问处理(提问加工方法很多,有菊池敏典法、逆波兰法、范式变换法等)
    • 检索匹配
      • 检索匹配过程涉及数学算法模型的应用有很多信息检索模型,重点要掌握的是经典模型     
      • 经典模型包括布尔检索模型,向量空间模型,概率模型

    (四)知识组织工具(作用)

    • 表达:信息资源特征,及用户信息需求
    • 组织:以达到资源的系统化和有序化
    • 控制:对标引、检索过程中使用到的术语、词汇 或某些特征进行规范与协调
    • 关联:知识之间的相关性得到明确表征并能够被 机器理解处理

    (五)信息检索系统结构实例分析

     

    图书馆数目检索系统

    搜索引擎

    知识图谱

    信息选择与采集

    采访部门负责选择,采集以购买为主

    爬虫为主

    依据前期设计好的知识建模进行

    信息描述与标引

    外部特征获取+描述为结构化数据,MARC作为信息描述标准;内容特征多以整本书为单位进行,而且以人工标引为主,依据中图法、汉语主题词表进行

    半结构化或非结构化,信息特征难以获取,更多采用自动标引,需要更多技术的支撑,例如文本分析、自然语言处理等

    采用知识建模的方式进行,可能使用到RDF等资源描述框架及本体等知识建模工具,通过实体和关系自动/人工抽取完成知识关联构建

    索引与数据库

    传统为MARC磁带,现多存储在关系型数据库,索引功能比较完善

    自动构建文本索引,数据库类型也很多样,可能是文档,也可能是关系型数据库或者NoSQL的数据库

    知识图谱多存储在图数据库中,类型RDF三元组能够支持网状结构的查询

    信息检索模块

    多以检索点入口限制检索+布尔逻辑检索为主的检索词检索,分类浏览及检索也是常用的

    需要更多结果处理的功能,布尔操作、模糊查询、分组查询等,更重视排序的处理

    语义查询方式,并重视知识推理和自动问答等的应用

    4 信息采集(这里没有具体程序噢~)

    信息检索系统将在信息采集的基础上进行信息描述、标引、索引及数据库构建,因此采集结果的存在形式至关重要:

    • 结构化(数据):按一定属性规则排列的(二维表是最常见形式)
    • 非结构化:所有格式的文本、图片、音频/视频信息
    • 半结构化:介于二者之间的,具有一定结构,但语义不够确定

    5 信息描述(重点)

    (一)理解信息描述

    • 信息描述:信息著录、信息编目
    • 定义:根据特定的信息管理规则和技术标准,将存在于某一物理载体上的信息资源的外在特征与部分内容特征进行选择、描述与给予记录的过程
    • 结果:一条由多个描述项目构成的关于该信息资源的数据
    • 应用:传统印刷载体文献;对于网络上各类型数字化信息而言,内外特征不容易区分,所有对信息特征进行反映的过程都可以看作信息描述
    • 作用
      • 识别:个别化描述,区别其他信息
      • 选择:通过特征判断资源利用价值,决定是否选择
      • 检索:描述数据中的检索点之间的逻辑匹配给用户提供查检途径及二次筛选依据
      • 定位:传统文献排列位置、数据库位置、网络地址等

    (二)传统文献信息描述

    • 图书馆信息管理以馆藏文献为主,常见文献包括图书、期刊、古籍等
    • 传统文献信息描述主要依据ISBD国际标准书目著录展开,最终描述结果是图书馆书目卡
    • 目标:标准书目国际交流,实现资源共享三统一:著录格式/描述项目/描述符号);从不同的可交换数据源中生成数据,以便国家间的交流;有助于克服语言障碍,以便国家间的相互解释;有助于将书目数据转换为机器可读形式

    MARC(机读目录)

    • 定义:一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录;一次输入,多项检索;输出多种载体的款目;网上传输,可实现合作编目和联机检
    • 局限:标准复杂;需要专用平台,不能跨平台操作;描述内容多为书目;仅限于数据描述部分,管理信息较少,不适合计算机环境下日益增多的需求。
    • 基本格式:每一条记录都由四个部分构成
      • Leader(记录头标区):固定为24字符,记录计算机处理所需参数,如记录长度、记录状态、执行代码等
      • Directory(地址目次区):每一字段的长度和起始位置,由计算机自动生成
      • DataFields(数据字段区):各种描述数据
      • 记录分隔符(由计算机给出):记录结束符
    • 数据字段
    • 数据字段区划分成10功能块,每个功能块又包含若干字段和子字段,其中6XX功能主要使用分类法和主题法(词)的方式表达信息内容特征。
    • 标识符号(三类)
      • 标识符:字段标识符(3位数字,如205表示版本项)、子字段标识符(两个字符,第一个字符为“$”,第二个字符可以是数字或者字母,如200字段的“$a”表示正题名)
      • 指示符:两位数字或者字母组成,提供附加信息
      • 分隔符:自动生成

    (三)数字化信息描述

    元数据

    定义:关于数据的数据或关于数据的结构化数据。描述一个具体的资源对象并能对这个对象进行定位、管理且有助于它的发现与获取的数据

    类型分类

    • 描述信息资源领域:书目、档案、政府出版物、地图等
    • 描述文献对象分:传统文献资料;数字化信息资源
    • 信息资源作用或功能分(CLC)【使用范围】:
      • 描述性:支持资源的发现和鉴别,如题名、作者等书目数据(主要用于检索系统检索入口和结果筛选
      • 管理性:用以维护和管理资源的数据,如创建者数据、存取权限数据、数据处理技术数据等(主要用于检索系统的管理,以及动态特征的变化演示等)
      • 结构性:描述数字化资源内部的形式特征,如目录、段落和章节,页面间的跳转数据(用于检索系统相关资源的跳转
      • 标准的构成:描述某类资源的具体对象时所有规则的集合(标准一般包括了完整描述一个具体对象时所需要的数据项集合,各数据项语义定义,著录规则和计算机应用时的语法规定
    • 常用元数据标准
      • 描述一般信息的元数据:MARC(书目数据)、DC(网络资源)和TEI(电子文本)
      • 描述特殊信息的元数据:EAD(档案信息)、GILS(政府信息)、CGDGM(地理信息)
      • 描述图像信息的元数据:CDWA(博物馆艺术作品)和VRACore(可视化文化作品及图像资源)
    • 元数据互操作
      • 多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索
      • 利用特定转换程序对不同元数据元格式进行转换,称为元数据映射
      • 目前已有大量的转换程序存在,供若干流行元数据格式之间的转化

    (四)信息描述需要注意的问题

    • 检索系统信息描述应根据资源特征和检索用户检索需求设计信息描述的标准
    • 兼顾不同资源的特性同时又要能最大程度地实现各类资源在发现和获取方法上的一致性,即从功能数据结构格式语义语法等诸多方面保持一致以实现不同系统之间的互操作和共享

    6 信息标引(重点)

    (一)信息标引的目的

    • 信息标引定义:采用一个或若干信息标识(词语或者代号)表示或替代信息内容特征的过程。揭示与标引形成的标识和代码不仅是信息存入信息系统的依据,也往往是信息检索的途径,如分类号、主题词、关键词等
    • 标引类型
      • 标引主体:人工标引和自动标引
      • 标引标识的不同形式:分类标引和主题标引
      • 标识是否规范控制:受控标引和非控标引(自然语言标引)

    (二)信息标引的方法

    标引分类

    • 人工受控标引
    • 转换标识:受控标引的标识必须来自受控分类表(分为等级体系分类和分面分类)或者受控词表(知识组织工具),即经过规范控制的标识,有时还需要进行概念之间的组配。
    • 自然语言自动标引
    • 汉语分词问题——歧义
      • 交集型歧义:结合成分子;我研究生期间是研究生物的
      • 组合型歧义:请把手拿开

    常见的中文分词方法

    • 基于规则的分词方法(机械分词方法、基于字典)
      • 三个要素:分词词典、文本扫描顺序、匹配原则
      • 扫描顺序:正向扫描、逆向扫描和双向扫描
      • 匹配原则:有最大匹配、最小匹配、逐词匹配和最佳匹配。
    • 基于统计的分词方法
      • 对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息(紧密程度);当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词
      • 例如:N元文法模型(N-gram)、隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场模型(CRF)等
    • 基于语义的分词方法
      • 对自然语言自身的语言信息进行更多的处理
      • 例如:扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等
    • 基于理解的分词方法
      • 基本思想:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象

    标引标识

    三个要素:分词子系统、句法语义子系统、总控部分。

    • 词典分词
    • 单汉字标引
    • 从分词结果到标引标识

    不是所有词都直接转换为标引标识

    词频:词在文献中出现的次数(一篇,一类文档)

    词性:名词常是有意义的

    逆文本档频率:在所有文档中统计词的频率

    位置:论文篇名,摘要,正文出现的词

    加权:词的权重

    • TF-IDF
    • TF:表示词条在当前文档中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件,公式=在某一类中词条出现的次数/该类中所有的词条数目
    • IDF:逆文件频率,公式=log⁡(语料库的文档总数/(包含词条w的文档树+1))

    应用场景:标引词的选择,自动标签生成/文档相似度的计算/文本聚类/自动文摘/SEO

    (三)信息标引和信息检索结果

    信息标引标识的数量

    信息标引标识是否受控

    信息标引标识粒度

    不同语种的处理差异

    7 信息存储(重点)

    (一)理解资源库

    概念:关系型数据库

    (二)理解索引

    索引由来

    索引组成的基本单位是索引款目,所有索引款目实现有序化编排

    款目一般包括索引词、说明或注释语、出处 3项内容

    本质特征是只揭示内容出处或文献线索,并不直接提供事实、资料本身。主要功能是为人们准确、迅速地获得文献资料提供线索性指引

    关系型数据库索引

    索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构

    索引有不同类型:普通索引、唯一索引、主键索引、全文索引等等

    索引将非结构化数据按照规则提取信息,重新组织,使其有一定结构

    全文索引

    创建索引:获得文件——构建文档对象——分析分档(分词)——创建索引

    查询索引:用户查询接口——创建查询——执行查询——渲染结果——(用户查询接口)

    (三)倒排索引及构建

    顺序和倒排含义:倒排(逆向)对应的是顺序(正排/正向)

    倒排索引的创建流程

    收集需要索引的文档

    将每篇文档转换为一个个词条(token):自然语言分词

    进行语言学预处理,产生归一化词条作为词项

    对所有文档按照其中出现的词项建立倒排索引

    词条问题的解决

    词条归一化隐式地建立等价类,例如去掉连字符;维持多个非归一化词条之间的关联关系,例如手工建立同义词表,参见后面的单词词典(所以可以知道汉语主题词表等受控词表的作用)

    词干还原stemming和词形归并lemmatization

    单词词典

    • 单词词典是由文档集合中出现过的所有单词构成的字符串集合。
    • 单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
    • 单词词典是倒排索引中非常重要的组成部分,它是用来维护文档集合中所有单词的相关信息,同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。
    • 在支持搜索时,根据用户的查询词,去单词词典里查询,就能够获得相应的倒排列表。对于一个规模很大的文档集合来说,可能包含了几十万甚至上百万的不同单词,快速定位某个单词直接决定搜索的响应速度,所以需要很高效的数据结构对单词词典进行构建和查找。

    数据结构

    常用的数据结构包含哈希加链表树形词典结构

     

     

    展开全文
  • 信息组织 | 信息组织分类法

    千次阅读 2020-05-02 09:51:22
    分面分析的方式,可以从多个方面反映概念的含 义,在网络信息组织方面具有较好的应用前景。 ■缺点: 组配技术和标记技术过于复杂且表达性较差,较难满足实用需要。 3. 体系-组配式分类法 是在等级体系分类法的基础...

    1 重点与难点

    • 重点:
      • 分类法的基本原理和编制结构体系
      • 《中图法》使用
    • 难点:
      • 分类法微观体系结构
      • 《中图法》使用

    2 分类法原理

    2.1 分类与分类检索

      分类:是指依据事物的属性或特征进行区分和类聚,并将区分的结果按照一定的次序予以组织的活动。

    分类检索的基本形式

    • 浏览式检索
    • 直接检索
    • 浏览与检索直接相结合

    2.2 信息分类法的类型

    2.2.1 按分类法处理的对象分

    1 文献分类法
      文献分类法是信息分类法中最重要的类型,因 为文献是人类知识最完整、最系统的记录,对 它的整序要求也最高。
       文献分类是各种分类法中最复杂、最庞大的, 包括:

    		1.图书分类法
    		2.档案分类法
    		3.专利分类法
    		4.标准分类法
    		5.资料分类法
    		6.公文分类法
    

    2 学科、专业(课程)分类法

    类型 分类对象 作用 特点
    学科分类法 学科 用于国家宏观科技管理、 科技统计等 较好地体现现有学科的知识联系
    专业(课程) 分类法 高等学校的专业 用于高等学校的专业设 置、课程建设、学位管 理、招生等 类目设置概括、实用
    科研项目分类 科研项目 用科研的管理、申报、 统计等 不稳定、时期阶段性

    3 网络信息分类法

      分类导航、分类目录

    网络信息分类法与文献分类法、学科分类法的差异

    • 类目体系比其他分类法的动态性高,对新事物反应迅速
    • 经常使用辅助的分类体系集中揭示某种类型的信息
    • 列类时重视信息的数量和用户利用的程度,逻辑性、等级性相对较弱
    • 注重实用性、易用性,而科学性不足
    • 类名高度简短,甚至无法准确判断类目的含义

    4 事物分类法
      是以实体的事物为主要分类对象,而不是抽象的知识,根据事物之间的异同按一定的分类标准聚 类和划分,依据事物关系的亲疏远近排列而成的 分类法。

    • 事物分类法的类型
      • 组织机构分类法——>具有唯一性,不求简短而力求明确。
      • 物品分类法——>商品分类占有重要的地位

    2.2.2 按分类法编制的结构形式分

    1. 列举式分类法

    • 基本特点

      1. 有一个严密的类目等级结构
      2. 代表信息信息与知识概念的类目以详尽列举的方式直接展现
    • 列举式分类法优缺点
      ■优点:

      • 概念直接表达,直观明确,不易产生歧义;
      • 在分类浏览检索中,可以使用户在层层深入的过程中发现所有的类目
        等级系统性,对于知识的系统组织和系统查询有良好的适应能力。

      ■缺点:

      • 难以揭示复杂知识主题和新主题,容纳性较差;
      • 篇幅巨大,使用不便。

    2. 组配式分类法

      也称分面分类法、组面分类法、分析一综合式分 类法,是根据概念的分析与综合的原理,将概括 文献、信息、事物的主题概念组成"知识大纲一分面一亚面一类目",的结构,按一定的规则、通 过各个分面内类目之间的组合来表达文献主题的一种分类法。

    ■著名的组配式分类法

    《冒号分类法》(CC)
    《布利斯书目分类法》(BC2 )

    ■分面分析.分面引用次序,分面标记制度, 是分面分类法的核心理论和关键技术。

    组配式分类法的优缺点

    ■优点:

    • 可以组配出大量新的、复杂的主题,容纳性较好。
    • 分面分析的方式,可以从多个方面反映概念的含 义,在网络信息组织方面具有较好的应用前景。

    ■缺点:

    • 组配技术和标记技术过于复杂且表达性较差,较难满足实用需要。

    3. 体系-组配式分类法

    • 是在等级体系分类法的基础上,引入分面分析和组配技术所形成的分类法。以等级体系分类为基础,以确保分类知识系统性的前提;
    • 引入分面分析和组配技术是为了提高体系分类对新主题、复杂主题的描述能力和灵活的检索能力。

    体系分类法吸收组配分类法的体现

    1. 多重分类的运用
    2. 是运用类目仿分,设置专类复分表和通用复分表等手段,增加细分的能力,提高标引专指度
    3. 是使用主类号直接组配表达新的主题

    2.3 分类法的宏观和微观结构

    分类法的宏观结构

      是指分类法的基本组成部分及其联系,各个组成部分一般是一个独立的模块,具有 特定的功能。

    分类法的宏观结构
    在这里插入图片描述

    分类法的微观结构

      分类法的微观结构,是指分类法的类目结构。

      一个类目是由类号、类名、类级、注释和参照组成的,其中类号、类名、类级是必须的
    在这里插入图片描述

    3 分类法的编制

    3.1 分类法编制的基本程序

    ■(一)分类法的功能分析与定位——>基础性工作、因素制约
    ■(二)系统用户需求调查与分析
    ■(三)分类体系设计
    ■(四)分类标记设计
    ■(五)分类法结构设计——>设计子系统
    ■(六)分类法主表设计
    ■(七)分类法辅助分类体系设计
    ■(八)分类法辅助表设计
    ■(九)分类法索引设计
    ■(十)试标引与修订

    3.2 类目的设置、划分与排列

    3.2.1 类目的设置(立类)

    立类的一般原则

    1. 立类的客观性原则——>类目要有文献、信息的保证;

    2. 分类法稳定的基础——>类目应当是稳定的;

    3. 立类的发展性原则——>类目应当是发展的;

    4. 类目应当是均衡的;

    5. 类目概念应当是清楚而简洁

    3.2.2 类目划分

      选用一定的分类标准,对一个较宽泛的上位概 进行分组,形成一组平行的类目(同位类)。
    类目划分的原则

    1. 应以事物本质属性中最有检索意义 的属性作为主要划分标准。
    2. 应基本遵循逻辑划分的规则。
    3. 应当力求全面,以保证类列的完整类目划分的级次不宜过粗也不宜过细(遵循文献保证原则

    类目划分的技术

    1. 划分层次的掌握——>总的原则是最末级子目应当有足够的文献、信息保证量。
    2. 总论与专论的掌握——>XX基本问题、XX一般性问题、XX一般著作
    3. “横向展开” 与 “纵向深入” 的掌握 ——>某类事物的共性问题 / 事物的个性差异
    4. 共性区分的处理类组的划分 ——>采用“对应列类”的方法,一致性,规律性
    5. 类目的多重划分(列类) ——>分面标头
    6. 类目划分中"集中"方向的选择 ——>满足某些专业特殊的检索需要(明确的注释和导引)
    7. 交替列类和交叉列类 ——>某种重点需求并依据其主要隶属关系在一个类下列 类,该类目称为正式类目或使用类目 / 在其他一个或几个类下也编列相应的类目,供选择使用,该类目称为交替类目。
    8. 类目划分中的逻辑性
    9. 双表列类法

    分类标准的使用次序

      ■分类标准的使用次序,决定着文献、信息聚合成类的次序和按某种属性集中的程度,决定着分类法局部的类目体系结构。

      ■分类标准使用次序应该遵循:

    1. 优先使用的分类标准一般是该学科、该事物的主要分类标准
    2. 优先使用能形成具有科学认识意义的类目体系的分类标准
    3. 优先使用具有较高检索意义的属性作为分体系的分类标准
    4. 分类标准次序:篇幅——>时代——> 国家——>题材

    3.2.3 类目关系显示及交叉关系的处理

    ■类目关系的显示
      分类法中类目的涵义是在一个由上位概念 、同位概念、下位概念和类目注释构成的 语义空间中进行限定后体现出来的,这也是等级体系分类法进行语义控制、显示类目间关系的基本方式。

    ■类目之间的关系

    1. 类目纵向的等级关系
      在这里插入图片描述

    2. 类目横向关系
      在这里插入图片描述

    3. 类目的同一关系在这里插入图片描述

    类目之间交叉关系的处理

    5. 理论及其应用的交叉在这里插入图片描述

    1. 自然科学基础理论与应用科学的交叉在这里插入图片描述

    2. 产品的理论、制造及其应用的交叉在这里插入图片描述

    3. 交叉学科(边缘学科)的编列在这里插入图片描述

    3.2.4 类目注释

    ■类目注释主要有以下几种类型:

    1. 类目内容注释——> —般采用〃见XX注〃(注释内容完全相同);

    2. 类目关系注释在这里插入图片描述

    3. 分类方法注释——>
        包括说明复分的依据、复分的次序、组配编 号方法、文献集中与分散分类的方法、某项 特殊的分类规则或组号规则、说明互见分类的方法、说明同类书的区分方法等在这里插入图片描述

    4. 类目沿革注释
      在这里插入图片描述

    3.2.5 分类法的修订

    修订的主要方面与技术:
    ■在渐变中实现结构性变化(为确保分为类法相对的稳定性)
    ■类目体系的扩充(适用于该类的文献、信息有了较大增长,而原 来的类目明显不敷使用)
    ■增补新的主题

    • 利用空号个别增加类目;
    • 修订类名,扩大 原类目的外延;
    • 将涵义相关的类目改为类组,容纳新的主 题;
    • 通过类目注释,增加新的主题内容等。

    ■删除陈旧或错误的类目、合并使用频率很低的类目;
    ■订正类目的错误;
    ■对类名、注释等进行规范化处理;
    ■完善注释参照系统;
    ■修订复分表

    • 复分表的修订一般多局限于扩大类目外延、增加新类目、 增加细分层次、增加注释、增加复分表种类等方面。

    Web版分类法的维护和修订
    Web版分类法的最大优点是:

    • 可以进行动态更新和维护,减少因版本性修订周期较与科学技术发展迅速产生的时滞

    Web版分类法维护修订方式

    1. 首先是确定曰常维护的权限和程序,通常可以划分为网络版维护组、主编、编委会三级修订审查机制;
    2. 其次是做好网络版修订日志;
    3. 第三是做好修订的发布工作,不仅要在分类表上更新,还应在专门栏目集中发布更新信息,使用 户全面了解更新的动态;
    4. 第四是充分利用网络版的平台,加强与用户的互动了解用户对分类法修订的建议

    4 分类法的标记系统

    4.1 分类标记的功能与要求

    (一)分类标记的功能

    ■以代号的形式表达类目
    ■固定定类目位置
    ■显示类目之间的关系

    (二)分类标记的要求
      容纳性、简明性、表达性、助记性

    4.2 分类标记的类型

    (一)按组成成分划分

    1. 单纯号码——>单纯数字号码\单纯字母号码
    2. 混合制号码——>《国际专利分类法》、《中图法》
    3. 层累标记制 ——>《中图法》

    • 层累制的主要优点是分类号码能够揭示类目的等 级关系、有很强的表达性、便于扩大或缩小检索 范围。
    • 其缺点是随着类目的逐级展开号码将越来越长,影响简短性;当同位类超过其进位基数后,就得 采用变通的方法来弥补,号码位数与类目的等级 就不能完全对应了。

    4. 顺序标记制——>《美国国会图书馆分类法》

      顺序制号码的优点是配号简单,由于不表达等级关系所 以号码较简短、号码利用率高。
      主要缺点是表达性差,不能体现类目之间的等级关系, 不便于扩大或缩小检索范围,对计算机信息处理的适应性也差,因此较少被采用。

    5. 混合标记制——>《科图法》

      是把层累制与顺序制相结合的一种标记制度 ,包括层累一顺序制和顺序一层累制两种基 本类型。

    6. 分面标记制——>《冒号分类法》

      分面标记制采用特定的符号或组配方式表示复杂主题 各个主题因素所属的分面,使号码不仅揭示类目的次 序和等级,也能显示类目的分面结构,其特点是灵活 的组配性能可以充分揭示文献主题。
      但是分面标记制造成号码冗长复杂,易识别性和排序性都不如其他类型的号码,因此完全的分面标记制很少被使用,而 将其融入其他的标记制度结合使用。

    7. 回归标记制——>《布利斯书目分类法》

      也称回溯标记制,是一种适用于分面组配式分类的标 记制。其配号的方法是直接将位置在前的组面类号加 在位置在后的组面类号上。

    8. 起讫标记制——>《联合国教科文组织叙词表》的分类表部

      又称扩充编号法,是用一个号码或一个起讫号码表示 一类,用起讫范围内的若干个号码(包括起讫号码) 标记某个起讫类号所在类目的下位类。在这里插入图片描述

    4.3 分类标记系统的构建技术

    4.3.1 分类法的结构形式

      分类法的不同结构形式对分类标记系统有不同的要求:

    • 等级体系式分类法最好使用层累标记制;
    • 分面分类法则需要相应的分面标记制才能满足其组面设置、主题组配的需要。

    4.3.2分类法的功能

      分类法的功能各不相同,对分类标记系统的要求也有所差异,分类标记系统除了显示等级结构外,还要便于计算机处理。

    • 文献分类法的标记系统最为复杂,其中是否具有文献排架功能 ,也对标记系统的要求不同。
    • 学科分类法由于不会划分的十分深细,号码长度不是主要因素 ,但等级显示的功能要强。
    • 某些事物分类法,比如电子商务的商品分类法的同位类可能相 当多,就必须考虑号码的容纳性,而无须考虑其组配的功能。
    • 对于网络信息分类法来说,最重要的构成直观的树型结构,以便于直接层层浏览检索。

    4.3.3 标记系统的辅助符号

    • 现代分类法不管是等级体系的还是分面式的,
多配有一定的辅助符号用于标记特定的主题、
或用于文献主题的组配。如UDC的+、/、:
、=•・・、(0—)等,《中图法》的V >、
""、一、a、+、()等。
    • 辅助符号的种类、功能、使用及其与主类号的
关系等都须根据分类法的功能要求进行设计。

    4.3.4 配号方法

    1.涉及总论与专论类目的配号
      有关某类文献、信息、事物的共性问题,都是总论性的。
      文献、信息分类法通常编制一组总论性类目置于该类之前,并用"0 —般性问题"来标记总论性类目。在这里插入图片描述

    2.通用复分表类目的配号

      通用复分表由于适用于整个分类表,配号时不 仅涉及号码编号制度,也常常涉及辅助标记符 号的使用。

    3.专用复分表类目的配号
      专用复分表类目的配号主要要考虑与主类号的组配需要,同时要与主表有关类目的配号相呼应。在这里插入图片描述

    4.号码扩充技术

    • 借号法——>借下位类号、借上位类号

    • 八分法——>也称扩九法,是同位类较多(或预计发展较多)但不超过16个时常用的扩充编号技术。
        ■基本编号方法是:使用前八个号码为前八同位类配号 ,将剩余的"9"扩成双位,为其他同位类配号。在这里插入图片描述

    • 双位法
        也称百分法,是用于同位类数量相当多时的一种扩号 技术。
        ■基本的编号方法是:1-9本身不使用,每个号码直接扩充为双位号,为同位类配号,这样在同一个类列中号码的位数与类目的等级是相对应的。在这里插入图片描述

    • 字顺扩号法
        当某类下同位类很多,但无须再进一步划分,且同位 类有不可预见性时,可使用类名的首字母进行扩号, 即"类号+字母"。在这里插入图片描述

    5.空号的技术
      在分类标记系统设计和实际配号中,为了给类目扩充或修订留有余地,或为了编号的逻辑性,或为了编号的对应性等目的,大量使用空号技术。
    (1)间隔空号——>当号码比较充裕,号码的预留难以预测时使用。
    (2)对应性空号——>为达到对应编号的目的,为性质相同的类列中没有列举的类目配以对应性空号。
    (3)逻辑性空号
      当列类时按逻辑性的原则应为某事物设立某类目,但 由于当时文献保证不足等原因没有列类,则为该主题应占据的位置进行逻辑性空号。
    (4)尾部空号
      这是最常用的空号法,编号时类列的前面类目依次顺 序配号,把"其他”或"XX应用〃置于类列最后, 用"9”配号,其余尾部号码为空号。
    (5)预测性空号
       在编表时根据类目今后可能展开的情况,有预见地在一定位置预留空号。

    5《中图法》

    5.1 《中国图书馆分类法》发展沿革

    ■《中图法》最早由中国科学技术出版社于 1975年正式出版。
    ■1980年出版第2版
    ■1990年出版第3版
    ■1999年出版第4版
    ■2002年《中图法》第4版电子版问世,标志 着我国文献、信息分类法已经开始从传统的印刷型分类法迈向电子分类法的新阶段。
    ■2009年《中图法》出版第五版。
    ■2011年《中图法》Web版正式上线。

    5.2 《中图法》的标记符号

    ■•间隔符号
    ■a推荐符号

    • 置于A类马列经典作家著作的互见分类号之后, 以示推荐作用。例如:G25a。

    ■/起止符号
    ■[]交替符号

    • [K902]经济地理学

    ■.总论复分符号

    • .03方法论;TU-80建筑艺术理论

    ■()国家、地区区分号

    • TJ761.2 ( 351 )印度的中程导弹

    ■=时代区分号

    • 0411.1= 535二十世纪80年代的数学物理方法

    ■“ ”民族.种族区分号

    • J732.2 〃510.5〃吉普赛民间舞蹈

    ■< >通用时间.地点区分号

    • TV553<113>冬季打桩工程

    ■:组配符号

    • Z89:TV21水利规划索引

    ■+联合符号

    • B2+G12中国哲学与中国教育

    ■—指示性类目提示符号在这里插入图片描述

    ■{}停用类目指示符

    • 例如:(0515} 超低温(小于1°K)获得
      <停用;4版改入0514.1>

    5.3 《中图法》评价

    ■优点:

    1. 《中图法》Web版开创了我国大型综合性分类法 Web版的先河,使分类法的应用和管理进入到一 个更高的层次。
    2. 《中图法》Web版最大的优点是实现了分类法的 动态更新,由此也对分类法的修订理论和方法产 生深远影响。
    3. 《中图法》Web版实现了OPAC检索,从而把《 中图法》与网络信息资源检索紧密连在一起。

    ■缺点:
    5. 没有提供组合检索方式;
    6. 与《中图法》电子版相比页面窗口固定,显示、 使用都欠灵活。

    6 参考资料

      《信息组织(第三版)》,戴维民主编,高等教育出版社,2014年.
      《信息组织(第三章)》PPT

    展开全文
  • 信息组织 | 数字图书馆信息组织

    千次阅读 2020-05-08 09:30:24
    文章目录 1 数字图书馆的结构 1.1 数字图书馆的微观结构一一数字对象的信息结构 1.2 数字图书馆的中观结构一一分布式资源库组织结构 1.3 数字图书馆的宏观结构一一数字图书馆基本体系结构 2 数字图书馆信息组织的...

    1 数字图书馆的结构

    1.1 数字图书馆的微观结构一一数字对象的信息结构

    数字对象

    1. 是数字资源库中表示信息的基本逻辑单位,是数字图书馆系统操作和访问的基本信息单位;
    2. 简单的数字文件(如文本、图像、视频、声音或音乐文件);
    3. 由一系列的底层的数字对象按照一定结构组合而成的复合对象(如多媒体图书.课件等)

    ■ 数字对象的三个要素:

    1. 数字对象的句柄(Handle ),常称为指针
    2. 数字对象的元数据(Metadata )
    3. 数字对象的数据体(是数字对象内容的载体 )

    数字对象的信息结构决定着进一步的信息组织、处理和利用方式。

    1.2 数字图书馆的中观结构一一分布式资源库组织结构

    ■资源库

      是多种资源的集合体,是一种资源与另一种资源 发生关联的组织。

    ■资源库组织主要关注以下关系:

    1. 元数据与数字对象的关系;
    2. 不同数字内容之间的关系
    3. 不同类型媒体之间的关系
    4. 多种存储格式相互转换和链接。

    ■分布式资源库
      分布存放在不同结构的不同空间中,在此基础上 ,再在各资源库之间进行通信与操作上的互联和数据内容之间的跨库关联,在总体上构成一个分布式、异构数字图书馆系统。

    ■资源库之间异构有多个层次:

    1. 系统平台的异构
    2. 数据类型层面的异构
    3. 数据结构和索引结构的异构

    1.3 数字图书馆的宏观结构一一数字图书馆基本体系结构

    ■数字图书馆系统的逻辑结构

    1. 对象数据库
    2. 元数据库
    3. 数据加工子系统
    4. 査询子系统
    5. 调度子系统

    数字图书馆功能框架结构
    在这里插入图片描述

    ■数据存储层

    1. 数据存储层负责数字化资源的保存:
      • 元数据层:资源发现的重要依据
      • 数字对象层:采用分布式存储,可分散在不回旳系纨;

    ■资源加工与管理层

    1. 一方面负责数字化资源的创建和获取,包括对文献资
源的数字化加工、标引与采购。
    2. 另一方面负责对数字资源进行组织、管理和维护。

    ■服务层

      为各个应用环境提供服务支撑,包括文献服务(资源
的发现和获取)、参考咨询服务、个性化服务和教学
科研辅助服务。
    


■用户层
。
    


  负责系统与用户之间的交互。用户层集成了服务层提
供的专业应用服务接口和用户统一认证和管理接口。

    2 数字图书馆信息组织的特征和原则

    数字图书馆的特征:

    1. 经采选和序化的数字化信息资源
    2. 分布式资源建设和管理
    3. 网络化信息存取
    4. 增值化信息服务

    数字图书馆信息组织的原则

    1. 标准化原则
    2. 开放性原则
    3. 选择性原则
    4. 多维非线性揭示原则
    5. 知识组织原则

    3 数字图书馆资源的元数据组织

    (一)元数据及其功能
    ■元数据
      是用来识别、描述和定位数字信息资源的数据,以确保数字信息资源能够被计算机自动辨析、分解、 提取和分析归纳的一种框架或一套编码体系。

    ■数字图书馆的元数据体系

    1. 是数字图书馆所采用的信息描述的方法,是整个数字图书馆系统的基础。
    2. 是对资源进行组织的有效工具,其功能是对信息资源进行描述、定位、检索、利用和管理。

    元数据体系结构
    3. 内容结构
    ■对元数据的构成元素及其定义标准进行描述;
    4. 句法結构
    ■是定义元数据整体结构以及如何描述这种结构;
    5. 语义结构
    ■是定义元数据元素的具体描述方法。

    (二)元数据的类型划分
    依据元数据在数字图书馆中的功能,划分为:

    1. 描述性元数据
    2. 结构性元数据
    3. 管理性元数据

    (三)都柏林核心元数据

    1. Dublin Core ,以下简称DC。
    2. 目的是希望建立一套精简的,适合于数字资源的描述方法,使得资源发现和信息检索变得更加迅速和有效。DC目前已形成相对固定的标准,由15个核心元素构成,分别从资源内容,知识产权,外部属性三个方面对信息资源进行描述。
    3. DC具有简单易用、可扩展性等特点,国际上一般以推荐以DC的15个元数据作为核心元素,在此基 础上作扩充。

    元数据的局限

    1. 元数据主要是为人而设计的,但是语义缺乏明确的、形式化的定义,无法利用机器 的强大功能对元数据直接进行理解和处理。
    2. 元数据虽然提供了数字图书馆的语义基础,但却无法解决资源描述的异构性和语义性问题

    基于RDF/XML的元数据标记应用
      ■ XML定义了元数据描述语法互操作的标准
      ■RDF ( Resource Description Framework ,资 源描述框架)是由W3C提出的一种用于描述网络上的信息和资源的标记语言,专门用于描述Web资源的元数据,是一种人与机器都能理解的描述框架。RDF是一个处理元数据的XML应用,采用 XML语法来表述。

    RDF的局限

    1. RDF只定义了用于描述资源的通用数据模型 ,但它不是针对特定领域的,没有为任何领 域定义语义。
    2. RDF的语义表示能力非常有限,只提供了描述单个资源语义信息的能力,而没有提供描述特定领域的语义的能力。

    RDFS

    1. Resource Description Framework Schema ,资源描述框架模型,RDF的词汇描述语言;
    2. RDFS通过提供一套命名和描述RDF中类和属性的机制,实现以通用的数据模型描 述特定领域语义的能力。

    ■ RDFS数据模型

    1. RDF使用XML语法实现Web上的元数据的描述和交换;
    2. 采用URI地址唯一地表示Web资源,首先指定词汇集的URI,再使用指定的词汇集来描述资源;
    3. 然后通过RDF Schema来建立不同词汇集之间的联系。

    RDFS 的局限

    1. RDFS仅限于能表达浅层次的语义关系,无法支持更精确的语义关系描述。
    2. 必须在RDF(S)基础上扩展元数据的语义描述功能,定义更加复杂的概念结构,并具备一定的知识推理能力的描述方案。

    4 数字图书馆资源的知识组织

    4.1 数字图书馆的知识组织系统

    (一)知识组织系统及其层次类型

    ■ 知识组织系统
      knowledge organization systems ,简称KOS ,是我们用来定义并组织表述真实世界物体的术语和符号的系统,在具体应用中我们往往将它们泛指为语义工具。

    ■知识组织系统的层次
    第一层次:词汇列表(词单)
    第二层次:分类与大致归类
    第三层次:关联组织

    ■知识组织系统的作用
    第一层次的词汇、词单列表
      可以被视为基础知识类工具;

    第二层次的分类聚类体系
      可以被看作是架构类知识组织工具,体现了领域专家对学科 知识的有序梳理,通过分类法与标题表对信息资源进行重组 排序,在知识组织中实现知识系统化架构及主题标引;

    第三层次的叙词表.本体等
    可以被视为关联组织类工具,建立,揭示语义关系,体现知 识之间的关联呈现,提供更为多元的检索入口,也为机器理 解与推理提供了支持。

    (二)知识组织系统描述转换的目标
    ■数字图书馆KOS的改造和语义化转换的目标:

    1. 将各类知识组织工具转化为机器可理解的语义化知识库,使其具备和其它知识组织系统具行广泛互操作与关联的能力; 向数字图书馆内外的各类智能应用提供知识服务;
    2. 将数字图书馆的知识资源转换为关联数据输送到整个互联网上,使得数字图书馆成为语义Web的知识关联枢纽。

    (三)知识组织系统的描述转换语言

    1. SKOS是RDF的一个应用,每一条陈述(statement) 都是一个RDF三元组。
    2. SKOS数据模型的实质是一套由RDF定义的词汇集,采用该词集能够以一种机器可理解的方式表达词汇的结构和概念,以供交换和重用。
    3. SKOS化的知识组织系统为RDFS提供了更为规范和精确的取值词汇集 (value vocabularies),扩展了RDFS 的语义描述能力。

    SKOS包括三个主要部分:
    ■ SKOS CoreV

    1. SKOS核心词汇表,是一个表示概念体系基本结构和内容的模型
    2. SKOS核心词表常用标签表

    ■ SKOS Mapping
      用于描述概念间的映射
    ■ SKOS Extensions
      用于描述SKOS的特定应用

    5 数字图书馆资源的整合技术与方法

    5.1 系统层面的技术整合

    ■系统层面的技术整合:
      也称平台整合,是在检索过程中,采用某种检索机制,以检索代理(Agent)的角色 来接受和处理用户的检索请求,为用户返回检索结果时实现表面的资源整合。

    ■整合方法
    1. 基于元搜索的联邦检索
      必须遵循一定的数据交换与互操作标准协议在异构数据库之间进行数据交换与互操作;
    ■优点:

    1. 一站式检索,唯一检索入口;
    2. 检索效率高且稳定性、即时性好。

    ■缺点:

    1. 检索相关:对同时检索资源的限制;检索速度方面难以克 服的缺陷;检索表现依赖于每一个目标资源和网络表现;
    2. 检索结果相关:査重和归并;显示和排序;这两点皆由于 无法对不同目标资源的结果确定一个好的查重算法和一个 统一的显示方式;而相关度排序的问题更为复杂和棘手。
    3. 标准相关:缺乏目标资源的记录结构;缺乏相关的标准检 索协议,通常使用Z39.50 , API和XML网关,甚至通过 HTTP进行元数据抽取。

    2. 基于OpenURL的链接整合服务
      统一资源定位器,即"开放链接“,是一种附带有元数据信息和资源地址信息的"可运行的URL",是目前最为 热门的唯一标识符应用体系;

    ■链接整合的角色(要素):
      链接源(link source)今链接服务器(Link Server)今链 接目标(link target)
    ■链接整合运行机制

    1. 前提:参与链接整合的各个信息服务商(各数据库) 必须遵循OpenURL标准协议;
    2. 运行:链接服务器(Link Server)解析信息提供源( Source )所传送的要求,并向目标发送深度链接服务的请求,实现快捷定位并获取所需的目标信息。

    基于OpenURL链接整合的优点及发展前景
    ■优点:

    1. OpenURL协议具有可定制、可移植、开放特性; 基于OpenURL框架的链接服务是信息源外部的,独立 于信息源;
    2. 有助实现链接的本地化,可以提供链接的扩展服务;
    3. 提供一个对不同文献数据库的通用管理入口;
    4. 通过标准的方式将不同的数据库集成。

    ■发展前景:

    1. 在学术信息环境中获得了广泛的认可和支持,成为数字 图书馆应用领域的热门技术;
    2. 是下一代网络级资源发现系统实现有效定位资源目标的关键技术之一:  SUMMON(360Link);Primo(SFX)

    5.2 资源层面基于元数据的内容整合

    ■基于元数据的内容整合:
      是指通过抽取,映射等手段对分布异构资源 的元数据/对象数据进行收集和聚合,安装 在本地系统中提供统一的检索和服务。
    ■三个发展阶段

    1. 基于元数据转换的互操作
    2. 基于开放元数据搜索和检索的集成
    3. 基于海量元数据仓储的内容整合

    基于OAI-PMH元数据整合的优缺点
    ■优点:

    1. OAI-PMH的一个最大特点是简单。它把原来广大用户和数据提供者要做的工作集中到了专业 的服务提供者一方,同时也大大减轻了对提供元数据的广 大图书馆的技术要求。
    2. OAI-PMH从元数据的共享和互操作的层面上提供了一种 低成本的数字资源整合集成共享的解决方案。
      ■缺点:
        当OAI-PMH从Z39.50服务器(如联合公共目录系统)、 动态网页、数据库中抽取元数据,在此基础上形成供自己 使用的本地OAI数据源时,但由于涉及元数据规范、格式 、数据库接口等的加工、处理或转换要相对复杂一些。

    5.3 基于海量元数据仓储的内容整合

      通过对海量的来自异构资源的元数据(包括部分对象数 据)通过抽取、映射、收割、导入等手段进行预收集, 并作规范化,丰富化处理,通过归并并映射到一个标准的表达式进行预聚合,形成统一的元数据中心索引;通过单一但功能强大的搜索界,面向终端用户提统一的检索和服务。

    5.4 基于知识关联的内容整合

    1. 知识关联是深层次的内容整合;
    2. 知识链接是基于知识关联的信息组织和资源 内容整合方式;
    3. 引文数据库就是基于引文之间的相互印证关系建立文献之间的内容整合关联网络。
    4. 是数字图书馆面向知识服务创新的资源整合模式和要求,也是数字图书馆资源整合的终 级目标。

    5.5 关于资源整合的总结

      每一种资源整合方式并不是绝然独立的,也并没 有低级和高级之分,在实际应用中是相互互补、渗透和融合的。
    ■资源整合在整合内容类型的覆盖面上也不断得到加强:

    1. 图书馆购买的数字资源库的跨库集成检索——>
    2. 支持整个图书馆全部馆藏信息资源(包括印刷.电子 和数字)的集成整合检索、发现与获取——>
    3. 基于全网域索引的资源发现(印刷版资源;自建的本地数字内容,比如机构库和数字特藏;订购的远程电子资源;其他诸如博客等微信息资源)

    6 参考资料

    《信息组织》第三版 ,戴维民主编,高等教育出版社,2014年
    《信息组织》第九章 PPT

    展开全文
  • 文章目录 1 自然语言在信息组织中的应用概述 1.1 自然语言的优缺点 1.2 自然语言与自然语言处理 2 自动分词与自然语言标引 2.1 汉语分词 2.1.1 汉语分词及其障碍概述 2.1.2 汉语分词方法 2.2 自然语言标引 2.2.1 ...

    1 自然语言在信息组织中的应用概述

    1.1 自然语言的优缺点

    优点

    1. 可以降低标引难度及成本,从而提高标引速度; 采用用户熟悉的自然语言,符合用户检索习惯, 减少了概念转换中产生的失真现象,专指度强;
    2. 由于自然语言标引检索多采用自动处理方式,省略了编制词表和词汇的智力负担;
    3. 操作简单方便,灵活,比较适合没有专业知识的 广大网络用户使用等。

    缺点

    1. 由于自然语言对标引用词不加严格控制,必 然会形成非关键性词语的大量出现,影响检 准率的提高;
    2. 由于不能反映概念词间的一一对应关系,也 不能反映概念关系的隐含性,无法排除同义词(漏检)、近义词、多义词(误检)等词间的模糊现象,势必也会直接影响到检全率的提高。
    3. 自然语言和受控语言都有各自独特的优点和缺点, 不能简单彼此替代,而应当相互补充、交融。

    解决方式:
    针对上述自然语言及其检索中存在的这些问题

    • —方面要依靠计算机技术和自然语言处理技术的突破发展;
    • 另一方面受控语言的基本原理一对词汇的控制, 是永远不会被省略的,变化的只是词汇控制的方式、方法和手段。

    1.2 自然语言与自然语言处理

      

自然语言处理 natural language processing ( NLP ),是实现自然语言理解的核心基础,是语言信息处理的一个重要分支,是自然语言得以应用所要解决的首要的核心问题。

    自然语言处理研究内容的基础部分
    ■语法分析(Syntactic Understanding)
    ■语义分析(Semantic Understanding)
    ■语用分析(Pragmatic Understanding)

    2 自动分词与自然语言标引

    2.1 汉语分词

    2.1.1 汉语分词及其障碍概述

      

汉语属于黏着性语言,较之于属于曲折型语言的西语系
(如英语、法语、德语等)语言,词与词之间缺乏任何
形式上的标志

    汉语切分中的难点

    1. 汉字之间存在着不同的组词方式;
    2. 从标引的角度分析,交集型的标引词汇难以处理。
    3. 汉语虚词众多,而且绝大多数汉字当与不同的汉字组词 时,其词可能为关键词,也可能为非用词。
    4. 新词的频繁出现也给汉语分词增添了难度。

    分词歧义的类型

    1. 交集型歧义
    2. 组合型歧义

    切分歧义的解决策略

    1. 汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧 义(约占全部歧义的85%以上)和组合型歧义。只有向分词系统提供进一歩的语法,语义知识才有可能作出正确的决策
    2. 切除歧义常常用词频、词长、词间关系等信息
    3. 有时切分歧义发生在一小段文字中,但为了排除歧义,需要 看较长的一段文字。

    2.1.2 汉语分词方法

    基于词典匹配的分词方法
      

又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个 "充分大的"机器词典中的词条进行配,若在词典中找到某个字符 串,则匹配成功(识别出一个词)。
    基于理解的分词方法
      

就是在分词的同时进行句法、语义分析,利用句法信息和语义 信息来处理歧义现象。
    基于统计的分词方法
      

可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的同现信息 ,同现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。

    2.2 自然语言标引

      

自然语言标引是指采用原文中的信息作为标引源, 从中选取能够有效表征信息内容的特征词的过程。

    2.2.1 自由标引

      

即人工关键词标引。是指将那些出现在文献的标题(篇名、 章节名)以及摘要、正文中,对表征文献主题内容具有实质 意义的语词,亦即对揭示和描述文献主题内容来说是重要的 、带关键性的(可以作为检索入口的)那些语词抽取,抽取 时不加规范或只做少量规范化处理。
      

自由标引主要适用于报纸文献、期刊文献的大型篇 名数据库等的标引。

    自由标引的优点

    1. 由于不使用词表控制,标引速度要比使用词表的主题标引快许多倍,这还意味着标引成本的降低;
    2. 可用与文献主题专指度一致的词进行标引,保证较高的检准率;
    3. 标引过程是标引人员进行主题分析的过程,如果标引人员具有一定的业务水平,则其标引质量可大大高于自动抽词标引。

    2.2.2 自动标引

      

又称计算机辅助标引(Computer Aided Indexing ),是根 据文献内容,依靠计算机系统全部或部分地自动给出标引符 号的过程。

    自动标引的意义

    1. 适应信息资源快速增长的需要
    2. 相对手工标引存在很大优势,克服了手工标引难以克服的缺点。
    3. 自动标引一致性好
    4. 自动标引不受标引人员状态和情绪的影响,稳定性好。

    自动标引的分类

    • “狭义”的自动标引包括主题标引的自动抽词标引和自动赋 词标引两种方式。
    • ”广义“的自动标引还指在主题自动标引基础上的自动赋分 类号标引。
      自动标引
    1. 自动主题标引
    2. 自动分类标引

    自动主题标引关键在于:
      

词语抽取;对所识别出的主题词进行优选,以最终产生能表达文献主题内容的标引词。

    西文自动标引
    (1)文本的词汇分析
    (2)非用词的去除
    (3)词干提取
    (4)索引项的选择

    中文自动标引的基本流程
    (1)确定标引源
    (2)预处理
    (3)分词处理
    (4)确定关键词
    (5)转换为受控词
    (6)给出主题标识符

    2.2.3 单汉字索引与全文索引

    单汉字索引的优点

    1. 成功地绕过了汉语自动切分这一难题,实现比较容易;
    2. 自动化的适用程度高
    3. 单字索引的建立效率很高,
    4. 对于新兴的概念词也能即时处理,也解决了汉语交集型字符串标引的问题。
    5. 可以实现全方位、彻底的检索;
    6. 单汉字检索模式是最彻底的后组配模式,可通过调整检索字的数量来任意调整检索专指度。
    7. 可用于文献内容的统计、分析和研究。

    单汉字索引的缺点

    1. 将词汇控制负担转嫁给了用户,加重了检索者构造检索策略时的智力负担;
    2. 基于单汉字的检索只能实现物理字面上的匹配运算,难 于处理文本中的隐含概念主题;
    3. 单汉字自动标引会使无检索价值的虚词或分辨力很差的常用字在索引中占很大比例;
    4. 同时在具体实现上还存在不足之处
      • 响应时间慢于其他方法;
      • 以单汉字为索引单元,导致字频率的跨度很大,索引(倒排)文 档的构造必须要解决好存储空间与检索时间这两个矛盾关系;
      • 单字组配检索将会产生许多假组配现象,影响查准率。

    3 自然语言检索

    3.1 自然语言检索系统概述

    自然语言检索系统
      

就是指对文献作者或文摘提要的编写者原 来使用的语言进行一定的序化组织、处理 并提供自然语言检索接口供用户查询使用的检索系统。

    自然语言检索系统的关键性技术:

    1. 文本信息的自动标引
    2. 索引技术
    3. 自然语言检索技术O系统采用的信息标引方式
    4. 所选取的索引的颗粒度

    3.2 自然语言检索

    1. 从检索语言来讲,自然语言检索就是在为文献检索 标识时,使用文献作者、文摘编写者原来所用的语 词或标引人员自拟的语词,而不是取自受控词表中 的语词;
    2. 从技术上讲,就是将自然语言处理技术应用于信息 检索系统的信息组织、标引与输岀;
    3. 从用户方面讲,就是用自然语言作为提问输入的检 索方式。

    自然语言检索的类型
    ■从用户输入检索词形式的角度区分:

    1. 关键词检索;
    2. 自然语言语句的提问式输入检索

    ■从检索内容或检索对象角度区分

    1. 基于标引字段的检索方式;
    2. 全文检索方式

    3.3 全文检索

      

所谓全文检索(Full-Text Retrieval ),是指以全部文本信息作为检索对象的一种信息检索技术。 全文检索的核心技术就是维护一个高效的索引(主要是倒排文档)。

    全文检索的索引问题
      

全文检索的关键是文档的索引,即如何将源文档中所有基本元素的信息以适当的形式记录到索引库中。

    全文检索系统优缺点
    ■优点:

    1. 系统制作效率高
。
    2. 词汇自然更新
。
    3. 专指性强
    4. 查全率高

    ■缺点:
    

1. 存贮空间开销大

    

2. 检索者智力负担重

    

3. 误检率较高

    

4. 文本匹配的算法需优化

    

5. 中文全文检索受汉语切分的
影响

    中文索引的三种索引策略:

    1. 单汉字索引方式
    2. 词索引方式
    3. N元语法(N-Gram法)

    各种索引方式的优缺点

    方法 查全率 查准率 检索速度 索引空间
    按字 海量数据慢 浪费
    按词 较差 较小
    N- Gram 较好 较差 严重浪费

    3.4 搜索引擎的自然语言检索问题

    (一)搜索引擎的检索理论
      

一般以词为索引单位,即计算机程序通过扫描每一篇文章中的 每一个词,建立以词为单位的倒排文档,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些 检索词的文档进行排序,最后输出排序的结果。

      

全文检索技术是搜索引擎的核心支撑技术
    (二)搜索引擎的检索技术
    ■关键词匹配检索

    1. 布尔逻辑检索
    2. 词组检索
    3. 字段限制检索
    4. 位置检索
    5. 递进检索

    ■简单提问式输入检索
      

问答系统(QA System ) ASK.com模式、 AnswerBus模式
    ■基于理解的自然语言检索
      

在尽量避免引入复杂语义过程的前提下,依靠比 较成熟的实验技术与成果(如,中文信息自动分词技术、词表编制技术),基于自然语言基本语义内容实现主题概念检索技术。
    自然语言检索系统存在的问题
    ■易造成主题相关的信息分散;
    ■词间关系含糊不清或不正确,无法清楚地显示概 念间的关系,易造成检索系统的失误;
    ■用户难以确定全部的检索用词,加重了用户的负担。

    4 后控制检索

    4.1 后控制和后控词表

    后控:信息检索阶段的控制称为后控制
      

后控制方法主要有:截词检索、位置逻辑检索、标弓I 词加权和后控制词表。

    后控制词表
      

是利用受控语言的基本原理和方法编制的自然语言检索用词表,它主要是对自然语言中大量存在的等同关系、等级关系和大部分相关关系进行控制和揭示,具有自学习功能,可根据检索的需要 将新概念和新术语及时地加入词表中,因此,后控词表是一个动态词表。

    4.2 后控词表应用现状

    ■自动化词表编制管理系统
    ■机读或网络化词表的应用

    后控检索应用中的注意点

    • 后控词间关系词表在检索系统中应该以“词族片断“
的结构形式存放。

    • 词间关系词表控制下的查询扩展,一定要注意让用户
根据检索意图(或者说是检索的语义概念)来选择,
通过交互式的术语提示方式来实现控制。

    4.3网络检索系统中的后控制技术

    1 .检索式的修整、优化

    • 停用词典一一检索词有效性控制
    • 截词词典一一检索词词形控制
    • 词间关系词表——检索式概念控制

    2 .检索结果控制

    • 按相关度计算来排序检索结果(百分比、星级显示)
    • 按检索结果主题内容聚类(聚类技术能经常地帮助用户调整对感兴趣的检索结果的快速定位)

    检索结果的联机聚类技术
    
■ Results-clustering

      

通过聚类,将检索结果组织成一棵主题导航树,其好
处是你处理的将是一个相对小数量的结果集,而不是
从整个网络上检索到的所有信息,科学地从检索结果
角度优化了检索,减轻了用户负担,使用户以最快的
速度准确定位到满足其检索需求的记录信息。

    5 参考资料

    《信息组织》第三版 ,戴维民主编, 高等教育出版社,2014年
    《信息组织》第七章 PPT

    展开全文
  • python网络爬虫信息组织与提取

    千次阅读 2018-11-18 20:48:38
    p中包含course字符串的信息!   对属性做约束!看来通过,id=’link1’进行匹配的错误一个都不可以!   模糊查找,就需要正则表达式啦! Import re soup.find_all(id=re.compile(‘link’)) ...
  • 6 信息组织的发展趋势 以用户需求为导向的信息组织 信息内容揭示深入化 信息组织方法集成化 信息组织技术智能化 信息组织系统兼容化与标准化 信息组织理论研究的拓展 积极应对大数据时代信息组织的挑战 参考资料 ...
  • 如同我们前面所介绍的那样,DICOM是有关医学图像的标准。前面介绍了图像在存储介质和通信环境下的交换,本讲主要介绍有关图像的组织和表现方面的... 为此,DICOM标准规定了相应的图像信息组织和处理功能。下面分别作介
  • [转载]信息组织方式的未来

    千次阅读 2005-02-09 19:56:00
    信息不再简单地以供和求的方式流动,社会化的信息组织方式,让每一条你所获得的信息,都被充分地为你定制过了,因为你自己就是整个信息加工过程的直接参与者。 <!-- google_ad_client = "pub-4219279482676588";...
  • 组织星期信息

    万次阅读 2018-11-27 11:58:51
    定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为说明...
  • 组织星期天信息

    2019-03-21 08:54:42
    定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为说明...
  • 组织星期信息 (10 分)

    千次阅读 2019-02-02 11:17:23
    定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为...
  • 组织星期信息(Python解法)

    千次阅读 2019-01-21 12:26:24
    组织星期信息 作者: 王秀 单位: 福州大学 ...定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesda...
  • PTA_组织星期信息_JAVA

    千次阅读 2019-05-13 22:46:56
    定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为说明...
  • 7-2 组织星期信息 (10 分)

    千次阅读 2019-09-22 21:28:51
    定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为说明...
  • 7-1 组织星期信息 (10分)

    千次阅读 2020-03-30 21:19:26
    定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为说明...
  • 定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为说明...
  • 定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为说明...
  • 信息安全系统的组织管理

    千次阅读 2017-02-23 20:33:19
    电子政务信息安全的组织管理 电子政务信息系统的安全组织管理必须与现有的组织结构特点和信息系统特点相适应。 以层级和纵向级的组织结构于信息化结合的结构 企业信息信息安全的组织管理 以层级组织结构与...
  • PTA:组织星期信息 (10分)(C语言)

    千次阅读 2020-04-08 22:46:16
    定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为说明...
  • 组织的含义在已有的几种经典理论中都有论述,认为自组织是开放系统中自发进行的一种运动过程,如在耗散...自组织理论与信息结合起来,产生了信息组织的概念,一些学者就套用已有的自组织理论在信息领域中,按照自组
  • 定义一个指针数组将下面的星期信息组织起来,输入一个字符串,在表中查找,若存在,输出该字符串在表中的序号,否则输出-1。 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 输入输出示例:括号内为...
  • 前言:  第二章从规划的角度对信息资源进行了阐述。将信息+人+技术上升到...组织战略确定公司的经营目标,信息化规划去具体规划如何去达到目标的措施,信息组织是实现这一目标的 保证和执行者。总结起来三者之
  • Xcode 修改Copyright的组织信息

    千次阅读 2019-07-03 09:21:34
    在xcode中新建文件时,会自动写上Organization信息,修改Organization的方式如下: 选择工程名称 选择TARGETS 在最右边窗口,选择Organization,并输入内容 如下图所示: 效果: ...
  • /** * 获取当前用户的组织信息; */ private CtrlUnitInfo getCtrlUnitInfo()throws Exception{ logger.info("获取用户组织信息开始:"); CtrlUnitInfo cu = SysContext.getSysContext().getCurrent
  • 转自:http://blog.csdn.net/lingpaoershiyishiji/article/details/9139527目录 示例准备知识了解读取AD域信息示例DirectorySearcher.Filter属性扩充说明用户属性扩充说明(含图文属性对照)常规地址帐户电话组织示例...
  • HR获取人员组织信息

    千次阅读 2013-01-22 02:55:32
    FUNCTION Z02HRFM_RETRIEVE_ORG_STRUC. *"---------------------------------------------------------------------- *"*"Local Interface: *" IMPORTING *" REFERENCE(I_PERNR) TYPE PERNR_D ...
  • 信息化规划与组织

    千次阅读 2012-03-28 20:49:19
  • 第二章 信息化 规划与组织

    千次阅读 多人点赞 2012-05-25 10:00:20
    本章图是以信息化为核心,来统领全局的,充分表达相互之间密切的关系,使自己的思维更加紧密,简单但是又能理清之间的联系,轻松的学习! 单击此处到大图

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 42,521
精华内容 17,008
关键字:

信息组织