精华内容
下载资源
问答
  • 对于信息的概念描述
    千次阅读
    2021-01-04 11:59:48

    1信息融合又称为数据融合或者多源信息融合

    可以概括为:充分利用不同时间与空间的多传感器数据资源,如传感器、数据库、知识库、和人类本身获取有关信息,采用计算机技术对按时间序列获得的多传感器观测数据,在一定准则下进行分析、综合、支配和使用,获得对被测对象的一致性解释与描述,进而实现相应的决策和估计,使系统获得比它的个组成部分更充分的信息。

    2根据信息融合的定义,信息融合技术包含以下几个核心内容:

    (1)信息融合是在几个层次上完成对多源信息处理的过程,其中每一个层次都具有不同级别的信息抽象。
    (2)信息融合包括探测、互联、相关、估计、信息组合。
    (3)信息融合的结果包括较低层次上的状态估计和身份估计,以及较高层次上的整个战术态势估计。

    3多源信息融合的主要方法

    (1)随机类方法
    加权平均法、贝叶斯估计法、卡尔曼滤波法、D-S证据推理法
    (2)人工智能方法
    模糊逻辑推理、人工神经网络

    更多相关内容
  • 数据挖掘中的概念描述

    千次阅读 2015-09-02 17:31:00
    从数据分析角度出发,数据...描述型数据挖掘又称为概念描述概念描述是数据挖掘的一个重要部分。概念描述基本知识描述型数据挖掘最简单的类型就是概念描述概念描述描述的是数据的特征和比较描述。 特征:给定数据集
    数据挖掘一般可分为描述型数据挖掘和预测型数据挖掘,概念描述讲的就是描述型数据挖掘。
    

    一、概念描述基本知识

    1.1 两种类型的数据挖掘

    从数据分析角度出发,数据挖掘可分为两种类型:

    • 描述型数据挖掘:以简洁概要方式描述数据
    • 预测型数据挖掘:预测性数据挖掘则是通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型,并将该模型用于预测未来新数据的有关性质。

    1.2 概念描述

    描述型数据挖掘又称为概念描述,概念描述是数据挖掘的一个重要部分。描述型数据挖掘最简单的类型就是概念描述。概念描述描述的是数据的特征和比较描述:

    • 特征描述:给定数据集的简洁汇总
    • 比较描述:多用于两个或多个数据集

    数据泛化也是一种概念描述,这类似于数据仓库中的OLAP,但两者之间也是有区别的:

    • 复杂的数据类型和聚集:概念描述可以处理更加复杂的数据类型属性和他们的聚集
    • 用户控制和自动处理:OLAP多是用户的控制和操作,而数据挖掘中的概念描述更努力成为自动化的过程,具备自动知识发现的能力,要远远复杂的多

    二、特征描述

    数据泛化也是一种特征描述。数据泛化的概念:它是一个过程,它将庞大、任务相关的数据集从较低的概念层次抽象到较高的概念层次。具体泛化方法有两类:

    1. 数据立方:类似OLAP
    2. 面向属性的归纳

    数据泛化是非常有用的,举个例子:一个销售系统中的数据库中商品项目可能由诸如itemid,name,brand,price,category,place-made等低层次的属性构成,但销售和市场经理都希望得到在圣诞节期间大量商品基本信息的汇总描述来获得一些信息。

    2.1 面向属性的归纳

    面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关数据,然后通过观察任务相关数据中每个属性的不同值的个数进行泛化。泛化可以通过属性删除,或者通过属性泛化进行。

    2.1.1 收集任务相关数据

    通过数据挖掘查询或者关系查询获取相关数据,假设我们有如下关系查询语句:

    use Big_university_DB
    select name,gender,major,birth_place,birth_date,residence,phone,gpa
    from student
    where status in {"M.Sc","M.A","M.B.A","Ph.D"}
    

    把词语在关系数据库中执行,返回如下表所示数据。该表一般被称作初始工作表,是要进行归纳的数据。

    namegendermajorbirth_placebirth_dateredidencephonegpa
    JimMCSVancouver,BC,Canada76-12-83511,Main St,Richmand687-45983.67
    ScottMCSMontreal,Que,Canada75-7-28345,IstSt,Vancouver253-91063.70
    LeeFPhysicsSeattle,WA,USA70-8-25231,Austin,Burnaby420-52323.83

    数据已经准备好,下面就开始进行属性归纳,面向属性归纳的基本操作是数据泛化,它有两种方法:属性删除

    2.1.2 属性删除

    顾名思义,属性删除就是删除我们不需要的数据。我们基于如下规则盘点是否采用属性删除方法:如果初始工作表中某个属性有大量不同的值,(1)但是在此属性上没有泛化操作符;或者(2)它的较高层概念可以用其它属性表示,该属性应当从工作关系表中删除。

    举个例子,对于情况1,因为它没有泛化操作符,就意味着它不能被泛化,保留它则与产生简洁的描述规则相矛盾,比如初始工作表中的姓名字段。对于情况2,比如属性street可以被较高的属性city表示,所以删除city属性。

    2.1.3 属性泛化

    属性泛化基于如下规则:如果初始工作表中某个属性有大量不同的值,并且该属性上存在泛化操作符,则应当选择该泛化操作符,并将它用于该属性。

    2.1.4 属性泛化控制

    属性删除和属性泛化两个规则都表明,如果某个属性存在大量的不同取值,就应当进一步泛化,那多大才算是大?这个控制过程我们就称作属性泛化控制。有一些方法可以控制泛化的过程,下面介绍两种常用的方法:

    1. 属性泛化阈值控制,对所有属性设置一个泛化阈值,或对每个属性设置一个泛化阈值,如果属性不同值个数大于这个阈值,就应当进一步进行属性删除或泛化。
    2. 泛化关系阈值控制,如果泛化关系中不同元组的个数超过该阈值,则应当进一步泛化。

    2.1.5 面向属性归纳实例

    现在,我们就对上面的初始工作表中的每个属性进行泛化,泛化过程如下:

    1. name:由于name存在大量不同的值,并且没有泛化操作符,删除之。
    2. gender:只有两个不同值,保留,无需泛化。
    3. major:假设major数量有20,属性泛化阈值为5,并且已定义了一个向上攀升的概念分层{arts,engineering,business},则对major进行泛化。
    4. birth_place:有大量不同取值,应当泛化。可以将birth_place属性删除,泛化到birth_country。
    5. birth_date:泛化到age。
    6. resident:可以泛化到resident_country,像是的概念层次的number,street可以删除。
    7. phone:从泛化中删除。
    8. gpa:存在概念分层,可以泛化到{excellent,very good,…}
      所泛化过程将产生相等元组的组。例如,初始工作表中前两个元组被泛化成相同的元组(即第一个元组),这些相同的元组被合并成一个,同时累计它们的计数值,这一过程最终得到如下泛化关系表:
    gendermajorbirth_countryage_rangeredidence_citygpacount
    MScienceCanada20Richmonverygood1
    MScienceCanada20Vancouveverygood2
    FengineerUSA25Burnabyexcellent2

    2.2 数据泛化的导出表示

    • 二维表
    • 3d交叉表
    • 条形图、饼形图
    • 数据方

    三、解析特征:属性相关性分析

    有时候我们很难确定哪些属性应当纳入类特征或类比较中,我们可以借助某些属性相关分析方法来识别不相关或者弱相关属性。

    3.1 为什么要进行属性分析

    我们已经在上面介绍过,数据仓库和OLAP工具有两个局限性:处理复杂对象和泛化过程难以自动化。

    对用户来说,确定哪些维应当纳入到类特征分析中并不是一件很容易的事,数据关系通常有很多属性(多的有成百上千个),对于有效的数据挖掘,应当选择哪些属性或维,用户所知甚少。另一方面,用户也可能包含了太多的分析属性。

    所以我们应当引进一些方法进行属性相关性分析,以过滤统计不相关或弱相关属性,保留对手头挖掘任务最相关的属性。包含属性/维相关性分析的类特征成为解析特征,包含这种分析的类比较成为解析比较

    3.2 属性相关分析的方法

    关于属性相关分析,在机器学习、统计、模糊和粗糙集理论等方面都有很多研究。属性相关分析基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。这种度量包括信息增益、Gini索引、不确定性相关系数

    展开全文
  • 信息组织与检索 知识点整理 1.信息检索技术与方法 ...3.信息组织(信息采集,信息描述信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会有粉丝吗呜呜呜

    目录

    1 简单的定义

    (一)广义的信息检索(信息组织+信息检索)

    (二)狭义的信息检索

    2 信息检索技术与方法

    (一)文本信息检索

    (二)多媒体信息检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    (二)信息组织各功能模块

    (三)信息检索各功能模块

    (四)知识组织工具(作用)

    (五)信息检索系统结构实例分析

    4 信息采集(没有具体程序噢~)

    5 信息描述(重点)

    (一)理解信息描述

    (二)传统文献信息描述

    (三)数字化信息描述

    (四)信息描述需要注意的问题

    6 信息标引(重点)

    (一)信息标引的目的

    (二)信息标引的方法

    (三)信息标引和信息检索结果

    7 信息存储(重点)

    (一)理解资源库

    (二)理解索引

    (三)倒排索引及构建


    1 简单的定义

    基本概念:数据、信息、知识、智慧、信息检索、信息生命周期

    (一)广义的信息检索(信息组织+信息检索)

    定义:利用一定的科学规则和方法,通过对信息外在特征和内容特征的分析、选择、描述、标引、存储、排序和重组等活动,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合

    信息组织主要包括对某范围内的信息选择的基础上对信息的内外特征进行描述、标引、存储并使其有序化,形成信息集合

    (二)狭义的信息检索

    定义:借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息的过程

    发展历程

    • 图书目录和文摘、索引(手工检索)
      • 印刷型文献为主要检索对象
      • 以各类文摘、题录和目录型工具书为可利用的主要检索工具
      • 以图书馆的参考咨询部门作为开展信息检索服务的中心机构
    • 计算机化检索【脱机批处理——联机实时检索——联机网络化与多元化检索】
      • 各类机读数据库为检索对象
      • 各类信息中心、联机服务中心作为信息服务部门
      • 信息检索用户逐渐由专业检索人员向个人终端用户转移和扩散
    • 网络化检索
      • WWW为核心的网络应用上的各种资源做检索对象,包括各种网页、FTP资源、用户组资源、联机数据库等和各种通过网络提供服务的数据库等
      • 以搜索引擎为主要检索工具
      • 信息用户多为终端用户
      • 人工智能得到应用,自动化程度、智能性大大提高(如自然语言理解、语义检索、推理等)

    2 信息检索技术与方法

    (一)文本信息检索

    常用检索技术:布尔检索、加权检索、截词检索、限制检索、位置检索和聚类检索等

    布尔检索

    • 算符含义

    逻辑或OR:A OR B

    逻辑与AND:A AND B

    逻辑非NOT:A NOT B

    逻辑异或XOR:A XOR B //检索结果是含有检索词A但不含有检索词B的文献或者是包含检索词B但不含有检索词A的文献

    • 优先级
      • 同级运算自左向右
      • AND和NOT先执行,OR后执行
      • 检索式中如果包括其他检索技术的算符,布尔运算最后执行

    加权检索

    • 加权检索的定义和示例
      • 加权检索是对布尔逻辑检索的一种扩充
      • 加权在标引及检索阶段都可使用

               示例:Q=知识管理(4)and竞争情报(2)and企业文化(1)

    • 加权检索优缺点
      • 优点:明确了各检索词在检索中的重要程度;可以通过提高和降低阈值来扩大和缩小检索范围;检索结果易于顺序排
      • 缺点:提问表达式烦琐,权值确定比较困难

    截词检索

    • 检索者将检索词汇在他认为合适的地方截断,并使用该截断词进行检索匹配
    • 截词检索有多种类型

               按照截断位置分:后截断(主要方式)、前截断和中截断

               按照截断的字符数量分:有限截断和无限截断

    限制检索

    方式:字段检索、二次检索、其他方式的限制

    位置检索(区别于字段检索)

    针对自然语言文本中检索词之间的特定位置关系而进行的检索匹配

    主要方式:邻接检索、同句检索、同字段检索、同记录检索

    聚类检索

    聚类检索起源于向量空间模型

    针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和聚类方法,计算出文献与文献之间的相似度,将相似度较高的文献聚集在一起,形成文献类目,进而形成文献的聚类文档聚类检索针对聚类文档进行

    其他文本辅助检索技术

          信息的浏览时检索与链接技术的运用;检索结果的翻译和多语种检索;检索结果的后处      理(排序输出/联机聚类/去重合并)

    (二)多媒体信息检索

    特性:集成性/交互性/独立性

    音频信息

    • 关注音频声波的数字化问题;
    • 采样、量化、编码和压缩等;
    • 传统音频信息检索特征的提取:外部特征的描述(文件名、文件类型、创建者、创建时间等,多用元数据表示)+内容特征的标引(如对歌词中的关键词、主题词进行提取)

    图形与图像信息

    • 传统图像信息的检索特征提取方法:外部特征(图像创建日期、文件格式、数据大小等)+内容特征的标引(图像描述的主要对象、作者的创作意图等)

    视频信息

    • 外部特征+内容特征的标引(简单文本转化)
    • 基于内容的检索:指根据多媒体对象的听、视觉等特征及其蕴含的内容和语义特征进行检索

    3 信息检索系统结构和功能模块

    (一)信息检索系统基本结构

    • 系统结构:指系统的组成及各组成部件之间的关系
    • 基本结构:集中式与分布式
      • 集中式检索系统:信息资源分布在同一物理地点,往往具有统一标准的信息组织手段
      • 分布式检索系统:利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对于用户有用的信息。这里的分布式环境指的是信息资源在物理上分布于不同的地点,在数据库结构上具有异构性,但是这些分散和异构的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统
    • 逻辑结构
      • 信息组织模块:资源采集——信息标引——数据库创建
        • 信息检索模块:用户界面——提问处理——检索匹配

    (二)信息组织各功能模块

    • 信息资源及其采集(决定信息检索系统中数据库的类型及收录范围)
    • 信息描述与标引处理
    • 决定检索系统的检索点(入口),也决定了标引深度及后续检索功能的提供
    • 信息描述规则往往需要先行制定
    • 标引分为人工标引和自动标引
      • 人工标引多依赖词表和规范工具
      • 自动标引更多针对自然语言文本进行,标引前一般要先对文献进行词汇分析,对其中的数字、连字符、标点符号和字母的大小写进行处理,再依据语言学规则进行文本内容的自动抽词或辅词,也可进行自动分类或聚类
    • 数据库创建与维护
    • 依据上述步骤形成的有序信息一般以数据库的形式存储在检索系统
    • 常见的数据库有文献型数据库和非文献型数据库
      • 文献型数据库包括书目(如索引、文摘等)和全文数据库,它们的设计与实现流程也各不相同;
      • 非文献型数据库包括指南数据库(如人物传记、公司名录、机构指南数据库等)、数值数据库和图像数据库以及术语、软件等特殊类型的数据库

    (三)信息检索各功能模块

    • 理解用户界面
    • 提问处理(提问加工方法很多,有菊池敏典法、逆波兰法、范式变换法等)
    • 检索匹配
      • 检索匹配过程涉及数学算法模型的应用有很多信息检索模型,重点要掌握的是经典模型     
      • 经典模型包括布尔检索模型,向量空间模型,概率模型

    (四)知识组织工具(作用)

    • 表达:信息资源特征,及用户信息需求
    • 组织:以达到资源的系统化和有序化
    • 控制:对标引、检索过程中使用到的术语、词汇 或某些特征进行规范与协调
    • 关联:知识之间的相关性得到明确表征并能够被 机器理解处理

    (五)信息检索系统结构实例分析

     

    图书馆数目检索系统

    搜索引擎

    知识图谱

    信息选择与采集

    采访部门负责选择,采集以购买为主

    爬虫为主

    依据前期设计好的知识建模进行

    信息描述与标引

    外部特征获取+描述为结构化数据,MARC作为信息描述标准;内容特征多以整本书为单位进行,而且以人工标引为主,依据中图法、汉语主题词表进行

    半结构化或非结构化,信息特征难以获取,更多采用自动标引,需要更多技术的支撑,例如文本分析、自然语言处理等

    采用知识建模的方式进行,可能使用到RDF等资源描述框架及本体等知识建模工具,通过实体和关系自动/人工抽取完成知识关联构建

    索引与数据库

    传统为MARC磁带,现多存储在关系型数据库,索引功能比较完善

    自动构建文本索引,数据库类型也很多样,可能是文档,也可能是关系型数据库或者NoSQL的数据库

    知识图谱多存储在图数据库中,类型RDF三元组能够支持网状结构的查询

    信息检索模块

    多以检索点入口限制检索+布尔逻辑检索为主的检索词检索,分类浏览及检索也是常用的

    需要更多结果处理的功能,布尔操作、模糊查询、分组查询等,更重视排序的处理

    语义查询方式,并重视知识推理和自动问答等的应用

    4 信息采集(这里没有具体程序噢~)

    信息检索系统将在信息采集的基础上进行信息描述、标引、索引及数据库构建,因此采集结果的存在形式至关重要:

    • 结构化(数据):按一定属性规则排列的(二维表是最常见形式)
    • 非结构化:所有格式的文本、图片、音频/视频信息
    • 半结构化:介于二者之间的,具有一定结构,但语义不够确定

    5 信息描述(重点)

    (一)理解信息描述

    • 信息描述:信息著录、信息编目
    • 定义:根据特定的信息管理规则和技术标准,将存在于某一物理载体上的信息资源的外在特征与部分内容特征进行选择、描述与给予记录的过程
    • 结果:一条由多个描述项目构成的关于该信息资源的数据
    • 应用:传统印刷载体文献;对于网络上各类型数字化信息而言,内外特征不容易区分,所有对信息特征进行反映的过程都可以看作信息描述
    • 作用
      • 识别:个别化描述,区别其他信息
      • 选择:通过特征判断资源利用价值,决定是否选择
      • 检索:描述数据中的检索点之间的逻辑匹配给用户提供查检途径及二次筛选依据
      • 定位:传统文献排列位置、数据库位置、网络地址等

    (二)传统文献信息描述

    • 图书馆信息管理以馆藏文献为主,常见文献包括图书、期刊、古籍等
    • 传统文献信息描述主要依据ISBD国际标准书目著录展开,最终描述结果是图书馆书目卡
    • 目标:标准书目国际交流,实现资源共享三统一:著录格式/描述项目/描述符号);从不同的可交换数据源中生成数据,以便国家间的交流;有助于克服语言障碍,以便国家间的相互解释;有助于将书目数据转换为机器可读形式

    MARC(机读目录)

    • 定义:一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录;一次输入,多项检索;输出多种载体的款目;网上传输,可实现合作编目和联机检
    • 局限:标准复杂;需要专用平台,不能跨平台操作;描述内容多为书目;仅限于数据描述部分,管理信息较少,不适合计算机环境下日益增多的需求。
    • 基本格式:每一条记录都由四个部分构成
      • Leader(记录头标区):固定为24字符,记录计算机处理所需参数,如记录长度、记录状态、执行代码等
      • Directory(地址目次区):每一字段的长度和起始位置,由计算机自动生成
      • DataFields(数据字段区):各种描述数据
      • 记录分隔符(由计算机给出):记录结束符
    • 数据字段
    • 数据字段区划分成10功能块,每个功能块又包含若干字段和子字段,其中6XX功能主要使用分类法和主题法(词)的方式表达信息内容特征。
    • 标识符号(三类)
      • 标识符:字段标识符(3位数字,如205表示版本项)、子字段标识符(两个字符,第一个字符为“$”,第二个字符可以是数字或者字母,如200字段的“$a”表示正题名)
      • 指示符:两位数字或者字母组成,提供附加信息
      • 分隔符:自动生成

    (三)数字化信息描述

    元数据

    定义:关于数据的数据或关于数据的结构化数据。描述一个具体的资源对象并能对这个对象进行定位、管理且有助于它的发现与获取的数据

    类型分类

    • 描述信息资源领域:书目、档案、政府出版物、地图等
    • 描述文献对象分:传统文献资料;数字化信息资源
    • 信息资源作用或功能分(CLC)【使用范围】:
      • 描述性:支持资源的发现和鉴别,如题名、作者等书目数据(主要用于检索系统检索入口和结果筛选
      • 管理性:用以维护和管理资源的数据,如创建者数据、存取权限数据、数据处理技术数据等(主要用于检索系统的管理,以及动态特征的变化演示等)
      • 结构性:描述数字化资源内部的形式特征,如目录、段落和章节,页面间的跳转数据(用于检索系统相关资源的跳转
      • 标准的构成:描述某类资源的具体对象时所有规则的集合(标准一般包括了完整描述一个具体对象时所需要的数据项集合,各数据项语义定义,著录规则和计算机应用时的语法规定
    • 常用元数据标准
      • 描述一般信息的元数据:MARC(书目数据)、DC(网络资源)和TEI(电子文本)
      • 描述特殊信息的元数据:EAD(档案信息)、GILS(政府信息)、CGDGM(地理信息)
      • 描述图像信息的元数据:CDWA(博物馆艺术作品)和VRACore(可视化文化作品及图像资源)
    • 元数据互操作
      • 多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索
      • 利用特定转换程序对不同元数据元格式进行转换,称为元数据映射
      • 目前已有大量的转换程序存在,供若干流行元数据格式之间的转化

    (四)信息描述需要注意的问题

    • 检索系统信息描述应根据资源特征和检索用户检索需求设计信息描述的标准
    • 兼顾不同资源的特性同时又要能最大程度地实现各类资源在发现和获取方法上的一致性,即从功能数据结构格式语义语法等诸多方面保持一致以实现不同系统之间的互操作和共享

    6 信息标引(重点)

    (一)信息标引的目的

    • 信息标引定义:采用一个或若干信息标识(词语或者代号)表示或替代信息内容特征的过程。揭示与标引形成的标识和代码不仅是信息存入信息系统的依据,也往往是信息检索的途径,如分类号、主题词、关键词等
    • 标引类型
      • 标引主体:人工标引和自动标引
      • 标引标识的不同形式:分类标引和主题标引
      • 标识是否规范控制:受控标引和非控标引(自然语言标引)

    (二)信息标引的方法

    标引分类

    • 人工受控标引
    • 转换标识:受控标引的标识必须来自受控分类表(分为等级体系分类和分面分类)或者受控词表(知识组织工具),即经过规范控制的标识,有时还需要进行概念之间的组配。
    • 自然语言自动标引
    • 汉语分词问题——歧义
      • 交集型歧义:结合成分子;我研究生期间是研究生物的
      • 组合型歧义:请把手拿开

    常见的中文分词方法

    • 基于规则的分词方法(机械分词方法、基于字典)
      • 三个要素:分词词典、文本扫描顺序、匹配原则
      • 扫描顺序:正向扫描、逆向扫描和双向扫描
      • 匹配原则:有最大匹配、最小匹配、逐词匹配和最佳匹配。
    • 基于统计的分词方法
      • 对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息(紧密程度);当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词
      • 例如:N元文法模型(N-gram)、隐马尔可夫模型(HMM)、最大熵模型(ME)、条件随机场模型(CRF)等
    • 基于语义的分词方法
      • 对自然语言自身的语言信息进行更多的处理
      • 例如:扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等
    • 基于理解的分词方法
      • 基本思想:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象

    标引标识

    三个要素:分词子系统、句法语义子系统、总控部分。

    • 词典分词
    • 单汉字标引
    • 从分词结果到标引标识

    不是所有词都直接转换为标引标识

    词频:词在文献中出现的次数(一篇,一类文档)

    词性:名词常是有意义的

    逆文本档频率:在所有文档中统计词的频率

    位置:论文篇名,摘要,正文出现的词

    加权:词的权重

    • TF-IDF
    • TF:表示词条在当前文档中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件,公式=在某一类中词条出现的次数/该类中所有的词条数目
    • IDF:逆文件频率,公式=log⁡(语料库的文档总数/(包含词条w的文档树+1))

    应用场景:标引词的选择,自动标签生成/文档相似度的计算/文本聚类/自动文摘/SEO

    (三)信息标引和信息检索结果

    信息标引标识的数量

    信息标引标识是否受控

    信息标引标识粒度

    不同语种的处理差异

    7 信息存储(重点)

    (一)理解资源库

    概念:关系型数据库

    (二)理解索引

    索引由来

    索引组成的基本单位是索引款目,所有索引款目实现有序化编排

    款目一般包括索引词、说明或注释语、出处 3项内容

    本质特征是只揭示内容出处或文献线索,并不直接提供事实、资料本身。主要功能是为人们准确、迅速地获得文献资料提供线索性指引

    关系型数据库索引

    索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构

    索引有不同类型:普通索引、唯一索引、主键索引、全文索引等等

    索引将非结构化数据按照规则提取信息,重新组织,使其有一定结构

    全文索引

    创建索引:获得文件——构建文档对象——分析分档(分词)——创建索引

    查询索引:用户查询接口——创建查询——执行查询——渲染结果——(用户查询接口)

    (三)倒排索引及构建

    顺序和倒排含义:倒排(逆向)对应的是顺序(正排/正向)

    倒排索引的创建流程

    收集需要索引的文档

    将每篇文档转换为一个个词条(token):自然语言分词

    进行语言学预处理,产生归一化词条作为词项

    对所有文档按照其中出现的词项建立倒排索引

    词条问题的解决

    词条归一化隐式地建立等价类,例如去掉连字符;维持多个非归一化词条之间的关联关系,例如手工建立同义词表,参见后面的单词词典(所以可以知道汉语主题词表等受控词表的作用)

    词干还原stemming和词形归并lemmatization

    单词词典

    • 单词词典是由文档集合中出现过的所有单词构成的字符串集合。
    • 单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
    • 单词词典是倒排索引中非常重要的组成部分,它是用来维护文档集合中所有单词的相关信息,同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。
    • 在支持搜索时,根据用户的查询词,去单词词典里查询,就能够获得相应的倒排列表。对于一个规模很大的文档集合来说,可能包含了几十万甚至上百万的不同单词,快速定位某个单词直接决定搜索的响应速度,所以需要很高效的数据结构对单词词典进行构建和查找。

    数据结构

    常用的数据结构包含哈希加链表树形词典结构

     

     

    展开全文
  • 概念模型及表示

    万次阅读 2021-10-25 12:34:50
    概念模型及表示 前言 这里是 数据库系统原理 系列文章,主要介绍数据库系统理论以及数据库实用技术。 数据库技术是计算机学科中的一个重要分支,它的应用非常广泛,几乎涉及...概念模型是对信息世界的管理对象、属性及

    概念模型及表示

    前言

    这里是 数据库系统原理 系列文章,主要介绍数据库系统理论以及数据库实用技术。
    数据库技术是计算机学科中的一个重要分支,它的应用非常广泛,几乎涉及所有的应用领域。

    关于作者:

    • 小白(Libra),计算机兴趣爱好者,Java,python,C,Hadoop,MySQL
    • Email : hewei20031009@163.com
    • GitHub : https://github.com/Regel-zack

    转载请注明出处

    正文

    什么是概念模型?

    概念模型是对信息世界的管理对象、属性及联系等信息的描述形式。

    • 注意:概念模型不依赖于计算机及数据库管理系统。

    信息的三种世界

    现实世界

    信息的现实世界指的是要管理的客观存在的各种事物、事物之间的相互联系及事物的发生、变化过程

    实体

    现实世界中存在的可以相互区分的事物或概念称为 实体(Entity)
    其中,概念会与其他概念互相排异,独立,而实体不仅会和其他概念排异,还会和同概念的其他实体排异

    特征

    每个实体都有属于自己的特征(Characteristic),利用实体的特征可以区别不同的实体

    实体集

    具有相同特征的实体的集合成为实体集(Entity Set)

    信息世界

    信息

    现实世界中的事物反映到人们的脑海里,经过认识、选择、命名和分类等综合分析而形成了印象和概念,从而得到了信息(Information)

    信息模型

    信息世界通过概念模型(也就是信息模型)、过程模型和状态模型反映现实世界,它要求对现实世界中的事物、事物间的联系和事物的变化情况准确、如实、全面地表示

    计算机世界

    信息世界中的信息,经过数字化处理形成了计算机能够处理得数据,就进入了计算机世界。

    数据项

    对象属性的数据表示叫做数据项(Item

    记录

    实例的数据表示叫做记录(Record)

    文件

    对象的数据表示,同类记录的集合叫做文件(File)

    数据模型

    现世界中的事物反映到计算机世界中就形成了文件的记录结构和记录,事物之间的相互联系就形成了不同文件间的记录的联系。记录结构及其记录联系的数据化的结果就是数据模型(Date Model)

    概念模型

    数据库的概念模型也称信息模型

    对象和实例

    对象是实体集遵循其实体型抽象的结果。现实世界中,具有相同性质的抽象事物称为对象(Object),对象实体集信息化(数据化)的结果。对象中每一个具体的实体的抽象为该对象的实例(Instance)

    属性

    实体的某一方面特征的抽象表示称为属性(Attribute)

    能够唯一标识一个实体的称为码(Key),也称为关键字。

    次码

    实体集中不能唯一标识实体属性的叫次码(Secondary Key)
    主码值和实例是一一对应的,而次码值则会对应多个实例。

    属性的取值范围称为属性的域(Domain)

    展开全文
  • 到底什么是文件描述符???

    千次阅读 多人点赞 2021-10-28 10:10:51
    文件描述符1、文件描述符的引入1.1 系统调用接口的引入1.2 文件描述符2、文件描述符2.1 演示文件描述符2.2 文件描述符的返回值2.3 文件描述符底层原理(重点)2.3 文件描述符修饰规则3、总结 1、文件描述符的引入 ...
  • 数据库分析之概念结构设计

    万次阅读 多人点赞 2018-07-01 23:54:56
    概念结构设计:将需求分析得到的用户需求抽象为信息结构(即概念模型)的过程。 一、概念模型 在需求分析阶段所得到的应用需求应该首先抽象为信息世界的结构,然后才能更改、更准确地用某一数据库管理系统实现...
  • 概念模型的简单介绍

    千次阅读 2020-07-06 16:43:32
    1.1信息世界中的基本概念 (1)实体:客观存在并可相互区别的事物,例如:一个职工、一个学生、一个部门等。 (2)属性:实体所具有的的某一特性,一个实体可以由若干个属性来刻画。例如:学生的实体可以由学号、...
  • 算法的概念及其特性

    千次阅读 2020-09-07 14:25:43
    算法就是解决这个问题的方法和步骤的描述。 所谓机械步骤,是指算法中有待执行的运算和操作,必须是相当基本的。 2.算法的组成要素 算法由操作、控制结构、数据机构3要素组成。 2.1操作 算术运算:加、减、乘、除。 ...
  • from:http://www.cnblogs.com/fantasy01/p/4581803.html?utm_source=tuicool and参考:周志华《机器学习》 ... 关于对信息、熵、信息增益是信息论里的概念,是对数据处理的量化,这几个概念主要...
  • 数据库建模三步骤:概念模型

    千次阅读 2021-02-04 22:58:34
    1.概念模型的表示方法E-R图主要是由实体、属性和联系三个要素构成的。在E-R图中,使用了下面四种基本的图形符号。2.确定系统实体、属性及联系系统分析阶段建立数据字典和数据流程图->建立概念模型->逻辑模型-&...
  • 设备描述概念及使用

    千次阅读 2016-09-01 15:13:29
    设备描述概念及使用 1设备描述表概述  当Windows要在显示器或其他设备上绘制图形或文本时,其不像DOS系统把图像和文本直接输出到硬件,而是使用一个设备描述表来替代硬件设备的逻辑表示。  设备描述表(Device ...
  • 计算机网络基本概念

    千次阅读 2020-02-10 20:51:43
    一、计算机网络概念、组成、功能和分类 计算机网络的概念 计算机网络:是一个将分散的、具有独立功能的计算机系统,通过通信设备与线路连接起来,由功能完善的软件实现资源共享和信息传递的系统 ...
  • 数据库 - 概念结构设计

    万次阅读 2015-05-08 10:15:46
    将需求分析得到的用户需求抽象为信息结构即概念模型的过程就是概念结构设计 概念结构是各种数据模型的共同基础,它比数据模型更独立于机器、更抽象,从而更加稳定 概念结构设计是整个数据库设计的关键 概念结构...
  • 数据库的概念模型

    万次阅读 2017-11-04 09:24:57
    (1)定义:现实世界到信息世界的第一层抽象,确定领域实体属性关系等。 (2)表示方式:E-R图。   2、逻辑模型: (1)定义: a、将概念模型转化为数据模型。 b、根据选定的DBMS
  • Elasticsearch基本概念

    万次阅读 多人点赞 2022-03-09 15:04:44
    本文主要是对ES基本概念进行整合,理论先行,夯实对ES的基本概念,在知道“是什么”,才能提高学习效率,保姆级学习教程请移步: ES入门笔记. 一、前文介绍 Elasticsearch(简称ES)是一个基于Apache Lucene™的...
  • 面向对象的基本概念

    千次阅读 2021-08-02 05:19:12
    面向对象的基本概念来源:信管网2018年07月20日 【所有评论】面向对象的基本概念包括对象、类、抽象、封装、继承、多态、接口、消息、组件、复用和模式等。(1)对象:由数据及其操作所构成的封装体,是系统中用来描述...
  • 将需求分析得到的用户需求抽象为信息结构(即概念模型)的过程就是概念结构设计。 特点: 能真实、充分地反映现实世界,是现实世界的一个真实模型。 易于理解,从而可以用它和不熟悉计算机的用户交换意见。 易于...
  • 数据库设计之概念结构设计

    千次阅读 2021-12-31 11:46:43
    将需求分析得到的用户需求抽象为信息结构(即概念模型)的过程就是概念结构设计 概念模型的特点 (1)能真实、充分地反映现实世界,是现实世界的一个真实模型。 (2)易于理解,从而可以用它和不熟悉计算机的用户...
  • 数据库技术-数据库概念设计

    千次阅读 2021-07-19 11:26:37
    数据库概念设计 一个设计良好的数据库,在很大程度上决定了系统的成功与否。 概念设计是数据库设计的核心环节。通过对用户需求进行综合、归纳与抽象,形成一个独立于具体DBMS的概念模型。 1、数据库概念设计的...
  • 中断的基本概念

    千次阅读 2019-12-01 15:08:06
    概念: 程序执行过程中CPU会遇到一些特殊情况,是正在执行的程序被“中断”,cpu中止原来正在执行的程序,转到处理异常情况或特殊事件的程序去执行,结束后再返回到原被中止的程序处(断点)继续执行 程序执行被...
  • 前面的两篇博客分别介绍了概念数据模型、逻辑数据模型以及物理数据模型和逻辑数据模型经常使用的三种数据模型,这篇博客介绍在数据库的设计过程中将概念数据模型转化为逻辑数据模型的方法,以及涉及的一些基本的概念...
  • 是对信息的一种符号表示。在计算机科学中是指所有能输入到计算机中并被计算机程序处理的符号的总称。如图象、声音等都可以通过编码而归之于数据的范畴。 2、数据元素(Data Element) 是数据的基本单位,在计算机...
  • 概念模型与数据模型

    千次阅读 2020-01-14 20:51:18
    可以是具体的人、事、物或抽象的概念。 (2) 属性(Attribute) 实体所具有的某一特性称为属性。 一个实体可以由若干个属性来刻画。 (3) 码(Key) 唯一标识实体的属性集称为码。 (4) 域(Domain) 属性的取值范围...
  • 概念验证(PoC)

    千次阅读 2019-03-08 16:15:55
    概念验证(英语:Proof of concept,简称POC)是对某些想法的一个较短而不完整的实现,以证明其可行性,示范其原理,其目的是为了验证一些概念或...从概念设计到信息架构 从需求到原型,揭秘概念设计过程(一) ...
  • 数据库建模-概念模型建模(E-R图)

    万次阅读 2019-11-16 22:06:02
    目录数据库建模-概念模型建立面向对象模型与数据库关系模型两种模型的关系中间件概念数据模型(CDM)实体及属性实体属性联系一对一双向关系一对一单向关系一对多(等效多对一)多对多域(Domain )PowerDesigner建立概念...
  • 0.空间描述:位置、姿态与坐标系 ...我们可以很直观地明白一个道理,在空间中描述一个物体,单单有位置信息是不足够的,我们至少还需要一个姿态信息,所以这里就引入了姿态描述: 我们在物体上固定一个坐标...
  • 第四章 数据中心的概念

    千次阅读 2022-01-11 12:44:04
    1.数据中心的基本概念 数据中心,顾名思义就是数据的中心,是处理和存储海量数据的地方,英文全称为Data Center。用专业的名词解释,数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速...
  • 数据库概念结构设计

    千次阅读 2020-12-26 12:04:48
    将需求分析得到的用户需求抽象成信息世界的概念结构模型的过程。 概念结构是各种数据模型的基础,它比数据模型更独立于机器,更加抽象更加稳定。 概念结构设计是数据库设计的关键。 一般用ER图来描述。   概念...
  • 数据结构描述数据库的组成对象以及对象之间的联系。 2)数据库操作: 数据操作是指对数据库中各种对象的实例允许执行的操作集合,包括操作及有关操作规则。 3)数据库完整性约束条件: 数据的完整性约束条件是一组...
  • 数据仓库基本概念介绍

    千次阅读 2019-02-22 18:40:28
    2、数据仓库概念 面向主题的  集成的 随时间变化的 非易失的 3、一般架构 STAGE层  ODS层 MDS层 ADS层  DIM层 ETL调度系统 元数据管理系统 4、设计的两个重要问题 1、 粒度 2、 分区 1、数据仓库...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 692,840
精华内容 277,136
热门标签
关键字:

对于信息的概念描述