精华内容
下载资源
问答
  • 北邮,2021,大三,信息与知识获取,信息检索信息抽取,实验代码+实验报告
  • 信息检索 信息抽取 功能 从文档集合查找子文档 从文本中获取感兴趣的事实信息 处理技术 利用统计和关键词技术 借助自然语言处理技术 使用领域 与领域知识无关 借助领域知识
    信息检索 信息抽取
    功能 从文档集合查找子文档 从文本中获取感兴趣的事实信息
    处理技术 利用统计和关键词技术 借助自然语言处理技术
    使用领域 与领域知识无关 借助领域知识
    展开全文
  • 通过爬取网易云音乐每位歌手50首左右的热门歌词。根据输入的关键字,检索出相关性最高的10首歌,并能够从歌曲中抽取出歌名、演唱、作词、作曲、季节、情绪、个性化标签等结构化信息
    我的简书地址,欢迎关注:

    https://www.jianshu.com/u/524cf64f28b5

    写在前面

    首先,作者受到 《我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么》 这篇文章的影响,加上自己也是一个音乐爱好者,所以决定做一个网易云热门歌手歌词信息检索与信息抽取系统。

    通过爬取 网易云音乐 60位热门歌手,每位歌手50首左右的热门歌词。根据输入的关键字,检索出相关性最高的10首歌,并能够从歌曲中抽取出歌名、演唱、作词、作曲、季节、情绪、个性化标签等结构化信息。

    实现思路(非技术人员可以跳过此小节)

    (1) 爬取歌词信息,生成文档数据集;
    (2) 对所有文档进行分词处理;
    (3) 构造“词-文档流”倒排索引;
    (4) 利用向量空间模型技术,检索出相关度排名前十的歌曲;
    (5) 分析歌词数据,从歌词中抽取出有效的结构化信息;
    (6) 搭建B/S系统,进行结果展示。

    流程图

    实现环境(非技术人员可以跳过此小节)

    (1)操作系统:Windows10 x64
    (2)后端:Anaconda3(64-bit),Python3.6,Flask框架
    (3)前端:HTML,CSS,JavaScript,JQuery,BootStrasp,Chrome

    好了,进入正题,预备,开始……

    我把目标锁定在网易云音乐热门的华语男歌手、华语女歌手以及华语组合/乐队,每一类爬取20个热门歌手,这样我就有了60位歌手的信息。
    网易云歌手 爬取的歌手个人信息

    有了歌手信息,我就可以爬取歌手的歌曲了,每个歌手大概都可以爬取50首左右,因此最终我获得了2837首歌曲。
    爬取歌词过程 结果1
    结果2
    我们以周杰伦的歌曲为例,看一下爬取的结果。
    周杰伦歌曲 告白气球

    有了这些数据,按照实现思路,就可以搭建信息检索与信息抽取系统了。(非技术人员可以跳过此小节)

    (1)使用“jieba”中文分词库对歌词数据进行分词处理;
    (2)计算每首歌词中每个词的TF-IDF值,构建字典集;
    (3)在用户输入后,构建查询向量,利用向量空间模型,计算查询向量和文档向量的相似度,取排序前十名的歌曲;
    (4)进行结构化信息抽取,抽取出歌曲的歌名、演唱、作曲、作词、季节、情绪,个性化标签;
    (5)搭建B/S展示系统,在web端接收用户输入,并将检索和抽取结果在web端显示,使用Flask进行前端和Python后端数据交互。

    网易云热门歌手歌词信息检索与信息抽取系统

    展示系统做的有些简单,欢迎各位吐槽。首先,进入主界面:
    主界面

    我们在检索框中输入想要检索的内容。比如,我们输入“确认过眼神,才能够遇到对的人”,点击检索一下,就可以得到检索结果:
    检索结果
    如图,检索框那一行显示的是检索时间为2.4秒,下面列出按相似度得分从大到小排序的前10篇歌词文档,包括排名、歌曲名、演唱歌手以及相似度得分。同时,每一个歌曲名是一个链接,可以点击。

    以点击排名第一的歌词文档《醉赤壁》链接为例,跳转链接:
    醉赤壁
    左侧显示的是《醉赤壁》这首歌的歌词内容,右侧显示的是抽取的结构化信息。

    观察左侧的歌词:
    醉赤壁歌词
    这些红色框中的歌词“确认过眼神 我遇上对的人”与我们的输入“确认过眼神,才能够遇到对的人”不完全相同,但还是检索了出来,说明与我们想要检索的内容相关性较高。

    观察右侧抽取的结构化信息:
    醉赤壁抽取的结构化信息
    我们发现,歌词中并没有出现有关“秋天”的字样,但是还是提取出了季节为秋天这个信息。而《醉赤壁》这首歌描述的正是秋天的景象,这说明我们系统有较强的信息抽取能力。同时,我们给这首歌计算了一个情绪值,为-4,表示这首歌是有点负面的。通过对歌词的分析,发现这首歌的气氛是比较凄凉的,所以我们的抽取还是很准确的。但是,在抽取个性化标签时,第一个标签“情极”貌似不是一个词。当然,这个取决于“jieba”中文分词库,它把“情极”作为了一个词。因为它在这首歌的出现率还是很高的,所以作为了个性化标签。如果分词的结果更准确一些,我们的提取也将更准确。

    总结

    本次分析使用了一些机器学习及自然语言处理(NLP)的知识。由于本人是研究图像处理的,对NLP也是初次尝试,加之时间有限,做得稍微粗糙了一些,如有错误欢迎指正。

    最后的最后,喜欢的可以加一波关注哦~
    展开全文
  • 自然语言处理NLP之文本摘要、机器翻译、OCR、信息检索信息抽取、校对纠错 目录 自然语言处理NLP之文本摘要、机器翻译、OCR、信息检索信息抽取、校对纠错 文本摘要 机器翻译 OCR 信息检索 信息抽取 校对...

    自然语言处理NLP之文本摘要、机器翻译、OCR、信息检索、信息抽取、校对纠错

    目录

    自然语言处理NLP之文本摘要、机器翻译、OCR、信息检索、信息抽取、校对纠错

    文本摘要

    机器翻译

    OCR

    信息检索

    信息抽取

    校对纠错(correction)


    文本摘要

    人类很难手动汇总大型文本文档。文本摘( text summarization)要是NLP为源文档创建简短、准确和流畅的摘要问题。文本摘要有两种基本方法:提取和抽象。前者从原始文本中提取单词和单词短语以创建摘要。后者是学习内部语言表示以生成更像人类的摘要,解释原始文本的意图。提取摘要的方法是通过选择子集来工作。这是通过从实际文章中提取短语或句子以形成摘要来完成的,LexRankTextRank是众所周知的摘要总结,它们都使用了Google PageRank算法的变体。抽取式文本摘要,尽管有其优点,但也可能有着生成摘要不连贯、字数不好控制、目标句主旨不明确等缺点,甚至可以说,其摘要好坏取决原文。而生成式文本摘要就没有这样的问题,因为生成式文本摘要是一个端到端的过程,这种技术方案,趋同于翻译任务和对话任务,从而可以吸收、借鉴翻译任务和对话任务的成功经验,目前的主要成果集中在深度学习领域,例如FacebookGoogleIBM都开发了基于深度学习的文本摘要模型。

    机器翻译

    机器翻译是NLP的重要领域。机器翻译涉及语言的理解和生成。早期的翻译系统都是规则翻译,没对语种都要花费大量的人力资源去编写规则。后来IBM提出了统计翻译,通过大量的双语平行句对训练统计翻译模型。统计翻译通过翻译概率、语言模型、调序模型来进行翻译的拼接、调序和打分等操作。人类在做中英文翻译的时候,首先会理解中文句子表达的意思,然后在以英文的形式表达出来。神经网络机器翻译采用类似的思想,后弦使用编码器(Encoder)将中文句子编码为一个特征向量,然后再利用一个解码器(Decoder)将这个特征向量转化为英文句子。

    OCR

    OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储OCR通过算法识别出图像中的文字内容,也算是图像识别的一个分支。OCR 对纯文本的识别已经比较成熟,识别率普遍可以达到 90%以上,百度、阿里、腾讯等各大厂都有相应的服务可以直接调用

    信息检索

    信息检索(Information Retrieval)从文档集中找到相关的文档。用户必须从找到的文档中翻阅自己所要的信息例如,从googlebaidu等搜索引擎中检索信息,从Elsevier中检索论文数据,在本地私有的ElasticSearch系统中检索数据等等。信息检索的关键问题包括:Crawling、内容表示 Representation、数据索引 Indexing、相似度计算 Retrieval、系统评价 Evaluation(照样是查准率和查全率)等。

    信息抽取

    信息抽取(Information extraction, IE) 把文本里包含的信息进行结构化处理,变成表格一样的组织形式。例如:从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方、治疗结果等等信息抽取的研究问题包括:命名实体识别(Named Entity Recognition),识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等关系抽取,确定实体之间的关系,包括隐含的关系和明确的关系。

     

    校对纠错(correction

    自动纠错在搜索技术以及输入法中应用的比较多。由于用户的输入出错的可能性比较大,出错的场景也很多。所以,我们需要一个纠错系统。具体的做法有许多种,可以基于N-Gram进行纠错,也可以通过字典树、有限状态机等方法进行纠错。输入法中的拼写检查(spell correction属于纠错的经典场景。

     

     

    展开全文
  • 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于...
     
    

            结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。

         点击下载全文

         CNKI全文链接:http://www.cnki.com.cn/Article/CJFDTOTAL-JYRJ201010039.htm

    展开全文
  • 信息检索复习笔记

    万次阅读 2020-12-17 17:14:46
    信息检索复习 第一讲 搜索 IR(信息检索是什么样的学科): 实质上是融合了文本及多媒体检索、数据挖掘、机器学习和自然语言处理的综合学科 为什么要进行信息检索信息过载 搜索 搜索的过程 从大规模非结构化数据...
  • 文章目录基本介绍一、传统信息抽取关键词抽取关键句子抽取二、深度学习信息抽取总结 基本介绍 信息抽取 (Information Extraction) 是把文本中包含的信息进行结构化处理,变成表格一样的组织形式。 信息抽取的...
  • 175、商城业务-检索服务-检索查询参数模型分析抽取 176、商城业务-检索服务-检索返回结果模型分析抽取 177、商城业务-检索服务-检索DSL测试-查询部分 178、商城业务-检索服务-检索DSL测试-聚合部分 ...
  • “语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。 pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存...
  • 第四章 信息检索原理与技术 4.1 信息检索的概念 信息检索是指从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索有广义、狭义之分 • 广义信息检索信息存储与检索两个过程。 • 狭义信息检索:仅指从...
  • 信息检索专题复习

    万次阅读 2017-06-20 16:06:49
    信息检索复习重点,山东大学信息检索考前独家整理资料。
  • 文章目录信息的含义信息的特征信息的功能信息的类型互联网对信息的影响网络环境下信息的新特点信息检索的原理信息检索的类型信息检索的意义/作用信息检索的历程信息检索系统信息检索方法信息检索效果影响信息检索...
  • 信息抽取——关系抽取

    千次阅读 2020-03-14 20:53:56
    向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx简介信息抽取(information extrac...
  • 信息组织与检索 知识点整理 1.信息检索技术与方法 2.信息检索系统结构和功能模块 3.信息组织(信息采集,信息描述,信息标引,信息存储) 有点像知识点,事实上就是知识点,能举例的已经举例了,我尽力了。。 (会有...
  • 信息检索模型

    万次阅读 多人点赞 2017-09-23 10:11:28
    检索模型搜索结果排序是搜索引擎的核心,排序时最重要的两个因素就是:用户查询和网页的内容相关性及网页链接情况。 检索模型就是用来计算内容相关度的理论基础及核心组件。 一个典型的检索模型通常由三部分组成:...
  • 信息抽取

    千次阅读 2007-01-08 15:33:00
    网上信息抽取技术纵览Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3) 第一章 导论 信息抽取(Inf
  • 有一篇比较全的综述 信息检索的评价指标 多标签图像分类任务的评价方法-mAP 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC Learning to Rank for IR的评价指标—MAP,NDCG,MRR 信息检索的...
  • 网上信息抽取技术纵览

    千次阅读 2014-06-18 22:11:03
    网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey) Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3) 第一章 导论    信息抽取(Information Extraction: IE)是把文本里...
  • 信息抽取研究综述

    千次阅读 2007-03-16 13:28:00
    信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前
  • 那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:事件抽取(三元组)观点抽取“语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文...
  • scrapy+Lucene搭建小型搜索引擎(现代信息检索大作业)

    万次阅读 多人点赞 2016-05-22 22:51:12
    定向采集 3-4 个新闻网站, 实现这些网站信息抽取、索引和检索。网页数 目不少于 10 万条。能按相关度、时间、热度 (需要自己定义) 等属性进行排序, 能实现相似 新闻的自动聚类。 要求: 有相关搜索推荐、snippet...
  • 产品信息抽取

    千次阅读 2009-06-09 09:09:00
    Internet上充斥着大量的网上商店和各种各样产品信息,能够准确自动的抽取这些网络上的产品信息可以服务于大量的应用程序,例如:为垂直搜索引擎提供结构化得检索结果或者为提供同类产品之间对应指标之间的比较 图一...
  • 智能信息检索 最近看了超星上的微软关于搜索引擎和信息检索技术的一个课程:《智能信息检索》,这篇博文用于记录一些重点内容,详细课程可以去看raw video。 1 search engine overview——system,algorithms and ...
  • 文本信息抽取信息检索、智能问答、智能对话等人工智能应用的重要基础,它可以克服自然语言非形式化、不确定性等问题,发掘并捕获其中蕴含的有价值信息,进而用于文档智能审核、知识库及知识图谱构建、流程自动化等...
  • 《现代信息检索导论》课程梳理

    千次阅读 2018-11-30 21:11:18
    什么是信息检索? 一个文本检索系统是怎样的? 一、分词 二、索引 1.索引怎么得来: 2.构建索引: 3.怎么查询: 4.索引压缩: 5.索引的解压 三、评分 那么怎么来评分呢? 四、反馈 1.相关反馈: 2.查询...
  • 第8章 信息检索的评价 无序检索结果集合的评价 正确率(Precision,简记为P)是返回的结果中相关文档所占的比例,而召回率(Recall,简记为R)是返回的相关文档占所有相关文档的比例。一个融合了正确率和召回率的...
  • 常用的检索算法有根据余弦相似度进行检索,Jaccard系数,海灵格-巴塔恰亚距离和BM25相关性评分。 (1)余弦(cosine)相似度,用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦...
  • 信息检索-搜索引擎的搭建(Lucene)

    千次阅读 热门讨论 2017-05-19 12:42:38
    搜索引擎为信息检索课程的实验设计,爬取山东大学新闻网,使用lucene等开源工具搭建小型搜索引擎。要求 : Web网页信息抽取 以山东大学新闻网为起点进行网页的循环爬取,保 持爬虫在 view.sdu.edu.cn之内(既...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 32,931
精华内容 13,172
关键字:

信息检索抽取