精华内容
下载资源
问答
  • 对于各种任务,例如文本分类、无监督主题建模和问题回答等,不断的在刷新业界最佳。其中,最伟大的发现之一是在神经网络结构中采用了注意力机制。这种技术是所有称为transformers的网络的基础。他们应用注意力机制来...


    转载来源:https://mp.weixin.qq.com/s/cyNcVNImoCOmTrsS0QVq4w

    导读:使用不同的方式来使用BERT模型。

    alt
    在NLP中不断的研究产生了各种各样的预训练模型。对于各种任务,例如文本分类、无监督主题建模和问题回答等,不断的在刷新业界最佳。其中,最伟大的发现之一是在神经网络结构中采用了注意力机制。这种技术是所有称为transformers的网络的基础。他们应用注意力机制来提取关于给定单词上下文的信息,然后将其编码到一个学习到的向量中。

    作为数据科学家,我们可以调用很多transformers架构,并使用它们对我们的任务进行预测或微调。在这篇文章中,我们喜欢读经典的BERT,但是同样的推理也适用于其他所有的transformer结构。我们使用了siamese结构,这是一个双路BERT,用于多文本输入的分类。

    数据

    我们从Kaggle上收集数据集。新闻类别数据集:https://www.kaggle.com/rmisra/news-category-dataset包含从HuffPost上获得的2012年至2018年的约20万条新闻标题。我们需要根据两种不同的文本来源对新闻文章进行分类:标题和简介。我们总共有40多种不同类型的新闻。为了简单起见,考虑到工作流的计算时间,我们只使用了8个类的一个子组。

    我们不应用任何预处理和数据清洗,我们让BERT表演所有的魔法。我们的工作框架是TensorflowHuggingface的transformer库。更详细地说,我们使用了原始的Bert模型transformer,它的输出就是原始的隐藏状态,没有任何特定的头。它可以像Tensorflow模型的子类一样访问,并且可以很容易地在我们的网络架构中进行调优。

    单个BERT

    作为第一个竞争者,我们引入了单个BERT的结构。它只接收一个文本输入,这是两个文本源拼接的结果。这是正常操作:任何模型都可以接收拼接起来的特征作为输入。对于transformers,这个过程将输入与特殊tokens结合起来。

    BERT期望输入数据以特定的格式:有特殊的tokens来标记句子/源文本的开头([CLS])和结尾([SEP])。与此同时,tokenization包括将输入文本拆分为词汇表中可用的tokens列表。对词汇表外的单词进行word-piece的处理,一个单词被逐步分解为子单词,这些子单词是词汇表的一部分。该过程可以通过预先训练好的Huggingface的Tokenizer轻松实现,我们只需要注意填充。

    我们最后从源文本的输入中得到了三个矩阵(标记、掩码、序列id)。它们是我们的transformers的输入。在单个BERT的情况下,我们只有一个矩阵的元组。这是因为我们同时将两个文本序列传递给我们的tokenizer,这两个文本序列被自动拼接起来(使用[SEP] token)。

    我们的模型结构非常简单:transformer直接与我们在上面构建的矩阵相连接。最后,通过平均池操作减少了transformer的最终隐藏状态。概率分数是由最终的dense层计算出来的。
    alt
    我们的简单BERT对测试数据的准确率达到83%。性能报告在下面的混淆矩阵中。
    alt

    双路BERT

    我们的第二个结构可以定义为双路BERT,因为它使用了两个不同的transformers。他们有相同的组成,但训练用不同的输入。第一个接收新闻标题,另一个接收简介。输入被编码为两个矩阵元组(token, mask, sequence ids),每个输入一个。对于两个数据源,我们的transformers的最终隐藏状态都使用平均池来聚合。它们被拼接起来,并通过一个全连接层传递。
    alt
    通过这些设置,我们可以获得测试数据84%的准确度。
    alt

    SIAMESE BERT

    我们最后的模型是一种Siamese的结构。可以这样定义它,因为两个不同的数据源是在同一个可训练的transformer结构中同时传递的。输入矩阵与Siamese BERT的情况相同。对于这两个数据源,transformer的最终隐藏状态是通过平均操作聚合的。产生的连接在一个全连接层中传递,该层将它们组合在一起并产生概率。
    alt
    我们的siamese结构在我们的测试数据上达到82%的准确度。
    alt

    总结

    在这篇文章中,我们应用BERT结构来执行一个多类分类任务。我们实验的附加价值是使用transformers 以不同的方式处理多个输入源。我们从只有一个源中的所有输入的经典拼接结构开始,并以为模型提供分开的文本输入作为结束。双路BERT和siamese BERT都能够实现良好的性能。由于这个原因,它们可以被认为是经典的单变压器结构的良好替代品。

    英文原文:https://towardsdatascience.com/siamese-and-dual-bert-for-multi-text-classification-c6552d435533

    展开全文
  • 基于多源知识的实体链接和语义标注系统研究与实现,刘特,马跃,在大数据时代快速准确地获取有用的数据信息成为重要的问题。实体链接主要目的就是从文本中找出重要的实体,并链接到知识库中提供
  • 关于多源统一数据接入的思考

    千次阅读 2019-12-06 14:10:58
    统一数据接入 数据接入就是对于不同的数据来源、不同的合作伙伴,完成数据采集、数据传输、数据处理、数据缓存到...1.文本文件----(txt,csv)----utf-8 (踩过的坑-gbk编码和数据中换行符触发spark2.2 加载文件的bu...

    统一数据接入

    数据接入就是对于不同的数据来源、不同的合作伙伴,完成数据采集、数据传输、数据处理、数据缓存到行业统一的数据平台的过程。
    在这里插入图片描述

    大数据接入处理面临的问题

    在这里插入图片描述
    在这里插入图片描述

    数据接入的三个阶段

    在这里插入图片描述

    前期

    非结构化数据----(word,excel,图片,pdf,扫描件,视频)
    1.文本文件----(txt,csv)----utf-8
    (踩过的坑-gbk编码和数据中换行符触发spark2.2 加载文件的bug(multiline 和gbk 不能共同作用))

    2.数据库(full dump,请求接口)
    3.去ioe,集群迁徙

    数据格式,字段,内容要求:

    非结构化数据
    0. 标签,背景模板,文档说明

    结构化数据
    数据字典,ER图,数据流图,系统截图,新人入职培训说明
    1.所有文本文件要求编码格式utf8,csv 要求双引号包裹(字段中不要有回车换行)
    2.数据库full dump 给出导出脚本及日志(yiyong数据的坑----没有导出脚本,看着报错一步步推断)
    3.请求接口给出请求文档,及支持的最大并发数等指标

    中期

    针对不同的数据来源,确定数据最终存储的格式,地点

    后期

    1.数据质量核查
    2.描述性统计分析

    接入技术分析

    在这里插入图片描述

    1.数据接入手段

    1)socket方式
    c/s交互模式,传输协议采用tcp/udp
    优点:1.易于编程,java提供了多种框架,屏蔽了底层通信细节以及数据传输转换细节。2.容易控制权限。通过传输层协议https,加密传输的数据,使得安全性提高
    3.通用性比较强,无论客户端是.net架构,java,python 都是可以的。尤其是webservice规范,使得服务变得通用
    缺点:1.服务器和客户端必须同时工作,当服务器端不可用的时候,整个数据交互是不可进行。2 当传输数据量比较大的时候,严重占用网络带宽,可能导致连接超时。使得在数据量交互的时候,服务变的很不可靠
    2)ftp/文件共享服务器方式
    适合大数据量的交互,约定文件格式、命名规则。批量处理数据
    优点:
    在数据量大的情况下,可以通过文件传输,不会超时,不占用网络带宽
    方案简单,易操作
    缺点:
    实时性不强
    必须约定文件数据的格式,当改变文件格式的时候,需要各个系统都同步做修改
    3)message形式
    Java消息服务(Java Message Service)是message数据传输的典型的实现方式。
    系统A和系统B通过一个消息服务器进行数据交换。系统A发送消息到消息服务器,如果系统B订阅系统A发送过来的消息,消息服务器会消息推送给B。双方约定消息格式即可。目前市场上有很多开源的jms消息中间件,比如 使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等
    优点:
    1 由于jms定义了规范,有很多的开源的消息中间件可以选择,而且比较通用。接入起来相对也比较简单
    2 通过消息方式比较灵活,可以采取同步,异步,可靠性的消息处理,消息中间件也可以独立出来部署。
    缺点:
    1.学习jms相关的基础知识,消息中间件的具体配置,以及实现的细节对于开发人员来说还是有一点学习成本的
    2 在大数据量的情况下,消息可能会产生积压,导致消息延迟,消息丢失,甚至消息中间件崩溃。

    Flume+kafka
    Flume作为日志收集工具,监控一个文件目录或者一个文件,当有新数据加入时,收集新数据发送给Kafka。Kafka用来做数据缓存和消息订阅。Kafka里面的消息可以定时落地到HDFS上,也可以用Spark Streaming来做实时处理,然后将处理后的数据落地到HDFS上。
    Flume采集数据都是按行分割的,一行代表一条记录。如果原始数据不符合要求,需要对数据进行预处理。
    数据库文件
    1.Imp/exp方式使用dmp文件直接导入目标库
    2.sqoop 关系型数据库与hadoop生态系统(hive,hdfs)进行数据转移

    2.接入技术选择

    ETL(Extract-Transform-Load )工具:构建数据仓库
    用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去
    Apache Camel、Apache Kafka、Apatar、Heka、Logstash、Scriptella、Talend、Kettle

    展开全文
  • 是用于分析和机器学习用例的多源顺序数据的汇编器。 它旨在读取CSV文件中存储的数据。 该工具可以将多个CSV文件合并为一个JSON记录。 从JSON文件中,数据可以组合成单独的数据序列,RNN(递归神经网络)序列类型模型...
  • 代码挖掘源于文本挖掘,在网上搜索了很久,除了找到几篇论文外(基本上属于理论引用性质,没有见到什么实际成果),还没有做实践研究的案例。于是,利用八小时外,以Linux Kernel源代码为挖掘对象,进行了代码挖掘...

      

            大家好,我 消失了很久,现在又来了。最近在研究代码挖掘的那些事。代码挖掘源于文本挖掘,在网上搜索了很久,除了找到几篇论文外(基本上属于理论引用性质,没有见到什么实际成果),还没有做实践研究的案例。于是,利用八小时外,以Linux Kernel源代码为挖掘对象,进行了代码挖掘研究工作。到目前为止,进展还算顺利,做了一个小网站(http://www.icodemining.com)。

            这个网站实现了以下功能:代码的富文本显示、LOC的水平柱状图、提取代码的要素,诸如全局变量、宏定义、结构、函数、halstead、函数调用关系等。网站还在优化中,希望能坚持下去,并做大做强。







    展开全文
  • 文章来源Zamani, Hamed, Neural Ranking Models with Multiple Document Fields.18年Web Search and Data Mining(WSDM)会议上的一篇文章,主要是使用神经网络对文本进行处理,将其应用到搜索引擎检索任务之中。...

    文章来源

    Zamani, Hamed, Neural Ranking Models with Multiple Document Fields.18年Web Search and Data Mining(WSDM)会议上的一篇文章,主要是使用神经网络对文本进行处理,将其应用到搜索引擎检索任务之中。

    以下,是个人看文章的笔记,由于对神经网络还不是很了解,如有问题,还望见谅。

    文章内容


    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述

    展开全文
  • 多样性数据源在报表开发中越来越常见,润乾集算报表对多样性数据源的有效支持使得这类报表开发变得非常简单,目前集算报表支持的数据源类型除传统的关系型数据库外,还支持:TXT文本、Excel、JSON、HTTP、Hadoop、...
  • 数据:信息丰富的多源文本数据(数据来源、类型等信息暂不详述) 数据处理 数据划分 在Excel中,随机抽取数据作为训练集、测试集与验证集。具体操作:每隔3行抽取一条数据,使用以下语句实现 =IF(MOD(ROW()-2,3...
  • 这里写自定义目录标题新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一...
  • 这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、...
  • “计算传播学导论”系列文章是我在学习张伦、王成军、许小可三位老师的著作《计算传播学导论》所写的一些读书笔记和摘要内容,以此作为计算传播学的学习起源。...多源:三元世界理论把世界分为物理世界、
  • 文本文件转换编码

    2020-06-06 03:17:03
    虽然这里的代码是不影响,但是中文注释全部都乱码了,这可不好玩了,很影响对于代码的阅读,尤其是那种比较多源文件的项目。通常,我的处理方式就是,对于每一个文件,使用记事本依次另存为另一种编码或者使用...
  • 考虑到在金融领域,事件的发生经常影响在线舆论空间和真实交易空间,因此本文提出了一种基于股票交易时间序列数据和在线舆论文本多源异构信息检测方法。数据以检测股市中的热点事件。 该方法采用离群检测算法,...
  • :page_facing_up: 支持不同的文本源:文件系统文件/目录, 字符串和多源(添加!) :hammer_and_wrench: 支持文本处理器: MarkdownRemover (添加您的!) :repeat_button: 支持拼写错误的处理程序: ...
  • 数据量越来越大、数据维度越来越高(文本、图像)、多源数据越来越多 其他模型很难处理这种多源、高维数据,目前的人工智能产品中大部分都用的是神经网络模型 神经网络原理 输入层:自变量 隐藏层:中间状态...
  • ---恢复内容开始--- 分布式表示优势: 在一段文本当中,进行实体抽取:实际是在计算词汇与文档之间的相似度。 自动摘要技术:是在计算句子与文档之间的相似度。...从多源异构的文本中,依次进...
  • 提出了开源漏洞库批量下载、权威漏洞库查询、信息搜索等漏洞信息自动获取方法,对获取的XML、HTML和文本结果文件进行信息抽取,实现了漏洞信息的多源融合。
  • 通过DistanceNet-Bandits进行文本分类的多源域自适应( ) 带有显式释义的可控文本简化( ) 不带重新参数化技巧的离散变分递归主题模型( ) 使预训练的语言模型更好的学习者( ) LightXML:具有动态负采样的...
  • 针对多源异构的环境数据难以利用的问题, 在通用知识图谱的基础上, 融合各类环境数据构建环境知识图谱. 首先利用网络爬虫等获取环境数据, 并进行数据预处理; 进而利用结构化数据转化、文本抽提以及数据融合等技术, ...
  • Share-Nothing的分布式存储和计算架构异构多源数据的组织管理:实现了结构化数据、非结构化文本及非结构化多媒体的统一存储管理支持异构数据的统一SQL查询:支持对于结构化数据、非结构化文本的检索和分析,该检索和...
  • ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中文字句,结构,语义等方面ERNIE在情感分析,文本匹配,自然...
  • 本文基于文本数据与RNA-Seq数据在结构上具有的高度相似性,将文本数据分析中流行的概率模型LDA应用于RNA-Seq数据分析,设计了NU-LDA模型以测量读段在非均匀分布情况下基因和剪切异构体的表达水平。通过采用真实实验...
  • 该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索多源点长度最长、权重值满足给定条件的路径,则该路径所...
  •  2、程序小巧玲珑,采用DB式文本存储数据库,效率高 负载低,兼容性好  3、小偷模式:日常更新,无需用户后台进行任何采集、更新、设置等。  3、多规则,多源站,让你的网站信息多姿多彩。
  • 该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索多源点长度最长、权重值满足给定条件的路径,则该路径...
  • 该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和“多源最短路径”算法...

空空如也

空空如也

1 2 3
收藏数 41
精华内容 16
关键字:

多源文本