精华内容
下载资源
问答
  • 1.5有哪些文本表示模型?它们各有什么优缺点?

    千次阅读 多人点赞 2020-06-17 15:22:31
    05 文本表示模型 场景描述 文本一类非常重要的非...问题 有哪些文本表示模型?它们各有什么优缺点? 分析与解答 ■ 词袋模型和N-gram模型 最基础的文本表示模型词袋模型。顾名思义,就是将每篇文章看成一袋子 词,

    05 文本表示模型

    场景描述

    文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领 域的一个重要研究方向。

    知识点

    词袋模型(Bag of Words),TF-IDF(Term Frequency-Inverse Document Frequency),主题模型(Topic Model),词嵌入模型(Word Embedding)

    问题 有哪些文本表示模型?它们各有什么优缺点?

    分析与解答

    ■ 词袋模型和N-gram模型

    最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子 词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开, 然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对 应的权重则反映了这个词在原文章中的重要程度。常用TF-IDF来计算权重,公式 为
                                                          TF-IDF(t,d)=TF(t,d)×IDF(t) ,(1.5)

    其中TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用来衡量单词t对 表达语义所起的重要性,表示为:
    在这里插入图片描述
                                                                                                                                                                      (1.6)
    直观的解释是,如果一个单词在非常多的文章里面都出现,那么它可能是一个比 较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩 罚。

    将文章进行单词级别的划分有时候并不是一种好的做法,比如英文中的natural language processing(自然语言处理)一词,如果将natural,language,processing这 3个词拆分开来,所表达的含义与三个词连续出现时大相径庭。通常,可以将连续 出现的n个词(n≤N)组成的词组(N-gram)也作为一个单独的特征放到向量表示 中去,构成N-gram模型。另外,同一个词可能有多种词性变化,却具有相似的含 义。在实际应用中,一般会对单词进行词干抽取(Word Stemming)处理,即将不 同词性的单词统一成为同一词干的形式。

    ■ 主题模型

    主题模型用于从文本库中发现有代表性的主题(得到每个主题上面词的分布 特性),并且能够计算出每篇文章的主题分布。

    ■ 词嵌入与深度学习模型

    词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维 空间(通常K=50~300维)上的一个稠密向量(Dense Vector)。K维空间的每一 维也可以看作一个隐含的主题,只不过不像主题模型中的主题那样直观。

    由于词嵌入将每个词映射成一个K维的向量,如果一篇文档有N个词,就可以 用一个N×K维的矩阵来表示这篇文档,但是这样的表示过于底层。在实际应用 中,如果仅仅把这个矩阵作为原文本的表示特征输入到机器学习模型中,通常很 难得到令人满意的结果。因此,还需要在此基础之上加工出更高层的特征。在传 统的浅层机器学习模型中,一个好的特征工程往往可以带来算法效果的显著提 升。而深度学习模型正好为我们提供了一种自动地进行特征工程的方式,模型中 的每个隐层都可以认为对应着不同抽象层次的特征。从这个角度来讲,深度学习 模型能够打败浅层模型也就顺理成章了。卷积神经网络和循环神经网络的结构在 文本表示中取得了很好的效果,主要是由于它们能够更好地对文本进行建模,抽 取出一些高层的语义特征。与全连接的网络结构相比,卷积神经网络和循环神经 网络一方面很好地抓住了文本的特性,另一方面又减少了网络中待学习的参数, 提高了训练速度,并且降低了过拟合的风险。

    另外博主收藏这些年来看过或者听过的一些不错的常用的上千本书籍,没准你想找的书就在这里呢,包含了互联网行业大多数书籍和面试经验题目等等。有人工智能系列(常用深度学习框架TensorFlow、pytorch、keras。NLP、机器学习,深度学习等等),大数据系列(Spark,Hadoop,Scala,kafka等),程序员必修系列(C、C++、java、数据结构、linux,设计模式、数据库等等)以下是部分截图

    更多文章见本原创微信公众号「五角钱的程序员」,我们一起成长,一起学习。一直纯真着,善良着,温情地热爱生活。关注回复【电子书】即可领取哦

    在这里插入图片描述

    在这里插入图片描述
    给大家推荐一个Github,上面非常非常多的干货:https://github.com/XiangLinPro/IT_book

    展开全文
  • 向量的各种积有哪些及其表示 向量积(叉积,叉乘,外积) a×b = |a| * |b| * sinθ 1.概述 定义向量积,数学中又称外积、叉积,物理中称矢积、叉乘,一种在向量空间中向量的二元运算。与点积不同,它的运算结果...

    向量的各种积有哪些及其表示

    向量积(叉积,叉乘,外积) a×b = |a| * |b| * sinθ

    1.概述

    定义向量积,数学中又称外积、叉积,物理中称矢积、叉乘,是一种在向量空间中向量的二元运算。与点积不同,它的运算结果是一个向量而不是一个标量。并且两个向量的叉积与这两个向量和垂直。其应用也十分广泛,通常应用于物理学光学和计算机图形学中。

    2.表示方法

    两个向量a和b的叉积写作a×b(有时也被写成a∧b,避免和字母x混淆)。

    3.定义

    向量积可以被定义为:

    • 模长:(在这里θ表示两向量之间的夹角(共起点的前提下)(0°≤θ≤180°),它位于这两个矢量所定义的平面上。)
      在这里插入图片描述

    • 方向:a向量与b向量的向量积的方向与这两个向量所在平面垂直,且遵守右手定则。(一个简单的确定满足“右手定则”的结果向量的方向的方法是这样的:若坐标系是满足右手定则的,当右手的四指从a以不超过180度的转角转向b时,竖起的大拇指指向是c的方向。)

    • 也可以这样定义(等效):

    向量积|c|=|a×b|=|a||b|sin<a,b>

    即c的长度在数值上等于以a,b,夹角为θ组成的平行四边形的面积。

    而c的方向垂直于a与b所决定的平面,c的指向按右手定则从a转向b来确定。

    *运算结果c是一个伪向量。这是因为在不同的坐标系中c可能不同。
    在这里插入图片描述
    4.性质

    • 这个向量的方向是与两个原向量都垂直的方向,其指向用右手准则来判断。

    • 两个向量叉乘在数值上等于其平移后围成的平行四边形的面积。

    行列式计算法如下:

    5.坐标运算

    设=(),=()。i,j,k分别是X,Y,Z轴方向的单位向量,则:
    a×b=(-)i+(-)j+(-)k,为了帮助记忆,利用三阶行列式,写成det

    在这里插入图片描述
    在这里插入图片描述
    6.证明
    为了更好地推导,我们需要加入三个轴对齐的单位向量i,j,k。

    i,j,k满足以下特点:

    i=jxk;j=kxi;k=ixj;

    kxj=–i;ixk=–j;jxi=–k;

    ixi=jxj=kxk=0;(0是指0向量)

    由此可知,i,j,k是三个相互垂直的向量。它们刚好可以构成一个坐标系。

    这三个向量的特例就是i=(1,0,0)j=(0,1,0)k=(0,0,1)。

    对于处于i,j,k构成的坐标系中的向量u,v我们可以如下表示:

    u=Xui+Yuj+Zu*k;

    v=Xvi+Yvj+Zv*k;

    那么uxv=(Xui+Yuj+Zuk)x(Xvi+Yvj+Zvk)

    =XuXv(ixi)+XuYv(ixj)+XuZv(ixk)+YuXv(jxi)+YuYv(jxj)+YuZv(jxk)+ZuXv(kxi)+ZuYv(kxj)+ZuZv(kxk)

    由于上面的i,j,k三个向量的特点,所以,最后的结果可以简化为

    uxv=(YuZv–ZuYv)i+(ZuXv–XuZv)j+(XuYv–YuXv)*k。[1]

    7.与数量积的区别

    注:向量积≠向量的积(向量的积一般指点乘)

    一定要清晰地区分开向量积(矢积)与数量积(标积)。见下表。[1]

    8.应用

    (1)已知空间三个点,计算三角形的面积。

    (2)判断空间四点是否共面

    展开全文
  • 1. 什么程序,什么进程,有什么区别? 程序静态的概念, gcc xxx.c -o pro 磁盘中生成pro...3. 什么进程表示符 每个进程都有一个非负整数表示的唯一ID,叫做pid,类似身份证 Pid = 0,成为交换进程(swapper) 作用—

    1. 什么是程序,什么是进程,有什么区别?

    程序是静态的概念, gcc xxx.c -o pro 磁盘中生成pro文件,叫做程序
    进程是程序的一次运行活动,通俗点意思是程序跑起来了,系统中就多了一个进程

    2. 如何查看系统中有哪些进程?
    a.使用ps指令查看
    实际工作中,配合grep来查找程序中是否存在某一个进程
    b.使用top指令查看,类似windows任务管理器

    3. 什么是进程表示符
    每个进程都有一个非负整数表示的唯一ID,叫做pid,类似身份证

    Pid = 0,成为交换进程(swapper)
    作用——进程调度
    Pid = 1,init进程
    作用——系统初始化
    

    编程调用getpid函数获取自身的进程标识符,getppid获取父进程的进程标识符

    展开全文
  • 领导明确表示你工作效率低,并且取消了你的提成。从言语到行动,都显示了领导对你的不满,极有可能想要你离职的信号。锦囊君整理了10种领导想逼你离职的行为,可供参考。   1、公司无意间把你的岗位调来调去,...

    领导明确表示你工作效率低,并且取消了你的提成。从言语到行动,都显示了领导对你的不满,极有可能是想要你离职的信号。锦囊君整理了10种领导想逼你离职的行为,可供参考。
      
    1、公司无意间把你的岗位调来调去,频繁切换,似乎显得此人多余。最终,让你在不同岗位间,感到无法适从,主动离职。

    2、突然强加给你看似几乎无法胜任的任务,让你知难而退,或者出尽洋相,最终以“能力不足”收场走人。
      
    3、调任你从事与专业和性格不相干,可能恰恰相反的工作,哪怕这份职位看起来有些“虚高”。最终,接手后,发现难以适应和协调,以“不适应工作”撒腿走人。
      
    4、公司领导刻意忽视你的业绩,忽视你的感受,忽视你的建议,忽视你的加班。把你的合理表现视为无关紧要,让你感觉到没有以前重要了,或者没有其他同事一样重要了。
      
    5、专门针对你设定新的考核标准。拔高要求,抬高任务,同时不给你资源和条件,甚至克减你所能调动的资源,让你无法完成公司“高标准、低成本”的工作,知难而退。
      
    6、经常给你分配一些别人不愿干的垃圾型任务、或者一些投入大、产出少的工作。让你变成一个办公室端茶倒水的“保洁员”。

    7、挪动你到大家不愿去的办公室位置。给你特别挑选一个角落或者隐蔽,不被人容易注意的位置。或者给你一个噪杂、办公硬件不完善的办公角落。  
     
    8、给你的任务设定不合理的期限。在你原有的工作上,给你加上一个不可思议的完成期限要求,让你去刻意去做一些“违背科学”的事情。

    9、公司另外派人来“帮助”你一起工作。表面上是来帮助你,实则是来学习你、交接你、监督你,继而取代你的。
      
    10、非充分理由减少、克扣你的薪水。当你看不到工作的意义的时候,也就到了该离开这里的时候了。(完)

    展开全文
  • 文本一类非常重要的非结构化数据,如何表示文本数据一直机器学习领域的一个重要研究方向。 词袋模型和N-gram模型 主题模型: 主题模型用于从文本库中发现有代表性的主题( 得到每个主题上面词的分布特性)...
  • 数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为不可再分的最小数据单元。 数据元一般来说由三部分组成: a)对象类:思想、概念或...
  • 每篇文章表示成一个N维向量,每一维度表示一个单词,值为这个词对这篇文章的重要程度,计算公式为: TF-IDF(t,d) = TF(t,d)*IDF(t) 其中,TF(t,d)为单词t在文档d中出现的频率,IDF(t) = log(文章总数/(包含单词t的...
  • 转自:知识图谱论坛 网络嵌入方法(Network Embedding)旨在学习网络中节点的...第一个被提出来使用表示学习(或深度学习)社区的技术的网络嵌入方法。DeepWalk 通过将节点视为单词并生成短随机游走作为句子来弥...
  • 二极管由一个PN结构成的,而三极管由两个PN结构成,共用的一个电极成为三极管的基极(用字母b表示)。其他的两个电极成为集电极(用字母c表示)和发射极(用字母e表示)。由于不同的组合方式,形成了一种NPN型的...
  • 查询视图:V$PARAMETER select * from v$parameter where...这个结果的参数就表示可以动态修改。 select * from v$parameter where issys_modifiable='FALSE' 结果静态参数 select * from v$parameter where iss
  • 网络嵌入方法(Network Embedding)旨在学习网络中节点的低维度潜在表示,所学习到的特征表示可以用作基于图的各种任务... 第一个被提出来使用表示学习(或深度学习)社区的技术的网络嵌入方法。DeepWalk 通过将节...
  • 向量线性代数中的基本概念,也机器学习的基础数据表示形式。例如计算机阅读文本的过程首先就会将文本分词,然后用向量表示。这因为向量很适合在高维空间中表达和处理。在机器学习中会接触到的诸如投影、降维的...
  • JAVA表示层,业务层,持久层的框架分别有哪些 1、表示层 JSP,Freemark,Velocity, 2、控制层 Struts,Struts2 3、持久层 Hibernate、Mybatis、Mybatis Plus 十大常用框架: 一、SpringMVC 二、Spring 三、Mybatis ...
  • 层次模型采用树型结构表示数据与数据间的联系。在层次模型中, 每一个节点表示记录类型(实体), 记录之间的联系用节点之间的连线表示,并且根节点以外的其他节点有且仅有一个双亲节点。层次模型不能直接表示多对多...
  • JS正则表达式中有哪些特殊字符,这些特殊字符又分别表示什么含义? 在正则表达式中,许多标点符号具有特殊含义,比较难记,现归纳备个份: 这些符号有:^ $ . * + - ? = ! : | \ / ( ) [ ] { } 1.“[ ]”表示字符类...
  • 判断对象是否可回收, 有两种算法 引用计数法 (无法解决循环引用问题, 即两个对象互相引用, 引用...GC Roots 可以是哪些对象? 局部变量对象 静态 static 字段对象 常量 static final 字段对象 JNI (本地方法栈) 对象
  • 当她醒来观看窗外的风景时,注意到每个火车站都有一种特别颜色的旗帜,但是她看到的旗帜仅仅经过的一小部分,小B在乘车过程中有两次清醒的时间,她到达旅程终点时处于睡梦中。出站时,她和朋友们谈论着一路的见闻...
  • 文件的元数据信息有哪些? 查看元数据一般使用stat filename 命令: 其中可以发现元数据包含,如果有一个变化,都代表元数据改动时间...文件类型(regular file):表示是什么类型的文件 inode编号:inode编号具...
  • linux 中数据分为两种:一种是表示文件存储大小的数据,一种是表示描述文件属性,特征的数据,称为元数据。 Linux中查看文件类型可以使用 file 命令:(使用 file 命令可以简单查询出文件的类型) 使用 stat 命令则...
  • 描述文件的元数据信息有哪些,分别表示什么含义,如何查看?如何修改文件的时间戳信息? 文件系统中的数据有两类, 一类数据,另一类元数据 。 数据:普通文件中的实际数据 元数据:指用来描述一个文件的特征的...
  • 表示应该立即下载脚本,但不应妨碍页面中的其他操作,比如下载其他资源或等待加载其他脚本。(只对外部脚本文件有效)async属性的目的:不让页面等待两个脚本 下载和执行,从而异步加载页面其他内容。为此,建议...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,780
精华内容 3,912
关键字:

哪些是表示