精华内容
下载资源
问答
  • NLP | 文本特征向量化方法

    千次阅读 2018-09-23 00:53:16
    01 起 在之前的文章中,我们学习了一种分类方法:朴素贝叶斯,朴素贝叶斯特别适合文本分类,比如: ...对文本分词(作为特征),比如把这句话“我是天才”分词为“我”“是”“天才”(这里面的学问就更多了,本...

    01 起

    在之前的文章中,我们学习了一种分类方法:朴素贝叶斯,朴素贝叶斯特别适合文本分类,比如:

    1. 根据邮件内容,判断哪些是垃圾邮件
    2. 根据新闻内容,判断新闻情感是正面、负面还是中立
      ……

    如果想要使用朴素贝叶斯模型去给文本数据分类,就必须对文本数据进行处理。

    怎么处理呢?一般是这样的:

    1. 对文本分词(作为特征),比如把这句话“我是天才”分词为“我”“是”“天才”(这里面的学问就更多了,本文不赘述)
    2. 统计各词在句子中是否出现(词集模型)
    3. 统计各词在句子中出现次数(词袋模型)
    4. 统计各词在这个文档的TFIDF值(词袋模型+IDF值)

    本文主要讲解并实践三种文本特征向量化方法:

    词集模型:one-hot编码向量化文本
    词袋模型+IDF:TFIDF向量化文本
    哈希向量化文本

    在以下三种向量化方法中,待处理的文本都长这样:


    02 one-hot编码向量化文本

    两种方式实现,本文主要讲解自定义函数实现:

    • 自定义函数 doc2onehot_matrix()
    • sklearn DictVectorizer
    # 自定义方法:文本转onehot编码
    """
    说明:
    文档格式txt,每行表示一个训练样本(一句话,一段文字都可以)
    文档如果是不分行的一段话,可以用nltk.tokenize.sent_tokenize(text)将文档分句,然后把每句话当作一个样本进行编码
    """
    import numpy as np
    import pandas as pd
    import jieba
    
    def doc2onthot_matrix():
        # 读取待编码的文件
        file_path=input("请输入待编码文件路径及文件名:")
        with open(file_path,encoding="utf-8") as f:
            docs=f.readlines()
        
        # 将文件每行分词,分词后的词语放入words中
        words=[]
        for i in range(len(docs)):
            docs[i]=jieba.lcut(docs[i].strip("\n"))
            words+=docs[i]
        
        # 找出分词后不重复的词语,作为词袋,是后续onehot编码的维度
        vocab=sorted(set(words),key=words.index)
        
        # 建立一个M行V列的全0矩阵,M问文档样本数,这里是行数,V为不重复词语数,即编码维度
        V=len(vocab)
        M=len(docs)
        onehot=np.zeros((M,V))
        
        for i,doc in enumerate(docs):
            for word in doc:
                if word in vocab:
                    pos=vocab.index(word)
                    onehot[i][pos]=1
        onehot=pd.DataFrame(onehot,columns=vocab)
        return onehot
    

    我们将待处理文本输入到代码中,得到如下输出,可以看到,每句话都统计出各词语是否出现


    03 TF-IDF文本向量化

    同样的,也可以通过两种方式实现,本文主要讲解自定义函数实现:

    • 自定义函数 doc2tfidf_matrix()
    • sklearn TfidfVectorizer,CountVectorizer,TfidfTransformer
    import numpy as np
    import pandas as pd
    import math
    import jieba
    
    def doc2tfidf_matrix():
        # 读取待编码的文件
        file_path=input("请输入待编码文件路径及文件名:")
        with open(file_path,encoding="utf-8") as f:
            docs=f.readlines()
        
        # 将文件每行分词,分词后的词语放入words中
        words=[]
        for i in range(len(docs)):
            docs[i]=jieba.lcut(docs[i].strip("\n"))
            words+=docs[i]
        
        # 找出分词后不重复的词语,作为词袋
        vocab=sorted(set(words),key=words.index)
        
        # 建立一个M行V列的全0矩阵,M问文档样本数,这里是行数,V为不重复词语数,即编码维度
        V=len(vocab)
        M=len(docs)
        onehot=np.zeros((M,V)) # 二维矩阵要使用双括号
        tf=np.zeros((M,V))
        
        for i,doc in enumerate(docs):
            for word in doc:
                if word in vocab:
                    pos=vocab.index(word)
                    onehot[i][pos]=1
                    tf[i][pos]+=1 # tf,统计某词语在一条样本中出现的次数
    
        row_sum=tf.sum(axis=1) # 行相加,得到每个样本出现的词语数
        # 计算TF(t,d)
        tf=tf/row_sum[:,np.newaxis] #分母表示各样本出现的词语数,tf为单词在样本中出现的次数,[:,np.newaxis]作用类似于行列转置
        # 计算DF(t,D),IDF
        df=onehot.sum(axis=0) # 列相加,表示有多少样本包含词袋某词
        idf=list(map(lambda x:math.log10((M+1)/(x+1)),df))
        
        # 计算TFIDF
        tfidf=tf*np.array(idf)
        tfidf=pd.DataFrame(tfidf,columns=vocab)
        return tfidf
    

    我们将待处理文本输入到代码中,得到如下输出,可以看到,每句话都统计出各词语的TFIDF值


    04 哈希向量化文本

    调用sklearn HashingVectorizer实现。

    什么时候使用哈希向量化呢?

    TfidfVectorizer在执行时,需要先将词袋矩阵放入内存,再计算各位置单词的TFIDF值,如果词袋维度大,将占用过多内存,效率低,此时可以使用哈希向量化。

    哈希向量化可以缓解TfidfVectorizer在处理高维文本时内存消耗过大的问题。

    哈希技巧是无固定状态的(stateless),它把任意的数据块映射到固定数目(n_features)的位置,并且保证相同的输入一定产生相同的输出,不同的输入尽可能产生不同的输出。它可以用并行,线上,流式传输创建特征向量,因为它初始化是不需要文集输入的。(额,其实这段话我目前还不太明白,待学习~~)


    05 总结

    朴素贝叶斯模型特别适合分类文本数据,但分类之前需要对文本提取特征并向量化。

    本文总结了三种文本特征向量化的方法:onehot,TFIDF,Hashing,这是使用/自定义朴素贝叶斯模型的前提。

    文本特征向量化处理后,就可以进行下一步了:朴素贝叶斯模型的调用和自定义,感兴趣的朋友可以点击查看。

    展开全文
  • NLP学习-文本特征向量

    千次阅读 2020-03-16 14:47:27
    下面讲述文本特征向量化的相关内容。 前面四个模块的完成,意味着我们已经有了以词为单元的数据了,但是有个问题...计算机能直接用这些词来训练吗?答案是不能的,例如如果之前接触过神经网络等概念的,或者自己拿...

    首先说一下文本分析流程:

    现在已经到了流程图的第五块内容了~

    NLP学习-分词:https://blog.csdn.net/RHJlife/article/details/104748790

    NLP学习-清洗:https://blog.csdn.net/RHJlife/article/details/104834980

    NLP学习-词形标准化https://blog.csdn.net/RHJlife/article/details/104835785

    NLP学习-文本特征向量化:https://mp.csdn.net/console/editor/html/104893608

    NLP学习-建模:暂无

    下面讲述文本特征向量化的相关内容。

    前面四个模块的完成,意味着我们已经有了以为单元的数据了,但是有个问题...计算机能直接用这些来训练吗?答案是不能的,例如如果之前接触过神经网络等概念的,或者自己拿别人模型跑着玩的时候就会发现,训练机是数字数据的时候可以直接用,如果图片、音频等其实也都是转化成数字数据的格式来进行训练的,那么...我们如何讲词语也变成数字数据哪?常见的方法有:one-hot编码、TF-IDF文本向量化、Word2vec文本向量化

    one-hot编码

    也称为独热编码,独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。(百度百科内容)

    其实这么说...光看定义是没什么用的,以下我讲举例说明一些one-hot编码在nlp中的应用,或许大家就明白

    例子1:假设词典是:[我们,去,爬山,你们,聚会,今天,明天],用独热编码则如下:

    我们->(1,0,0,0,0,0,0)
    
    去->(0,1,0,0,0,0,0)
    
    爬山->(0,0,1,0,0,0,0)
    
    你们->(0,0,0,1,0,0,0)
    
    聚会->(0,0,0,0,1,0,0)
    
    今天->(0,0,0,0,0,1,0)
    
    明天->(0,0,0,0,0,0,1)

    为什么是这样哪?使用N位状态寄存器来对N个状态进行编码的意思就是有多少个需要表示的词语就要用几个状态,我们要表示七个词,那么就需要七个状态,也就是向量是7位的;每个状态都有它独立的寄存器位的意思就是每个词都要有一个向量;并且在任意时候,其中只有一位有效,你们发现了吗,每个向量仅有1个1,就是这么个意思。

    相信大家和我当初一样有很多疑惑,为什么我们对应的(1,0,0,0,0,0,0,0)不能是其他向量吗?答案:当然是可以的,遵循上面的规定,我们发现7个词会对应7个向量(此向量要遵循只有一位有效的规定,那么比如7个位的向量只有7种向量),但是7个词语和7个向量是一一对应的(一个词只能对应一个向量),但是吧...谁对应谁,这个随意...一般就是按顺序来对应的。

    独热编码算是比较早期的方法了,它有很多缺点和优点,这个大家可以自行查阅,这个地方大家要了解一下,独热编码并不是nlp中特有的,它有很多应用,你可以了解它本身存在的优缺点,以及在不同领域存在的优缺点。下面我就简单说说我理解的独热编码在nlp中的优缺点:

    优点:我个人感觉它最大的优点就是,确实讲词语分来了,并且转换为数字形式了,比较严谨的意思就是:将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。

    缺点:这个地方有两个公认的缺点也是最主要的缺点,我就和大家说一下了,第一就是不能表示语义的相似度,举个例子:今天明天相似度肯定要比今天爬山相似度都高(这句话...如果不理解...我也不太建议看后面了哈...),但是从独热编码上来看是看不出区别来的(因为独热编码的分配本来就是认为的,用个比较较真的说法,你假设认为今天明天独热编码比今天爬山的独热编码更接近,那么我把明天爬山的独热编码换一下,你还感觉 今天明天独热编码比今天爬山的独热编码更接近吗?);第二个缺点就是稀疏性的问题,简单来说7个词语光表示出来就需要7*7的空间,那么...8个词?1000个词?目前比较全面的词典库是10的五次方级的,那么...一个词语就要占用10的五次方级的向量...可想而知...空间耗费有多么大。

    说完了词的独热编码后,说一下如果表示句子!

    S1:我们今天去爬山

    S2:昨天我们去爬山,你们去聚餐

    以上面两句话为例,下面介绍两种表示方法

    第一种方法:boolean(只考虑出现不出现)方法

    我们今天去爬山为例,出现的词语有我们|今天|去|爬山根据独热编码,我们占据第一位,今天占据第六位,占据第二位,爬山占据第三位,所以 我们今天去爬山->(1,1,1,0,0,1,0);再看第二句,除了第六位其他的都占据的,甚至有两个占据了两次第二位,但是结果是这样滴:昨天我们去爬山,你们去聚餐->(1,1,1,1,1,0,1)这就是(只考虑出现不出现)不考虑出现了几次,只要出现了就是1没出现就是0,该方法中仅有0\1,没有其他数字出现的可能

    第二种方法:count(考虑词频)

    还是上面两个例子,我直接给出答案了我们今天去爬山->(1,1,1,0,0,1,0)昨天我们去爬山,你们去聚餐->(1,2,1,1,1,0,1),观察区别就知道了,向量中的数字代表该状态位代表词语的词频,因为出现两次,所以第二位上为2

    说完了如何表示句子,那么最后补充两个计算相似度的方法

    1.欧式距离:不考虑方向 d=|s1-s2|

    2.余弦相似度:考虑方向 d=(s1.s2)/(|s1|*|s2|)   (其中s1.s2为内积)

    令刚刚两句话为s1,s2(已标注,且采用boolean方法),则欧式距离=根号下(1方+1方+1方+1方)=2;余弦相似度=(1+1+1)/(根号下(4)*根号下(6))=3/(2*根号6)

    (不太会打符号...献丑了...多担待)

    用上述两种相似度计算方法计算的相似度,会发现...欧式距离都是根号2,余弦都是0,这两种方法是不可行的,但是实际生活中我们还是需要,为什么哪?因为我们你们,肯定比我们游戏更接近,这个地方出现这两个问题的原因是:词的表示上面,而不是相似度的计算上。这个地方又让大家了解了下,one-hot编码不能表示语义的相似度这一缺点。

    TF-IDF文本向量化:

    TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。(百度百科内容)

    以下我主要说明一下tf-idf在nlp的相关知识,先说一下它是为了解决什么?其实它在nlp中解决的并不是出现的越多就越重要,出现的越少就越不重要是这个问题。

    举个例子大家就明白了:他|喜欢|去|游泳,但是|他|也|喜欢|去|滑雪,他|还|喜欢|玩|游戏,例如我们要做的事是去找他做了什么的话,可以看出来出现三次,也出现两次,但是重点应该是游泳滑雪游戏,而tf-idf方法就是解决这一问题的一个方法。

    官方公式:

    • tf-idf(w)=tf(d,w)*idf(w)
    • idf(w)=log(N/N(w))

    (w为词汇,d为某文档,tf(d,w)表示文档d中的w的词频,idf(w)=log(N/N(w)),N是语料库中的文档总数,N(W)是含W的文档数量)

    tf(d,w)代表词语的词频,idf(w)代表词语的重要性

    以上就是TF-IDF相关知识。是不是听了也一脸懵逼?那么带你弄例子说明一下,你就明白该怎么样去实现了~

    词典:[今天,学习,NLP,知识,的,有,意思,大数据,也]

    词典含有9个单词->向量是9位的;总共出现了三句话(蓝色内容)N=3

    1.今天|学习|NLP|知识 

    • 今天出现1次,词频是1,今天出现在两个句子里面,所以idf(今天)=log(3/2)。所以第一位填1*log(3/2)  (以下内容仅标注tf=多少,idf=多少,不详细解释了)
    • 学习tf=1,idf=log(3/1),所以第二位填1*log(3/1)
    • NLPtf=1,idf=log(3/1),所以第三位填1*log(3/1)
    • 知识tf=1,idf=log(3/3),所以第四位填1*log(3/3)
    • 其他词语tf=0,所以填0

    综上所属,该句的词向量为:今天|学习|NLP|知识 ->(1*log(3/2),1*log(3/1),1*log(3/1),1*log(3/3),0,0,0,0,0)

    2.今天|的|知识|有|意思

    • 今天t f=1,idf=log(3/2),所以第一位填1*log(3/2)
    • tf=1,idf=log(3/1),所以第五位填1*log(3/1)
    • 知识tf=1,idf=log(3/3),所以第四位填1*log(3/3)
    • tf=1,idf=log(3/2),所以第六位填1*log(3/2)
    • 意思tf=1,idf=log(3/2),所以第七位填1*log(3/2)
    • 其他词语tf=0,所以填0

    综上所属,该句的词向量为:今天|的|知识|有|意思 ->(1*log(3/2),0,0,1*log(3/3),1*log(3/1),1*log(3/2),1*log(3/2),0,0)

    3.大数据|知识|也|有|意思

    • 大数据t f=1,idf=log(3/1),所以第八位填1*log(3/1)
    • 知识tf=1,idf=log(3/3),所以第四位填1*log(3/3)
    • tf=1,idf=log(3/1),所以第九位填1*log(3/1)
    • tf=1,idf=log(3/2),所以第六位填1*log(3/2)
    • 意思tf=1,idf=log(3/2),所以第七位填1*log(3/2)
    • 其他词语tf=0,所以填0

    综上所属,该句的词向量为:大数据|知识|也|有|意思 ->(0,0,0,1*log(3/3),0,1*log(3/2),1*log(3/2),1*log(3/1),1*log(3/1))

    这样是不是就学会了?

     

    Word2vec文本向量化后续更新,可能额外本文挂链接,可能直接写本文里,看情况吧~

    暂时学习了部分(以后还会更新完善的),Word2vec浅显的理解https://blog.csdn.net/RHJlife/article/details/104943389

     

     

     

     

    展开全文
  • 保存之后是不是文本向量的文件很大? 不知道是我运行错了,还是理解错了?还是说本来就是那么大呢? 原本599.4kb的txt中文文本, 运行之后变成5.6GB的向量文本。 不知道是怎么回事。 求各位大神指点,是什么原因,是...

    #用bert做中文特征向量提取之后
    如下:
    保存之后是不是文本向量的文件很大?
    不知道是我运行错了,还是理解错了?还是说本来就是那么大呢?

    原本599.4kb的txt中文文本,
    运行之后变成5.6GB的向量文本。

    不知道是怎么回事。

    求各位大神指点,是什么原因,是我的结果错了,还是原本的就是这样的结果,真是心累。

    感谢各位大佬!!
    在这里插入图片描述

    展开全文
  • 基于SVM和文本特征向量提取的SQL注入检测研究.pdf
  • 主要为大家详细介绍了Python文本特征抽取与向量化算法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • 文本特征提取和向量

    千次阅读 2018-05-21 17:08:47
    转自:https://fancoo.wordpress.com/2016/03/09/三-文本特征提取和向量化/在(二)中,我已经能获取每个词条在百度搜索下的结果。我将所有的可疑词条的百度搜索结果保存为文件。每一行文本是一个词条的搜索结果。例如...

    转自:https://fancoo.wordpress.com/2016/03/09/三-文本特征提取和向量化/

    在(二)中,我已经能获取每个词条在百度搜索下的结果。我将所有的可疑词条的百度搜索结果保存为文件。每一行文本是一个词条的搜索结果。例如,我有728个可以词条,那么我将保存728行文本,现在我们要提取出每一行文本中的特征词。

    接下来的操作依次是:

    1. 标记正负样本并下载它们的全部文本
    2. 对文本进行分词
    3. 通过Tf-Idf、词频、CHI、或是信息增益等方法取出特征词
    4. 将特征词向量化

    获取正负样本

    我使用手工的方法,在近3000个样本分离出了150个负样本,也就是诸如’asdf’之类看上去很不正常的名称,正样本就选取带’有限公司’的公司名,并使用(二)中的方法,将正负样本的的网页搜索结果解析出来的 文本保存下来。

      分词  

      中文分词我使用的是jieba,jieba有多种切词模式,还支持自定义停用词和idf词库,如果你使用的是jieba.analyse这个库,它支持tfidf和textRank两种特征,在我的使用过程中有一个很不爽的地方是,如果你仅仅使用jieba.cut,那么在原文本中包含的多种特殊符号将令人头疼(当然你也可以用正则消除掉),而一旦你使用jieba.analyse,你会发下它已经自动过滤了这些词,可是它已经使用了tf-idf或是textRank,一句话:如果你仅仅想用它来分词,提取特征的事情后续由自己来做,那么jieba.analyse会令人讨厌的先给你的词预筛选一遍。这里我topK设置为前10000个词,基本上不会筛掉词了。

    分词代码段:


    def extract_tag(text_file, tag_file):
        with open(text_file, 'r') as tf:
            for text in tf:
                utf8_text = text.decode('utf-8', 'ignore')
                #print utf8_text
                seg_list = jieba.cut(utf8_text, cut_all=True)
                clean_text = " ".join(seg_list)
                jieba.analyse.set_stop_words("extra/stop_words.dict")
                print '\n'
                tags = jieba.analyse.textrank(clean_text, topK=10000, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
                print(" ".join(tags))
                mstr = " ".join(tags)
                mlist = mstr.split()
                mlist = list(set(mlist))
                with open(tag_file, 'a') as f:
                    for item in mlist:
                        utf8_item = item.encode('utf-8', 'ignore')
                        f.write(utf8_item+'\t')
                    f.write('\n')
                f.close()
        tf.close()

    这里我得到一个tag_file,每一行有若干个词,代表这一个文本的特征集合,下面要做的事就是提取特征。

    特征提取
    我没有使用Tf-Idf,是因为它存在的一个严重缺陷是:假如一个词仅仅在某个类中出现过多次,那么其实该词是该类的一个非常好的特征,但根据Tf-Idf的机制,该词由于出现过太多次反而权重不高,在本次中,我目前使用的仅仅是词频,未来可能尝试其他方法。

    向量化

    所谓向量化,即对存在的词,每个词赋予其一个维度,然后对正负样本的每一行特征,按照其是否在特征向量中的某一维,决定该行特征是0还是非0。

    我的做法是:

    1. 先将正负样本词库整合,并计算每个词出现的次数t,假设出现次数最大的词出现次数为max,每个词的权重即为t/max,导师建议使用每个维度的最大次数而非全局,之后可以试试看。
    2. 构造正负样本矩阵并保存
    3. 构造测试样本的矩阵,矩阵的权重来源于训练样本。

    代码如下:

    合并词库:

    def merge_dict(pos_tag, neg_tag):
        """
        Parameter
        -------
        pos_tag: file of pos tag
        neg_tag: file of neg tags
     
        Return
        -----
        mixed tags list
        """
        words = []
        with open(pos_tag, 'r') as pt:
            for line in pt:
                word = line.split()
                for t in word:
                    words.append(t)
        with open(neg_tag, 'r') as nt:
            for line in nt:
                word = line.split()
                for t in word:
                    words.append(t)
        tag_list = list(set(words))
        print tag_list
        return tag_list

    构造正负样本矩阵:

    def get_libsvm_data(pos_tag, neg_tag, word_list, matrix_file):
        fmatrix = open(matrix_file, 'a+')
        with open(pos_tag, 'r') as pt:
            for line in pt:
                tag = []
                word_flag = []
                word = line.split()
                if len(word) == 0:
                    continue
                word = list(set(word))
                tag.append('+1')
                for t in word:
                    p = word_list.index(t)
                    word_flag.append(p)
                word_flag.sort()
                for t in word_flag:
                    tag.append(' '+str(t)+':'+'1')
                mstr = ''.join(tag)
                fmatrix.write(mstr)
                fmatrix.write('\n')
        with open(neg_tag, 'r') as nt:
            for line in nt:
                tag = []
                word_flag = []
                word = line.split()
                if len(word) == 0:
                    continue
                word = list(set(word))
                tag.append('-1')
                for t in word:
                    p = word_list.index(t)
                    word_flag.append(p)
                word_flag.sort()
                for t in word_flag:
                    tag.append(' '+str(t)+':'+'1')
                mstr = ''.join(tag)
                fmatrix.write(mstr)
                fmatrix.write('\n')

    构造测试样本矩阵:


    def shape_testdata(pos_test_tag, neg_test_tag, word_list, matrix_file):
        fmatrix = open(matrix_file, 'a+')
        with open(pos_test_tag, 'r') as pt:
            for line in pt:
                tag = []
                last_flag = 0  # if the last has value
                word_flag = []
                word = line.split()
                if len(word) == 0:
                    continue
                word = list(set(word))
                tag.append('+1')
                for t in word:
                    if t in word_list:
                        p = word_list.index(t)
                        if p == len(word_list):
                            last_flag = 1
                        word_flag.append(p)
                word_flag.sort()
                if len(word_flag) != 0:
                    for t in word_flag:
                        tag.append(' '+str(t)+':'+'1')
                    if last_flag == 0:
                        tag.append(' '+str(len(word_list))+':'+'0')
                mstr = ''.join(tag)
                fmatrix.write(mstr)
                fmatrix.write('\n')
     
        with open(neg_test_tag, 'r') as nt:
            for line in nt:
                tag = []
                word_flag = []
                last_flag = 0
                word = line.split()
                if len(word) == 0:
                    continue
                word = list(set(word))
                tag.append('-1')
                for t in word:
                    if t in word_list:
                        p = word_list.index(t)
                        if p==len(word_list):
                            last_flag = 1
                        word_flag.append(p)
                word_flag.sort()
                if len(word_flag) != 0:
                    for t in word_flag:
                        tag.append(' '+str(t)+':'+'1')
                    if last_flag == 0:
                        tag.append(' '+str(len(word_list))+':'+'0')
                mstr = ''.join(tag)
                fmatrix.write(mstr)
                fmatrix.write('\n')

    于是我们成功得到了训练样本和测试样本的矩阵,中间出现过一个bug是:训练样本和测试样本矩阵维度不同,这是由于记录时自动去除了值为0的维度,因此假如在测试样本中,未出现训练样本的末尾的维度,测试样本的维度将小于训练样本。改进是判断最后一维是否在测试样本中出现。未出现则注’0′

    以下为矩阵格式(其实是libsvm的格式):

    QQ截图20160309210229








    展开全文
  • 这是一个使用knn把特征向量进行分类的demo。 Knn算法的思想简单说就是:看输入的sample点周围的k个点都属于哪个类,哪个类的点最多,就把sample归为哪个类。也就是说,训练集是一些已经被手动打好标签的数据,knn会...
  • 文本特征提取方法介绍

    千次阅读 2020-06-09 19:34:39
    文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘...
  • 现在在做的做法是,通过中文分词,Tf-idf 把地址中文文本转成特征稀疏向量,然后这2800万条向量做笛卡尔积或阶乘式的匹配,进行两两余弦距离计算,满足设定夹角余弦距离阈值才给输出,或写进表里。这样做,对于少量...
  • 采用一种无须分词的中文文本分类方法,以二元汉字串表示文本...为提高以bigram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法。通过实验结果及理论分析,验证了该算法的有效性。
  • 机器学习之路:python 文本特征提取 CountVectorizer, TfidfVectorizer 本特征提取: 将文本数据转化成特征向量的过程 比较常用的文本特征表示法为词袋法词袋法: 不考虑词语出现的顺序,每个出现过的词汇单独作为...
  • svm算法文本特征提取形成特征向量

    热门讨论 2008-09-06 22:07:07
    采用SVM算法进行文本特征提取 形成特征向量
  • 主要介绍了用Python给文本创立向量空间模型的教程,比如文中举例将文本中的词频转为量化的矩阵,需要的朋友可以参考下
  • 用Python开始机器学习(5:文本特征抽取与向量化)

    万次阅读 多人点赞 2014-11-26 22:09:23
    文本特征抽取与向量化 TF-IDF 词频-反转文档频率
  • 文本特征提取:将文本数据转化成特征向量的过程。 python-sklearn库的模块 sklearn.feature_extraction 可用于提取符合机器学习算法支持的特征,比如文本和图片。 【注】特征特征提取与特征选择有很大的不同:前者...
  • 首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利用其优化特征值。实验表明,相比朴素贝叶斯分类方法其效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到...
  • python3如何构建文本向量

    千次阅读 2018-07-22 11:43:13
    import re import collections words = ''' 钟声响起归家的讯号 ...#对文本构建文本向量 word_vector = [list(map(lambda word: word_int_map.get(word, len(words)), origin_words))] print(word_vector)  
  • 将输入文本中的词通过编码映射到词嵌入矩阵中, 词向量特征经嵌入和平均叠加后, 和基于TF-IDF的文本向量特征进行拼接, 传入到输出层后计算属于每个分类的概率. 该模型在低维词向量的基础上结合了文本向量特征的表达...
  • 假设我们刚看完诺兰的大片《星际穿越》,设想如何让机器来自动分析各位观众对电影的评价到底是“赞”(positive)还是“踩”(negative)呢?...因此,这章我们只学习第一步,如何从文本中抽取特征,并将其向量
  • 打算对问津以句为单位进行分类预测,词向量组成句子特征矩阵,利用testcnn对矩阵进行处理提取句子的特征向量,所以请问各位大佬,如何将cnn所提取的最终特征向量提取出来?
  • 文本特征提取方法

    千次阅读 2019-01-29 19:32:50
    特征提取方法: one-hot 和 TF-IDF one-hot 1.1 one-hot编码  什么是one-hot编码?one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且...
  • 本文将以尽可能少的数学公式介绍目前业界比较流行的基于神经网络进行文本特征提取,得到文本向量的方案。 1. 背景知识 这部分内容将介绍线性回归、梯度下降、神经网络、反向传播。对于有基础的同学这部分可以跳过...
  •  词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。  词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d
  • 特征提取 --- 中文文本特征抽取

    千次阅读 2019-04-08 09:15:50
    jieba库 ex_1 import jieba def cut_word(text): text = ' '.join(list(jieba.cut(text))) return text ...def cut_chinese_demo2(): ... print("特征名字:\n", transfer.get_feature_names())
  • Text vectorization tool to outperform TFIDF for classification tasks
  • 几种文本特征向量化方法 1.词集模型:one-hot编码向量文本(统计各词在文本中是否出现) 2.词袋模型:文档中出现的词对应的one-hot向量相加(统计各词在文本中出现次数,在词集模型的基础上。) 3.词袋模型+IDF:...
  • 常见的文本特征(句向量)提取方法.pdf
  • 最近一直在研究NLP的文本相似度算法,本文将利用TF-IDF特征向量和Simhash指纹计算中文文本的相似度。 2、计算过程 准备测试数据 预处理读到的数据 加载数据到Map中 输入用户问题 利用TF特征向量和Simhash...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 106,696
精华内容 42,678
关键字:

文本特征向量