精华内容
下载资源
问答
  • 基于中文新闻信息分类体系,探索了中文新闻信息分类与代码的自动分类方法。根据中文新闻信息分类与代码的特点以及初始主题词满足的规则获得分类的初始主题词,利用获得的
  • 为了有效地利用信息技术发展而产生的海量信息,信息检索与数据挖掘得到了快速的发展,通过对传统支持向量机的特点分析,针对其在文本分类中的局限性,采用了一种基于二叉树的模糊支持向量机的多分类算法,通过实验证明该...
  • 当你的分类模型有数百个或数千个特征,由于是文本分类的情况下,许多(如果不是大多数)的特点是低信息量的,这是一个不错的选择。这些特征对所有都是通用的,因此在分类过程中作出很小贡献。个别是无害的,但汇总...

    当你的分类模型有数百个或数千个特征,由于是文本分类的情况下,许多(如果不是大多数)的特点是低信息量的,这是一个不错的选择。这些特征对所有类都是通用的,因此在分类过程中作出很小贡献。个别是无害的,但汇总的话,低信息量的特征会降低性能。

    通过消除噪声数据给你的模型清晰度,这样就去除了低信息量特征。它可以把你从过拟合和维数灾难中救出来。当你只使用更高的信息特征,可以提高性能,同时也降低了模型的大小,从而导致伴随着更快的训练和分类的是,使用更少的内存的大小。删除特征似乎直觉错了,但请等你看到结果。

    高信息量特征的选择


    用同样的evaluate_classifier方法在以前的文章上使用二元组分类,我用10000最具信息量的词得到了以下的结果:

    evaluating best word features
    accuracy: 0.93
    pos precision: 0.890909090909
    pos recall: 0.98
    neg precision: 0.977777777778
    neg recall: 0.88
    Most Informative Features
                 magnificent = True              pos : neg    =     15.0 : 1.0
                 outstanding = True              pos : neg    =     13.6 : 1.0
                   insulting = True              neg : pos    =     13.0 : 1.0
                  vulnerable = True              pos : neg    =     12.3 : 1.0
                   ludicrous = True              neg : pos    =     11.8 : 1.0
                      avoids = True              pos : neg    =     11.7 : 1.0
                 uninvolving = True              neg : pos    =     11.7 : 1.0
                  astounding = True              pos : neg    =     10.3 : 1.0
                 fascination = True              pos : neg    =     10.3 : 1.0
                     idiotic = True              neg : pos    =      9.8 : 1.0
    把这个与使用了所有单词作为特征的第一篇文章中的情感分类相比:

    evaluating single word features
    accuracy: 0.728
    pos precision: 0.651595744681
    pos recall: 0.98
    neg precision: 0.959677419355
    neg recall: 0.476
    Most Informative Features
             magnificent = True              pos : neg    =     15.0 : 1.0
             outstanding = True              pos : neg    =     13.6 : 1.0
               insulting = True              neg : pos    =     13.0 : 1.0
              vulnerable = True              pos : neg    =     12.3 : 1.0
               ludicrous = True              neg : pos    =     11.8 : 1.0
                  avoids = True              pos : neg    =     11.7 : 1.0
             uninvolving = True              neg : pos    =     11.7 : 1.0
              astounding = True              pos : neg    =     10.3 : 1.0
             fascination = True              pos : neg    =     10.3 : 1.0
                 idiotic = True              neg : pos    =      9.8 : 1.0
    只用最好的10000个词,accuracy就超过了20%和POS precision增加了近24%,而负召回提高40%以上。这些都是巨大的增加,没有减少,POS召回和NEG精度甚至略有增加。下面是我得到这些结果的完整代码和解释。

    import collections, itertools
    import nltk.classify.util, nltk.metrics
    from nltk.classify import NaiveBayesClassifier
    from nltk.corpus import movie_reviews, stopwords
    from nltk.collocations import BigramCollocationFinder
    from nltk.metrics import BigramAssocMeasures
    from nltk.probability import FreqDist, ConditionalFreqDist
     
    def evaluate_classifier(featx):
        negids = movie_reviews.fileids('neg')
        posids = movie_reviews.fileids('pos')
     
        negfeats = [(featx(movie_reviews.words(fileids=[f])), 'neg') for f in negids]
        posfeats = [(featx(movie_reviews.words(fileids=[f])), 'pos') for f in posids]
     
        negcutoff = len(negfeats)*3/4
        poscutoff = len(posfeats)*3/4
     
        trainfeats = negfeats[:negcutoff] + posfeats[:poscutoff]
        testfeats = negfeats[negcutoff:] + posfeats[poscutoff:]
     
        classifier = NaiveBayesClassifier.train(trainfeats)
        refsets = collections.defaultdict(set)
        testsets = collections.defaultdict(set)
     
        for i, (feats, label) in enumerate(testfeats):
                refsets[label].add(i)
                observed = classifier.classify(feats)
                testsets[observed].add(i)
     
        print 'accuracy:', nltk.classify.util.accuracy(classifier, testfeats)
        print 'pos precision:', nltk.metrics.precision(refsets['pos'], testsets['pos'])
        print 'pos recall:', nltk.metrics.recall(refsets['pos'], testsets['pos'])
        print 'neg precision:', nltk.metrics.precision(refsets['neg'], testsets['neg'])
        print 'neg recall:', nltk.metrics.recall(refsets['neg'], testsets['neg'])
        classifier.show_most_informative_features()
     
    def word_feats(words):
        return dict([(word, True) for word in words])
     
    print 'evaluating single word features'
    evaluate_classifier(word_feats)
     
    word_fd = FreqDist()
    label_word_fd = ConditionalFreqDist()
     
    for word in movie_reviews.words(categories=['pos']):
        word_fd.inc(word.lower())
        label_word_fd['pos'].inc(word.lower())
     
    for word in movie_reviews.words(categories=['neg']):
        word_fd.inc(word.lower())
        label_word_fd['neg'].inc(word.lower())
     
    # n_ii = label_word_fd[label][word]
    # n_ix = word_fd[word]
    # n_xi = label_word_fd[label].N()
    # n_xx = label_word_fd.N()
     
    pos_word_count = label_word_fd['pos'].N()
    neg_word_count = label_word_fd['neg'].N()
    total_word_count = pos_word_count + neg_word_count
     
    word_scores = {}
     
    for word, freq in word_fd.iteritems():
        pos_score = BigramAssocMeasures.chi_sq(label_word_fd['pos'][word],
            (freq, pos_word_count), total_word_count)
        neg_score = BigramAssocMeasures.chi_sq(label_word_fd['neg'][word],
            (freq, neg_word_count), total_word_count)
        word_scores[word] = pos_score + neg_score
     
    best = sorted(word_scores.iteritems(), key=lambda (w,s): s, reverse=True)[:10000]
    bestwords = set([w for w, s in best])
     
    def best_word_feats(words):
        return dict([(word, True) for word in words if word in bestwords])
     
    print 'evaluating best word features'
    evaluate_classifier(best_word_feats)
     
    def best_bigram_word_feats(words, score_fn=BigramAssocMeasures.chi_sq, n=200):
        bigram_finder = BigramCollocationFinder.from_words(words)
        bigrams = bigram_finder.nbest(score_fn, n)
        d = dict([(bigram, True) for bigram in bigrams])
        d.update(best_word_feats(words))
        return d
     
    print 'evaluating best words + bigram chi_sq word features'
    evaluate_classifier(best_bigram_word_feats)
    

    计算信息增益

    要找到最具信息的特征,我们需要为每个词计算信息增益。分类的信息增益是一项度量一个常见的特征在一个特定的类和其他类中的对比。一个主要出现在正面电影评论中的词,很少在负面评论中出现就是具有高的信息量。例如,在电影评论中“magnificent”的存在是一个重要指标,表明是正向的。这使得“magnificent”是高信息量的词。注意,上面的信息量最大的特征并没有改变。这是有道理的,因为该观点是只使用最有信息量的特征而忽略其他。

    一个是信息增益的最佳指标是卡方。 NLTK在度量标准数据包的BigramAssocMeasures类中包含有它。要使用它,首先我们需要计算每个词的频率:其整体频率及其各类别内的频率。用FreqDist来表示单词的整体频率,ConditionalFreqDist的条件是类别标签。一旦我们有了这些数字,我们就可以用BigramAssocMeasures.chi_sq函数为词汇计算评分,然后按分数排序,放入一个集合里,取前10000个。然后,我们把这些单词放到一个集合中,并在我们的特征选择函数中使用一组成员资格测试仅选择出现在集合的那些词。现在,基于这些高信息量的词,每个文件都被分类了。

    显著的二元词组

    上面的代码还评估了包含200个显著二元词组的搭配。下面是结果:

    evaluating best words + bigram chi_sq word features
    accuracy: 0.92
    pos precision: 0.913385826772
    pos recall: 0.928
    neg precision: 0.926829268293
    neg recall: 0.912
    Most Informative Features
                 magnificent = True              pos : neg    =     15.0 : 1.0
                 outstanding = True              pos : neg    =     13.6 : 1.0
                   insulting = True              neg : pos    =     13.0 : 1.0
                  vulnerable = True              pos : neg    =     12.3 : 1.0
           ('matt', 'damon') = True              pos : neg    =     12.3 : 1.0
              ('give', 'us') = True              neg : pos    =     12.3 : 1.0
                   ludicrous = True              neg : pos    =     11.8 : 1.0
                 uninvolving = True              neg : pos    =     11.7 : 1.0
                      avoids = True              pos : neg    =     11.7 : 1.0
        ('absolutely', 'no') = True              neg : pos    =     10.6 : 1.0
    这表明,只采用高信息量的词的时候二元组并没有多重要。在这种情况下,评估包括二元组或没有的区别的最好方法是看精度和召回。用二元组,你得到的每个类的更均匀的性能。如果没有二元组,准确率和召回率不太平衡。但差异可能取决于您的特定数据,所以不要假设这些观察总是正确的。

    改善特征选择

    这里最大的教训是,改善特征选择会改善你的分类器。降维是提高分类器性能的你可以做的最好的事情之一。如果数据不增加价值,抛弃也没关系的。特别推荐的是有时数据实际上使你的模型变得更糟。


    原文:http://streamhacker.com/2010/06/16/text-classification-sentiment-analysis-eliminate-low-information-features/

    展开全文
  • 记一个文本分类系统实现

    千次阅读 2014-12-29 16:18:50
    文本分类以文本数据为分类对象,本质上是机器学习方法在信息检索领域的一种应用,可以继承机器学习领域的很多概念和方法,但同时也需要结合信息检索领域的特点进行处理。主要研究的方向是:文本分词方法、文本特征...

    基于信息检索课程,完成实现了一个文本分类系统,现记录一下整个实现过程。

    文本分类以文本数据为分类对象,本质上是机器学习方法在信息检索领域的一种应用,可以继承机器学习领域的很多概念和方法,但同时也需要结合信息检索领域的特点进行处理。主要研究的方向是:文本分词方法、文本特征提取方法、分类算法。

    本人主要使用了5种常用的分类算法,分别是kNN、Rocchio、NBC、SVM和ANN,对每种算法的结果进行了比较,使用了十折交叉验证绘制了各自的准确率曲线。由于本系统基于的搜狗语料库,是中文文本,因此使用的分词工具是Python实现的中文分词工具jieba。使用的特征提取方法是信息增益。

    1、语料

    选择搜狗语料库的Reduced版本,一共有9个类别每个类别1990篇文章。考虑到实现规模,从每个类别中选择了600篇文档一共5400篇文档作为训练样本。共有9个类别,标号对应如下:(搜狗语料类别– 分类标号 – 类别名称)

    • C000008—— 1 —— 财经
    • C000010—— 2 —— IT
    • C000013—— 3 —— 健康
    • C000014—— 5 —— 体育
    • C000016—— 4 —— 旅游
    • C000020—— 6 —— 教育
    • C000022—— 7 —— 招聘
    • C000023—— 8 —— 文化
    • C000024—— 9 —— 军事
    2、分词
    本系统使用python语言实现,同时是针对中文文章进行分词,因此选取了jieba(项目见Github)这个专门用于中文分词的python工具。

    针对上述5400篇训练样本,首先使用jieba进行分词,共得到157269个词项。然后编写python程序,计算每个类别下的每篇文章的tf,得到所有文档集的倒排记录表。同时统计每个词项的df并计算idf保存到文件中供后续使用。

    3、特征提取

    对分词后得到的157269个词项,首先使用jieba工具的标签抽取函数,输入idf和停用词,得到初步的6445个候选特征。

    接着使用信息增益(IG)这种特征提取方法,在候选特征中计算每个词项对9个类别的信息增益。信息增益计算如下:


    同时结合文档频率(DF)进行过滤,将小于DF小于5的词项过滤掉,然后设置IG的不同阈值得到不同阈值下特征,最终得出阈值为0.016,特征数目为967时分类效果最好。

    4、向量化表示

    根据上述得到的特征,对5400篇文档进行向量化表示,每篇文章都是一个967维的向量。第一种是使用tf(词项频率),分别计算出不同维数下的向量。第二种是使用tf-idf方式,对每篇文档的每个特征进行向量化,得到每个特征的tf-idf值。

    5、分类器训练

    所选择的五种分类算法中,kNN、Rocchio、NBC和ANN是使用python自行实现,SVM是使用python调用了libsvm程序实现。这写算法的具体实现在此不予赘述,具体可参考各类机器学习方法的书籍。

    6、系统实现

    最终基于python CGI实现了一个web应用系统,支持输入一个新闻url后,系统输入对应的分类结果,同时支持url文件上传进行批量分类。界面如下:


    上传url文件后,分类结果显示如下:


    说明:分类url目前仅支持搜狐、腾讯、网易、新浪四个网站的新闻类页面的文章。

    参考:

    [1] Joachims, T. . Textcategorization with Support Vector Machines: Learning with many relevantfeatures. In Machine Learning[C]. ECML-98, Tenth European Conference on MachineLearning, 1998: 137--142.

    [2] Wikipedia. Documentclassification [DB/OL].

    http://en.wikipedia.org/wiki/Document_classification.2014

    [3] Fandywang. 斯坦福大学自然语言处理第六课“文本分类(Text Classification)”[DB/OL].http://52opencourse.com/222/斯坦福大学自然语言处理第六课“文本分类(Text Classification). 2012.

    [4] Li F., Yang Y. A LossFunction Analysis for Classification Methods in Text Categorization[C].International Conference on Machine Learning (ICML), 2003: 472-479.

    [5] 申红,吕宝粮,内山将夫,井佐原均. 文本分类的特征提取方法比较与改进[J]. 计算机仿真, 2006, 23(3): 222-225



    展开全文
  • 本文提出的基于事件卷积特征的模型,在利用事件含有语 义和语言结构信息的特点上,使用卷积神经网络提取事件特征, 并在新闻语料的分类上取得了良好的性能。
  • 文本分类小结

    千次阅读 2015-02-13 11:25:10
    一:特征提取 文本分类中一个重要的工作部分就是特征提取。常见的特征词提取方法有卡方,信息增益,信息...不同的特征提取方法,会有自己的特点,用不同的分类的方法,效果也不一样,不能一概而论(遇到过数据集特征提

    一:特征提取

    文本分类中一个重要的工作部分就是特征提取。常见的特征词提取方法有卡方,信息增益,信息增益比,期望KL距离等。链接

    http://blog.csdn.net/fighting_one_piece/article/details/37912051,这篇博客讲的十分详细,就不重复写了。不同的特征提取方法,会有自己的特点,用不同的分类的方法,效果也不一样,不能一概而论(遇到过数据集特征提取后,性能反而下降了,应该是数据集本身比较小的原因。)。但是总体来说期望KL距离的效果会稍微好一点。如图在训练集为商品名称,期望交叉熵特征提取的结果中,排在前面的特征词,效果是很好的:


    排在最末尾的是:


    而且在用NB的测试中,其特征提取的效果也是最好的。

    二:常用分类算法

    最近在针对商品title进行三级类目分类的学习。常用的开源工具有libshortText和maxent,这两个工具都非常厉害,准确率超高,在实践过程中发现,训练测试集98%的准确率(与数据集应该有关系),很容易。在抽查预测效果的时候,准确率依然很高,大于96%。

    最大熵maxent 和逻辑回归的关系,本博客中有篇详细解释了。也就是说当libshortText用LR的时候(SVM例外),二分类情况下,libshortText 和maxent几乎是一样的。但是这两个工具也有些区别,1)对于多分类的实现上,maxent一个模型学习所有分类,而libshortText是学习one-vs-rest,也就是有多少个类别,会学习多少个模型。2)因为有了(1)的因,导致的结果是,libshortText比maxent准确率有微弱的优势(1%左右),我的实验libshortText:99.327%, maxent: 98.4065%(还有改进余地),可以说两者旗鼓相当,不分伯仲。但是对机器的要求却大不一样,maxent,对机器要求不高,但是LibshortText很吃内存,容易使得机器死掉,只要机器内存够大,训练起来也很快,其内存需求一般与类别的数目有关系,类别越多,越吃内存。

    LibshortText本身不支持中文,需要修改一些地方支持中文分类。

    三:

    单个模型已经这么吊了,让人膜拜。开源质量让人佩服。

    最后对文本分类问题,可以有帮助的地方,可能有以下几方面,1)分词,暂时不是瓶颈吧,是个方向 2)模型融合,这块值得学习。美团刚分享了一篇文章有一些关于这方面的内容,感觉会有很大的帮助,正在实践中。

    展开全文
  • 获取系统文件数据文本文件纯二进制文件系统文件的特点获取系统时间 获取系统文件数据 什么是系统文件 就是Linux系统自己会用到的文件,分为两文本文件 里面的内容都是文字编码,vi打开后,我们能够识别的数据。...

    获取系统文件数据

    什么是系统文件
    就是Linux系统自己会用到的文件,分为两类。

    文本文件

    里面的内容都是文字编码,vi打开后,我们能够识别的数据。
    存放的都是Linux系统要用到各种配置信息。Linux系统在启动和运行时,会用到里面的数据。

    我们自己写的程序,有的时候也需要用到里数据,但是我们基本只是读数据,大多数情况只有Linux系统才会去改里面的数据,后面几篇博客我们会介绍我们自己的程序,如何来调用API来获取里面的数据。

    比如后面要讲的/etc/passwd文件里面放的是用户的账户信息。
    用户登录系统时,输入用户名和密码后,Linux会使用你输入的用户名和密码,然后到这个文件中匹配注册的用户名和密码,只有匹配成功后才能登录,否者你是登录不了的。

    文本形式的系统文件,大多放在了/etc这个目录下,后面几篇要介绍的系统文件,都是/etc/下的文件。

    我们打开etc目录进行查看:
    在这里插入图片描述

    纯二进制文件

    比如各种编译好的库、以及可执行文件(程序),里面放是能够被cpu执行的机器指令。库文件都放在了各种名叫lib的目录下,比如/lib,lib就是库的意思。其实有好多lib目录,比如/lib、/usr/lib等,有关它们的区别,我们这里不做过多说明。各种可执行文件,比如ls、mkdir等这些命令(可执行程序),都放在了各种名叫bin的目录下,比如/bin,bin就是binary二进制的意思。bin目录也有很多,比如/bin,/usr/bin等。

    我们进入bin目录查看:
    在这里插入图片描述

    我们截取到的只是一部分。

    二进制文件,我们vi后是看不懂的因为里面放的不是文字编码,所以文本编辑器无法正确翻译为文字图形,所以我们无法看懂。

    系统文件的特点

    系统文件的所属用户都是root,所属组也基本都是root。
    我们进行查看:

    在这里插入图片描述

    普通用户操作系统文件时,只能以其它用户的身份去操作,而其它用户的权限往往只有r,所以普通用户一般情况下不能写系统文件,只能读里面的数据,只要你不能写,就不会对Linux系统构成威胁。

    在这里插入图片描述

    有些非常重要的系统文件,甚至都不允许普通用户读,
    例如/etc/shadow文件。

    在这里插入图片描述

    我这台机器的/etc/shadow权限是0000

    对于普通用户来说,一般情况下,只有读系统文件的需要,如果你要修改里面的内容的话,必须要使用sudo,临时获取root身份,才能拥有root(管理员用户)才有写权限,只有这样才能修改系统文件。

    用户自己的程序,需要获取系统文件数据时,而不是使用命令获取,可以自己调用open、read等文件io函数操作这些文件,同样的一般只能读,不能写,如果你要写,必须以root身份运行程序,然后你才能修改文件,不过一般情况下我们只有读取数据的需求。

    为了方便操作,系统提供了专门的函数,调用这些函数可以很方便的操作文件中的数据,比我们自己调用open、read更方便,这些函数其实也是靠封装open、read等文件io函数来实现的。

    其实Linux的系统文件有很多,比如
    (a)/etc/passwd:存放用户账户信息的文件
    (b)/ext/shadow:存放密码,用户密码其实单独存放的
    (c)/etc/group:组信息
    (d)/etc/setvices:各种网络服务器的信息
    (e)/etc/protocols:各种协议的协议号
    (f)/etc/networks:网络配置信息

    后面几篇博客重点我们只说明a b c这三个系统文件,其它的后面涉及到了,再具体说明。

    为什么介绍/etc/passwd、/ext/shadow、/etc/group这三个系统文件?

    每次登陆系统时,都需要输入用户名和密码,因此我们有必要了解下Linux是如何管理账户信息的。

    实际上其它的软件,比如人事管理系统、银行管理系统、其它OS,在管理用户的账户、密码时,都采用了类似的管理机制,仅站在知识面扩展的角度来说,很有必要了解下。

    还有就是需要完善我们之前博客所实现的my_ls程序
    my_ls在显示文件属性时,文件的属主还是ID形式。

    我们需要将ID换为名字,这就必须涉及到/etc/passed、/ext/shadow、/etc/group这三个文件。

    获取系统时间

    获取系统时间就是获取:年 月 日 时 分 秒。

    获取时间的API
    为了方便应用程序获取时间,我们可以调用相应的API。
    比如我的运行于Linux系统的C程序,需要用到系统时间时,就可以调用这些API来获取时间,

    这些API有:
    time :Linux的系统API
    gmtime、localtime、mktime、ctime、asctime、strftime :c库API
    库API需要系统API time的支持,后面会介绍到。

    其实所有语言的库,都有获取时间的库API,不过这些库API,同样都是基于系统API实现的。

    在这里插入图片描述

    展开全文
  • 针对专题文本资源主题相近、内容专深、特征相似的特点,基于长短期记忆模型,提出一种融合注意力机制的人文社科专题文本资源分类模型。采用词向量完成样本文本数字化,利用长短期记忆模型进行语义特征提取,并引入注意力...
  • 结合网购评论文本的特点,分别从网购评论文本情感信息的抽取、分类以及情感信息的检索与归纳三个方面来阐述文本情感分析在网购评论领域的实际应用前景。其中,网购评论文本情感信息的抽取和分类是进行网购评论文本...
  • 1.研究背景 普通卷积神经网络研究对象是具备规则空间结构数据,如图片是规则正方形,这些...GCN每次计算操作,都是把每个节点和它相邻节点的信息聚集起来,所以特征每次抽取完都会更加抽象。 2.TextGCN模型设
  • 文本分析是指文本中抽取特征词进行量化以表示文本信息。...先决条件:将无结构化原始文本转化为结构化,计算机可以识别和处理的信息。 优势特点:从而可以利用机器学习,分类聚类等算法,对文本进行分析...
  • 文本情感分析

    2013-04-22 17:36:54
    结合网购评论文本的特点,分别从网购评论文本情感信息的抽取、分类以及情感信息的检索与归纳三个方面来阐述文本情感分析在网购评论领域的实际应用。其中,网购评论文本情感信息的抽取和分类是进行网购评论文本情感...
  • 引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再...
  • 全球多达80%的大数据是非结构化的,如博客、微博、微信、设备日志、与客服代表的会话等都属于非结构化数据,人类的自然语言非常复杂,一句...这有助于发掘客户的特点,并将其转换成结构化的数字输出到预测模型。 2...
  • 文件只有470k,启动速度非常快,拿它代替win默认的文本工具最合适,放在优盘也很方便。 自带多标签功能可以更好分类存放文字信息 文件实时自动保存功能解决了关机时忘记保存后顾之忧 另外还有窗口置顶非常适合...
  • 针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本...
  • 主题模型是当前文本表示研究主要范式,起初主要研究聚焦于文本分类和信息检索等领域。具有代表性主题模型有PLSA(probabilisticlatentsemanticanalysis)[1]和LDA(latentDirichletdistribution)[2]。这些传统基于...
  • 针对分类信息网站的特点,可以为每个不同的信息类别指定不同的发布表单和查询模版。 [>]和分类信息相关的文章资讯频道 可以和分类信息类别相关联的文章资讯频道,在不同的分类信息频道显示不通的文章资讯 [>]全站...
  • 阵的高维性、稀疏性等特点文本的每一个类别聚类时限定于所选关键词的一个子集, 因此本文在每一个聚类簇上根据变量对聚类结果贡献的重要程度赋予其不同的权值,重 要的变量赋予较大的权值,可以有效地解决文本数据...
  • 文本分析基础知识

    千次阅读 2016-04-15 10:05:34
    先决条件:将无结构化原始文本转化为结构化,计算机可以识别和处理的信息。 优势特点:从而可以利用机器学习,分类聚类等算法,对文本进行分析处理。 关键环节:对文本进行抽象,建立数学模型,用来描述和代替...
  • FastText是Facebook AI Research推出的文本分类和词训练工具,它最大特点是模型简单并且在文本分类准确率上,和现有深度学习方法效果相近,即在保证了准确率情况下大大缩短了分类时间。
  • 文本聚类(Text Clustering),是依据同类文档相似度较大,而不同类的文档相似度较小原则,使用无监督机器学习方法,将同类文档从目标语料库聚集到一簇任务。聚类不需要训练过程,也不需要预先对文档进行手工...
  • 针对短文本所描述信号弱的特点,提出一种基于特征扩展的中文短文本分类方法。该方法首先利用FP-Growth算法挖掘训练集特征项与测试集特征项之间的共现关系,然后用得到的关联规则对短文本测试文档中的概念词语进行特征...
  • 现象:因特网资源呈现多语言化和跨语言的特点,给普通用户获取非母语网络信息造成障碍。 目标:整合多语言倾向信息,以通用的数据形式让用户了解多语言数据对某个对象的评价。 针对跨语言情感倾向分类任务,...
  • 打破空间和时间限制,帮助我们去观察那些离我们很远人,有哪些特点、或者他们的文本传递了哪些信息。 情绪、文本相似性、复杂度、主题分类是最常用分析侧重点。 2.完全没有编程基础外行如何实现文本...
  • 文本网创建于07年,长期从事专业网站内管理系统开发与建设,经过长期研究与实践,成功开发出多套网站应用系统。好文本网始终秉承简单、易用、轻巧、快速理念,为广大站长提供操作简单,部署灵活,界面简洁建...
  • 背景长文本由于自身的特点信息量,一段文本会描述一个特定的主题。短文本由于其自身长度的原因是缺少这种特征的。一般对于短文本的处理会借鉴上下文的语料或者同义词来扩充短文本的含义。但是由于文本的领域相关性...
  • 不管是Web应用还是Windows Forms 应用,系统日志我们都经常用到。...这里就是一个用文本文件记录日志简单实用日志,它有如下几个特点: 1)按日期每天生产不同日志文件,方便按照日期来查找日志。 ...
  • php实现根据浏览器ua信息检测用户是否用手机(Mobile)访问网站的类发布于 2015-01-29 13:57:25 | 152 次阅读 | 评论: 0 | 来源: 网友投递PHP开源脚本语言PHP(外文名: Hypertext Preprocessor,中文名:“超文本预...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 620
精华内容 248
关键字:

信息类文本的特点