精华内容
下载资源
问答
  • “噪音数据”的清洗是ETL过程中数据清洗的重要组成部分,目前对“噪音 数据”清洗的主要技术有聚类、统计、回归、分箱等。其中对聚类、统计、回归的研究及应用比较广泛,文献还介绍了学习型的算法,主要代表算法是一...

    “噪音数据”的清洗是ETL过程中数据清洗的重要组成部分,目前对“噪音 数据”清洗的主要技术有聚类、统计、回归、分箱等。其中对聚类、统计、回归的研究及应用比较广泛,文献还介绍了学习型的算法,主要代表算法是一种基于遗传的神经网络算法,但其大都针对行业的特殊性以及数据的特殊性制定相应得解决方案。“噪音数据”数据清洗过程是先删除异常数据,然后再进行修补。

    1、聚类分析

    聚类是按某种标准将数据集分组为多个组或簇,同一簇中的数据具有高度相似性,而不同簇的数据差别较大。目前已有大量聚类算法。典型的聚类算法如k-means(k-平均值)[22]、k-medoids(k-中心点)算法。算法的选择取决于数据的类型、聚类的目的和应用。算法的选择取决于数据自身的特征和聚类应用的目的。聚类可以实现噪声清洗,它根据大多数原则,将被分组在较小簇中的数据视为噪声。用于噪声识别的聚类方法主要指基于距离的噪声识别:以数据集中两两数据间的距离为分组依据,对数据集进行聚类分析。聚类方法的缺点是在噪声处理前需要了解数据集中噪声的分布情况,否则难以确定聚类分组的次数。

    2、统计方法

    根据统计学原理(切比雪夫定理),使用数据的平均值、标准差、置信区间可以识别异常数据,称为基于平均值的噪声识别;有时用中值取代平均值,称为基于中值的噪声识别。基于统计的数据清洗方法在日常生活中被广泛使用(如奥运会上体操、跳水等比赛项目的打分制度),该方法的缺点是在噪声处理前需要了解数据集中的噪声规模,否则难以确定用于噪声识别的置信区间。

    3、线性回归分析

    线性回归法是利用样本和整体信息对噪声数据中的缺失值进行估计。在数值预测中常用到的是一元线性回归法,这也是在本课题中用到的方法。一元回归是处理两个变量之问的关系,,每次计算新的两个变量的关系为线性的就是一元线性回归。一元线性回归用到了最消二乘解法解,此解法直接利用矩阵求解,因此运算过程中包含矩阵求逆运算,因而计算量和存储量很大,硬件实现困难,不利于工程应用。

    4、机器学习型方法

    机器学习型方法的主要代表算法只要基于遗传的神经网络算法,遗传神经网络(Genetic Algorithms Neurology Network,GANN)的主要思想:利用遗传(Genetic Algorithms)算法的优点来克服误差反向传播(Back Propagation,BP)算法收敛慢和易局部收敛的缺陷,同时,与BP算法的结合也解决了单独利用GA 往往只能在短时间内寻找到接近最优解的这一问题,引入BP  算法的梯度信息将会避免这种现象。BP 神经网络和遗传算法结合有两种方式。 先BP 后GA:先用BP 训练一个预先选定结构的人工神经网络(Artificial Neural Network,ANN),直到平均误差不再有意义地减少时为止,然后在此基础上用GA进行若干代的优化。重复进行这样的搜索,直到误差范围达到满意的要求或者发现搜索不收敛为止。这种组合方法的基本思想是先用BP 确定使误差函数取极小值的参数组合在参数空间的位置,再利用GA去掉可能的局部极小。先GA 后BP:先用GA 反复优化描述ANN 模型的参数组合,直到适应函数的平均误差不再有意义地增加为止。在此基础上再用BP 算法对它们进行优化。这种组合方法的基本思想是先用GA 粗选ANN 模型,再用BP 算法精细与优化。这种组合方法的优点是通用性好,既可像前一组合方法那样用来优选指定结构下的部分参数,也可用来优选其他的参数(如ANN 的结构、学习率),甚至还可用于优选它们的组合。

    神经网络的三个基本要素是:(1)神经元,即人工神经网络的基本处理单元,在网络中称为节点或网点。它的作用是把若干输入加权求和,并对这种加权和进行非线性处理然后输出;(2)网络拓扑,即网络的结构以及神经元彼此联接的方式。根据联接方式的不同,网络可以分为反馈(Recurrent)型网(又称循环网)以及非反馈型网。前者指的是在神经元之间存在着反馈环路。对于非反馈网来说,如果神经元是分层次排列的,并且每一层神经元只与其上一层神经元相联,则这种网络称为前馈(Feed-forward)型网;(3)网络的训练(学习)算法。训练算法是指一些决定连接各神经元的初始权值和阈值以及如何随着训练模式的加入而调整这些权值和阈值的方法。通过训练来调整各神经元之间的连接权值以及神经元本身的阈值,以使神经网络达到所希望的性能。

    北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

    NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。

    从所周知,大数据已经不简简单单是数据大的事实了, 而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。 那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度, 多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的挖掘方法在大数据领域就显得尤为重要, 可以说是决定最终信息是否有价值的决定性因素。

    展开全文
  • TF-IDF(Term Frequency-Inverse Document Frequency)即“词频-反文档频率”,主要由TF和IDF两部分组成。TF-IDF是一种用于资讯检索与资讯探勘常用加权技术,是一种统计方法,用于评估一个词对于一个文件集或一个...

    一、概念

    TF-IDF(Term Frequency-Inverse Document Frequency)即“词频-反文档频率”,主要由TF和IDF两部分组成。TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,是一种统计方法,用于评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要程度与它在文件中出现的次数成正比,但同时与它在语料库中出现的频率成反比。

    TF——词频:一个词在文章中出现的次数。

    在计算词频时,需要注意停用词的过滤。什么是停用词:在文章中出现次数最多的“的”、“是”、“在”等最常用词,但对结果毫无帮助,必须过滤的词。

    TF计算有两种方式,具体公式如下:

     

    IDF——反文档频率:一个词在所有文章中出现的频率。如果包含这个词的文章越少,IDF越大,则说明词具有很好的类别区分能力。计算公式如下:

    将TF和IDF相乘,就得到一个词的TF-IDF值,某个词对文章的重要性越高,该值越大,于是排在前面的几个词,就是这篇文章的关键词。

     

    TF-IDF总结:

    优点:简单快速,结果比较符合实际情况。

    缺点:单纯以“词频”做衡量标准,不够全面,有时重要的词可能出现的次数不多。

     

    二、用python实现TF-IDF的计算

    将下图所示的已经分好词的文章作为语料库,计算101it.seg.cln.txt中的TF-IDF。

     

    具体实现代码如下:

    # -*- coding: utf-8 -*-
    import os
    import math
    
    # 要计算TF-IDF的文章路径
    file_path = './data/101it.seg.cln.txt'
    # 语料库目录路径
    data_dir_path = './data'
    
    # 获取文章内容
    def read_content(file):
        content = open(file, 'r', encoding='UTF-8')
        return content
    
    # 计算IDF
    def calculate_idf(dir_path):
        all_word_set = set()
        article_list = []
        article_count = 0
        for fd in os.listdir(dir_path):
            article_count += 1
            file = dir_path + '/' + fd
            content = read_content(file)
            content_set = set()
            for line in content:
                word_tmp = line.strip().split(' ')
                for word in word_tmp:
                    word = word.strip()
                    all_word_set.add(word)
                    content_set.add(word)
            article_list.append(content_set)
    
        idf_dict = {}
        for word in all_word_set:
            count = 0
            for article in article_list:
                if word in article:
                    count += 1
            idf_dict[word] = math.log(float(article_count)/(float(count) + 1.0))
    
        return idf_dict
    
    # 计算TF
    def calculate_tf(file):
        content = read_content(file)
        word_set = set()
        word_dict = {}
        word_count = 0
        # 计算词频和文章总词数
        for line in content:
            word_tmp = line.strip().split(' ')
            for word in word_tmp:
                word = word.strip()
                if word not in word_dict:
                    word_dict[word] = 1
                else:
                    word_dict[word] += 1
                word_count += 1
                word_set.add(word)
        # 计算TF
        for tmp in word_set:
            word_dict[tmp] = float(word_dict[tmp])/float(word_count)
        return word_dict
    
    
    if __name__ == "__main__":
        idf_dict = calculate_idf(data_dir_path)
        tf_dict = calculate_tf(file_path)
        tfidf_dict = {}
        for key in tf_dict:
            tfidf_dict[key] = tf_dict[key] * idf_dict[key]
        print(tfidf_dict)
    

    三、TF-IDF应用:

    TF-IDF有下面几个应用,具体的实现后续文章再给大家介绍:

    1、提取文章的关键词

    2、TF-IDF结合余弦相似度找相似文章

    3、给文章自动生成摘要

    展开全文
  • 本文通过针对欧盟成员国国家图书馆在线调查(定性研究),对网络采集和归档各个组成部分进行研究。 作者研究小组向欧盟国家图书馆提出了17个问题。 调查输出来自欧盟成员国22个国家图书馆提供答案。 问卷是...
  • 文本分类

    千次阅读 2016-06-15 13:41:04
    概览 自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。 文本分类是指按照预先定义的主题类别,为...它是许多数据管理任务的重要组成部分

    概览

      自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。

      文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.文本分类是文本挖掘的一个重要内容。

      所谓文本分类,是指对所给出的文本,给出预定义的一个或多个类别标号,对文本进行准确、高效的分类.它是许多数据管理任务的重要组成部分。

      文本分类是指按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档。

      文本分类是指在给定的分类体系下,根据文语义元是统计语义方法中的原子,是不可分本的内容自动确定文本类别的过程.当前的文本割的最小单位,在文本分类中语义元是词。

      文本分类(Text categorization)是指在给定分类体系下,根据文本内容自动确定文本类别的过程.20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类.人工分类非常费时,效率非常低.90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣.目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用.

    历史

      文本分类的研究可以追溯到上世纪六十年代,早期的文本分类主要是基于知识工程(Knowledge Engineering),通过手工定义一些规则来对文本进行分类,这种方法费时费力,且必须对某一领域有足够的了解,才能写出合适的规则。到上世纪九十年代,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。

      1971 年,Rocchio 提出了在用户查询中不断通过用户的反馈来修正类权重向量,来构成简单的线性分类器。Mark vanUden、Mun等给出了其他的一些修改权重的方法。1979 年,van Rijsbergen对信息检索领域的研究做了系统的总结,里面关于信息检索的一些概念,如向量空间模型(Vector Space Model)和评估标准如准确率(Precision)、回召率(Recall),后来被陆续地引入文本分类中,文中还重点地讨论了信息检索的概率模型,而后来的文本分类研究大多数是建立在概率模型的基础上。

     1992 年,Lewis 在他的博士论文《Representation and Learning in Information Retrieval》中系统地介绍了文本分类系统实现方法的各个细节,并且在自己建立的数据集Reuters22173(后来去掉一些重复的文本修订为Reuters21578数据集)上进行了测试。这篇博士论文是文本分类领域的经典之作。后来的研究者在特征的降维和分类器的设计方面作了大量的工作,Yiming Yang 对各种特征选择方法,包括信息增益(Information Gain)、互信息(Mutual Information)、统计量等,从实验上进行了分析和比较。她在1997年还对文献上报告的几乎所有的文本分类方法进行了一次大阅兵,在公开数据集Reuters21578和OHSUMED上比较了各个分类器的性能,对后来的研究起到了重要的参考作用。

    1995 年,Vipnik 基于统计理论提出了支持矢量机(Support Vector Machine)方法,基本思想是寻找最优的高维分类超平面。由于它以成熟的小样本统计理论作为基石,因而在机器学习领域受到广泛的重视。Thorsten Joachims第一次将线性核函数的支持矢量机用于文本分类,与传统的算法相比,支持矢量机在分类性能上有了非常大的提高,并且在不同的数据集上显示了算法的鲁棒性。至今,支持矢量机的理论和应用仍是研究的热点。

    在支持矢量机出现的同时,1995年及其后,以Yoav Freund 和Robert E. Schapire发表的关于AdaBoost的论文为标志,机器学习算法的研究出现了另一个高峰。RobertE.Schapire从理论和试验上给出AdaBoost算法框架的合理性。其后的研究者在这个框架下给出了许多的类似的Boosting算法,比较有代表性的有Real AdaBoost,Gentle Boost,LogitBoost等。这些Boosting算法均己被应用到文本分类的研究中,并且取得和支持矢量机一样好的效果。

      总而言之,尽管机器学习理论对于文本分类的研究起了不可低估的作用,在这之前文本分类的研究曾一度处于低潮,但是文本分类的实际应用和它自身的固有的特性给机器学习提出新的挑战,这使得文本分类的研究仍是信息处理领域一个开放的、重要的研究方向。

    中文文本分类

      相比于英文文本分类,中文文本分类的一个重要的差别在于预处理阶段:中文文本的读取需要分词,不像英文文本的单词那样有空格来区分。从简单的查词典的方法,到后来的基于统计语言模型的分词方法,中文分词的技术已趋于成熟。比较有影响力的当属中国科学院计算所开发的汉语词法分析系统ICTCLAS,现已公开发布供中文文本分类的研究使用。

      在很长一段时间内,中文文本分类的研究没有公开的数据集,使得分类算法难以比较。现在一般采用的中文测试集有:北京大学建立的人民日报语料库、清华大学建立的现代汉语语料库等。

      其实一旦经过预处理将中文文本变成了样本矢量的数据矩阵,那么随后的文本分类过程和英文文本分类相同,也就是随后的文本分类过程独立于语种。因此,当前的中文文本分类主要集中在如何利用中文本身的一些特征来更好地表示文本样本。

    关键技术及方法

      分词技术

      对于中文文本而言,因为词与词之间没有明显的切分标志,所以首先需要对中文文本进行分词.现在的分词方法虽然有多种,但归纳起来不外乎两种:一类是机械式分词法,一般以分词词典为依据,通过文档中的汉字串和词表中的词逐一匹配来完成词的切分.另一类是理解式分词法,即利用汉语的语法知识和语义知识以及心理学知识进行分词,需要建立分词数据库、知识库和推理库.后者可谓是理想的方法,但在语法分析、语义分析乃至篇章理解还没有得到解决之前,其分词系统主要采用机械分词法,或者介于二者之间的某种分词方法。

      文本表示

      计算机并不具有人类的智慧,不能读懂文字,所以必须把文本转化成计算机能够理解的形式,即进行文本表示.目前文本表示模型主要是Gerard Salton和McGill于1969年提出的向量空间模型(VSM)。向量空间模型的基本思想是把文档简化为特征项的权重为分量的向量表示:(w1,w2,…,wn),其中wi为第i个特征项的权重,一般选取词作为特征项,权重用词频表示.词频分为绝对词频和相对词频.绝对词频,即用词在文本中出现的频率表示文本;相对词频,即为归一化的词频,其计算方法主要运用TF-IDF公式。

      除了向量空间模型外,还有概率模型.概率模型也考虑词与词的相关性,把文本集中的文档分为相关文档和无关文档.以数学理论中的概率论为原理,通过赋予特征词某个概率值来表示这些词在相关文档和无关文档之间出现的概率,然后计算文档间相关的概率,系统据此概率做出决策。

      特征选择与特征抽取

      由于文本数据的半结构化甚至于无结构化的特点,当用特征向量对文档进行表示的时候,特征向量通常会达到几万维甚至于几十万维.寻求一种有效的特征降维方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中至关重要的问题.降维技术总的可以分为两类:特征选择和特征抽取。

      文本分类算法

      研究文本自动分类的核心问题是如何构造分类函数(分类器),分类函数需要通过某种算法进行学习获得.分类是重要的数据挖掘方法,在文本分类中,几乎存在着和一般分类同样多的方法.在众多的文本分类算法中,重点介绍了Rocchio算法、朴素贝叶斯分类算法、K-近邻算法、决策树算法、神经网络算法和支持向量机算法。

    From: http://wiki.52nlp.cn/

    展开全文
  • 互联网大病公益众筹项目文本分析

    千次阅读 2019-04-30 20:47:07
    摘 要:公益众筹是我国当今公益模式中的重要组成部分,而捐款式公益众筹以其广泛的波及面成为现代公益活动中的重要形式。本文通过文本抓取与挖掘,对腾讯公益、水滴筹、轻松筹三个网络平台上爬取的297个公益众筹项目...

    摘 要:公益众筹是我国当今公益模式中的重要组成部分,而捐款式公益众筹以其广泛的波及面成为现代公益活动中的重要形式。本文通过文本抓取与挖掘,对腾讯公益、水滴筹、轻松筹三个网络平台上爬取的297个公益众筹项目文本进行深度分析,探究其文本特征与项目筹款效率的关系。在对项目文本分词建立了网络众筹词典后,本文利用LDA模型得到了帮助类词语、金融类词语、慈善类词语、感叹类词语、第一人称词语五个主要的词汇主题,经过回归得出结论为帮助类词语、金融类词语、慈善类词语、感叹类词语、第一人称词语所发出的信号对捐款者行为有正向作用;参考HowNet词典对五个主题包含的词汇进行同义词合并,并提取了其中词频较高的20个词语进行回归分析,我们得出结论为“帮”、“谢”作为关键字词对于项目筹款效率存在显著正向关系。
    关键词:公益众筹;文本分析;LDA模型;计量实证

    Analysis of Factors on Affecting the Efficiency of Internet Public Welfare Crowdfunding
    ----based on text mining from the project text perspective
    Abstract: Public welfare crowdfunding is an important part of China’s current public welfare model, and donated public welfare crowdfunding has become an important form of modern public welfare activities with its wide spread. Through text grabbing and text mining, this paper conducts an in-depth analysis of 297 texts of public welfare crowdfunding projects from Tencent Public Welfare, Water Drop and Easy Network. We explore the relationship between text characteristics and project fundraising efficiency. After establishing the online crowdfunding dictionary for the project text segmentation analysis, we use the LDA model to obtain the five main vocabulary themes: help, financial, charity, exclamatory, first person words. After regression, the result shows that these five themes have a positive effect on donor behavior. Referring to the HowNet dictionary for synonym vocabulary of the five topics, and extracting 20 words with higher frequency, we analyzed these words by regression. The conclusions were that “help” and “thank you” as keyword words have a significant positive relationship with the fundraising efficiency of the project.
    一 引言

    1.1研究背景
    众筹指人们通过互联网媒介对某个项目实施金钱资助的过程。每个个体付出的金钱数额可大可小,但能起到聚沙成塔、集腋成裘的效果。现代众筹运作主要有债券、股权、回报和捐赠四种模式。公益众筹则为其中无偿捐赠的形态。在中国,公益众筹已经形成了一定的规模。互联网金融的迅速崛起加之其与我国公益、慈善相结合促进了公益众筹的迅速发展,使得公益众筹内涵随之发生了变化。广义的公益众筹是指公众筹资,面向公众筹集资金或者其他资源;狭义的公益众筹是指公益机构或个人在回报众筹平台发起的公益筹款项目,包括网络平台如腾讯乐捐、轻松筹、水滴筹等,以及一些综合类网站如京东众筹、淘宝众筹、众筹网等。移动互联网介入前,个人求助仅能停留在求助者身边有限的范围内,只有少数人或凭借自己的资源或是运气,得以借助媒体等力量获得广泛的关注和支持。而在移动互联网的环境下,以橙心筹为例,求助者的求助信息,通过微信、QQ、微博、贴吧、论坛、自媒体等各种渠道得以被传播,从身边的亲朋友,到远方一个素不相识的陌生人,都能通过这个过程被连接到一起给予求助者帮助。同时,互联网也带来了传统货币的数字化,通过信息链接和数字货币,让信息和现金在一定地域环境自由流动。便捷的金融科技使人们何时何地都可以奉献爱心;互联网自身所具有的互动性、跨地域性以及便捷性等特点,也使得推广慈善活动更加便利化、快速化和社会化。
    但由于网络捐款过程中,筹资人和捐款人通过公益众筹平台这一媒介进行接触,双方信息不对称,捐赠者只有通过平台这一条路径来对求助者的信息进行判断。而近年“骗捐”事件的频频发生使捐助人的捐款意愿大大下降。在捐助过程中,捐款人往往难以获取充足的关于求助者项目真实性的有效硬信息,故会转向借助软信息对求助者的项目真实性进行判断。互联网公益众筹中的软信息尽管难以验证,但会在一定程度上激发捐款者的捐助意愿,提高筹款效率。描述性文本作为互联网公益众筹中一类典型的软信息,包含了求助者对于求助原因和家庭财务状况的详细描写,其中的某些情感词语会对捐助者的分析判断和捐助行为产生影响。因此本文展开对于项目描述性文本的深度挖掘,探究其文本特征对于筹款效率的影响。
    1.2研究目的及意义
    1.2.1研究目的
    通过文本抓取与挖掘,对互联网公益众筹项目文本进行深度分析,探究其文本特征与项目筹款效率的关系,利用所得结果为筹款人和平台提出合理建议。
    1.2.2研究意义
    理论意义:公益众筹是我国当今公益模式中的重要组成部分,而互联网公益众筹以其广泛的波及面成为现代公益活动中的重要形式。本研究通过对各大公益众筹网站中有关大病众筹的文本的获取与挖掘,探究求助者在进行项目筹款过程中所需要的项目文本特征,进而分析在文本信息对于大众心理的调动作用,填补相关研究领域的空白。
    实践意义:捐献式公益众筹在大众中的流传范围越来越广,凭借互联网的发展与传播,捐献式公益众筹模式的发展和扩散影响得不仅是公益事业的进步,更是大众利他心理的促进与提高。通过探究文本对项目筹款效率的影响,进而讨论其背后的社会现实,预测未来互联网公益众筹的发展趋势,为众筹网站和普通参与者提出合理建议。
    1.3文献综述
    对于众筹平台的文本分析,彭红枫,林川[1]结合国内主流情感词典库划分词语类别,通过文本分析指出各类词语比重发出的信号对贷款人的投资决策有显著影响。匡亚林[2]将求助人、捐助者、筹款平台作为三个主体进行研究,提供了一个有效评价个人救助参与有效性的评估框架。同时他提出,网络公益众筹是“互联网+”时代的新兴产物, 在其风险防范与规避过程中, 认同性评估只是开始,未来可从大病众筹平台救助信息文本分析等角度对此问题展开后续研究。钟智锦[3]分析了新浪微公益的1257个众筹项目,力图探索影响公益众筹项目筹款能力和信息透明的因素,得到“项目信息转发数量越多,项目筹款率越高;筹款率越高,越有可能实现财务透明”的结果。同时,她指出社会情境是影响筹款结果的重要因素;在控制了项目基本特征和持续时长之后,目标金额越大,项目越容易达到目标金额。
    较多学者对借款描述的文本内容与借贷行为之间的关系进行了实证检验,其中,Herzensteinet al.(2011)[4]借鉴Miles and Huberman(1994)的六大类人格表述,通过人工判断的方法统计出“诚信”、“经济困难”、“勤奋”、“成功”、“道德”和“宗教”这六类词语所占比重,实证发现借款描述展示的人格数量越多,其借款成功率越大,且表示诚信和成功的人格可增大借款成功率。魏慧玲[5]通过构建情感词典,并结合语义相似度算法, 对小米手机的在线评论进行情感分类, 实现对人工汇总的主要商品特征的情感判断 . 徐勇等人借鉴相关学者的研究结果, 建立电子商务商品评价指标结构模型; 通过机器学习, 利用文本情感分析中语句情感标签抽取与标注的方法, 对淘宝网站商品进行模糊综合评价。 王伟[6]等将文本说服风格分为 5 类,并发现文本描述需根据不同项目类型选择说服风格。例如,众筹项目是筹资者对投资者的一种诉求,该诉求常带有情感,对于多数项目类别,诉诸情感可以有效吸引投资。因为文本情感反映了文本作者的态度以及心理状态,所以有必要引入情感分析技术,分析项目文本的情感信息。
    综合以上分析可知,在公益众筹中,捐款人在进行捐款决策时会通过考察项目描述文本以获取更多有效信息。Kahneman and Tversky(1973)[7]指出,捐款人面对大量信息时,注意力和理解力有限,往往只能进行选择性阅读。由于读者对于词语通常比较敏感且倾向于关注“关键词”的作用,故本文通过对项目描述性文本的归纳和提炼,进行主题类词语提取,并找出要为显著的关键词,拟对一下问题作出解答:①项目文本信号是否会对捐款人心理产生影响②在信息中介无法严格保证项目内容真实性的前提下,项目描述性文本的哪类关键词会对捐款人的捐款心理产生影响?③是否存在某些特定关键词能够激发捐款人的捐款欲望?
    二 理论分析与研究假设
    目前世界上已经出现了许多众筹平台,这些平台都采用了相似的众筹机制,用户注册后可以成为筹资人和投资人。筹资人(即发起人)在众筹平台发起一个项目或创意,同时注明筹资金额、投资回报形式、筹资原因等信息,经平台审核后,这些信息会呈现给投资人,投资人根据提供的信息自主决定是否进行投资以及投资金额等。大病公益众筹作为众筹的一种,同样采取相同的机制。筹资人依照自己的现实情况发布项目,通过项目的描述性文本、财产证明等信息向捐款人求助,捐款人通过对信息的辨别进行决策。与其他众筹类似,大病公益众筹过程中蕴含了风险,因为捐款人并不总是愿意对陌生人进行捐款,项目文本的描述不总能激发捐款人的同情,使捐款人产生道德移情。同时捐款人也不能总是对一个项目产生信任。如何利用项目文本的描述激发他人同理心是筹资人需要重点考虑的问题,当前研究也主要围绕这一点展开。
    在互联网公益众筹过程中,筹资人和捐款人互不相识,活动全过程均在众筹平台上完成。因此捐款者往往难以掌握筹资人的真实信息,导致筹资人在交易过程中拥有较强的信息优势,而捐款人由于处于信息劣势,会尽可能地分析和了解页面上展示的信息以期通过可得信息来判断筹款人的信用水平,而在这期间,文字具有重要的中介作用。在筹款人发出的各类文本信号中,包含筹款人自身情况和资产状况等人格化信息的描述文本可以为捐款人提供有效信号。
    韩丽颖[9]在“特质移情和状态移情及其对助人行为的影响研究”中通过不同文字情行探究移情对救助行为的影响,并且得到显著相关,并且状态移情与主人行为之间的联系更加紧密。由此我们可以认为,读者的移情会对其筹款率显著正相关。李杨[10]在研究求助者信息对微公益捐助行为的影响中,求助者信息会影响移情反应,人、物、情形等会影响观察者的体验,且其中具体发现呈现出有求助者态度信息的求助者有获得更多帮助的趋势。彭红枫,林川[1]结合国内主流情感词典库划分词语类别,通过文本分析指出各类词语比重发出的信号对贷款人的投资决策有显著影响。
    H1:筹款率与求助信息有显著关系。
    H1(a):筹款率与求助信息中围绕某些主题的词汇的词频显著正相关
    H1(b):筹款率与求助信息中某些关键词汇的词频显著正相关
    针对上述假设,我们将计量模型设定为:
    Mo〖n_ratio(筹款效率)〗_ = β_0+β_1 Category+ β_2 Controls+ε (1)
    三 数据来源
    3.1调查范围
    本次研究主要聚焦于微信平台上疾病求助类众筹项目页面中文本信息对该项目筹款率的影响,根据目前微信平台上传播较广的公益平台,此次选取乐捐、水滴筹、轻松筹三个平台下的全部疾病求助项目为抽样总体。
    乐捐是腾讯公益推出的公益项目自助平台,包括发起、捐赠、互动与监督等功能,助实现纯真的公益梦想。截止至2019年4月,乐捐平台下疾病救助栏目中共含1727条募款中项目,18227条执行中项目,6766条已结束项目。该栏目下三种状态项目均占乐捐平台下总项目的50%以上,由此可见,疾病救助是众筹平台所含项目的一大分类,影响力大,具有很高的研究意义。
    水滴筹是社交筹款平台、目前国内免费大病筹款平台,也是国内网络大病筹款0手续费的开创者。截止2018年9月,水滴筹累计筹款金额超过100亿元,80多万名经济困难的大病患者从该平台获得帮助。在水滴筹平台可一次性查看25条求助信息。
    轻松筹是由北京轻松筹网络科技有限公司率先推出的基于社交网络、面向广大网民日常生活内容的公益平台,基于可靠技术的回报管理系统,是众筹空间首个上线的子产品。其体系在全球183个国家和地区的用户总数已经冲破5.5亿,累计筹集善款超200亿。该平台可一次性可查看24条求助信息。
    3.2数据获取
    本次研究将利用Python通过程序模拟浏览器请求站点的行为,将三个网络平台站点返回的HTML代码获取到本地,进而提取相关项目文本,并进一步提炼筹款进度、指定文本信息、筹款时长、筹款人数等相关信息。
    3.3预调查抽样
    综合三个平台上所有疾病救助相关众筹信息的发布情况,由于网站信息获取随机,无法获得全部众筹项目信息,因而需要预调查以帮助正式抽样及分析。通过抽取30份大病众筹项目作为预调查样本,对选取变量进行调整,去除无效变量,并获得帮助类词语占比、慈善类词语占比、金融类词语占比、感叹累词语占比分别与筹款进度的相关系数。
    表1 预调查·筹款率与主题词汇比重相关系数
    变量 帮助类词语占比 慈善类词语占比 金融类词语占比 感叹类词语占比
    R2 0.4703 0.4301 0.5644 0.1026
    R2 0.6858 0.6558 0.7517 0.3203
    3.4样本量确定
    根据分析模型最小二乘估计,参照Cohen(1988)[11]提出单个自变量的样本估计量估计方法,设定显著性水平为0.01,检验效能为99%,依据预调查相关系数保守估计取0.3,需247份样本,为保证有效样本数量、达到实证分析样本数量要求,我们最终选取297份文本作为初始样本,在三个公益平台下疾病栏目中随机抽取样本。
    四 数据处理
    4.1网络众筹词典构造
    (1)在利用Python爬取了腾讯公益、水滴筹、轻松筹三个网络平台上公益众筹项目的共计300条求助描述文本作为初始样本后,再经过对初始样本的初步处理,本文整理得到297项有效的求助描述文本,用于构造网络众筹词典。
    (2)中文分词。将297项求助描述文本整合为整体的描述性文本,通过Python软件中的jieba程序包编程,对获得的描述性文本进行分词,得到分词结果。
    (3)词频统计。在分词步骤后,计算出每个词语在全部求助描述文本中出现的频率,接着以词频为依据对词语的重要性进行排序,并剔除与研究目的无关的词语。本研究获得出现总频次不低于6次的词语150个,并根据词频将词语按照重要性由高到低排列,构成网络众筹描述性文本词库。

    4.2 LDA主题分析
    本文以各大病公益众筹项目的自述为研究对象,从腾讯公益、轻松筹、水滴筹三个较为知名的众筹网站上利用网络爬虫获取截止2月26日为止的共297条项目自述数据。通过获得的项目文本进行观察分析,利用自述中出现的专属词汇以及高频词汇构建项目自述词典,根据上述分词结果,建立大病公益众筹项目自述的语料库。
    本文利用LDA(线性判别分析)模型对项目自述语料库中的文本数据进行挖掘,识别出文本数据中蕴含的共同主题信息,建立大病公益众筹项目自述词频结构模型。LDA是一种无监督的文档主题生成模型, 用来识别大规模文档的潜在主题信息。LDA模型可视为一个三层贝叶斯概率模型, 将每一篇文档表示为一个主题的概率分布, 又将每一个主题表示为一个词语的概率分布, 形成文档-主题-词语三层概率分布。其中,文档主题分布,指不同主题在同一个文档中所占比重。文档词语分布,指每个主题中不同词语出现的概率。文档词语分布,指每个文档中不同词语出现的概率。LDA模型的参数主题个数利用对数极大似然估计选取最优主题数。最终我们将项目自述文本主题定位一下五类:感叹语气词、帮助主题类词语、慈善主题类词语、金融主题类词语及第一人称词语,同时得到以下出现频率较高的词汇。

    图1 主题类词汇与关键词数据图
    

    4.3同义词划分
    为更细致地探究是否有具体词汇在求助信息中的出现频数显著影响项目筹款率,根据LDA模型所得主题,本文为主题各自包含的词汇针对词汇同义关系进行了细化的类别划分。参考彭红枫,林川[1]结合国内主流情感词典库划分词语类别,本文参考了台湾大学NTUSD简体中文情感词典和知网HowNet情感词典。
    HowNet是最著名的义原知识库。义原在语言学中是指最小的不可再分的语义单位,包括词在内的所有概念的语义都可使用一个有限的义原集合去表示。而义原是比较隐含的语义单位,所以人们需要利用已经构建好的义原知识库才能够获取一个词所对应的义原。HowNet的建设方法是自上而下进行归纳的方法。通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集。通过把概念与概念之间的关系以及概念的属性与属性之间的关系形成网状的知识系统的方式,HowNet建立了词汇与词汇之间的同义关系。
    根据HowNet词汇间的同义关系,参考HowNet为中文词标注的义原,为三个主题各自包含的词汇进行手动标注,最终将 “我”、“求”、“帮”、“请”、“捐”、“款”、“善”、“谢”等出现频数高于76的20个义原纳入考虑范围,将““我”、“求”、“帮”、“请”、“捐”、“款”、“善”、“谢”等字眼在求助信息中的出现频数作为解释变量,研究其对求助者项目筹款率的影响程度。

    图2 文本分析流程
    五 描述性统计及分析
    5.1变量定义
    钟智锦[3]指出社会情境是影响筹款结果的重要因素,并且得到项目信息转发数量越多,项目筹款率越高的结论。更多的人获知项目信息会增加捐款的可能性,个体的捐赠行为对其社会网络中的朋辈来说既能起到示范作用,又会带来一定的社会压力,促使朋友圈中的好友也实施捐款行为[3]。同时,他还指出控制项目基本特征和持续时长之后,目标金额越大,项目越容易达到目标金额。达到目标金额指项目筹款率达到100%,“目标金额越大,项目越容易达到目标金额”体现在以筹款是否达到100%的被解释变量的模型中目标金额前的系数显著大于0,我们有理由认为在目标金额的增加过程中,即使没有达到100%,项目的筹款率也在一定程度上有显著增加。
    匡亚林[2]提出,由于个人可以通过慈善救助平台或朋友圈发起求助,对潜在施救者而言, 求助者的个人支付能力、信息的辨别很难得到保证,会影响捐款者对求助人的认同,从而影响筹款情况。由此,我们将求助人个人支付能力信息的有无纳入考虑范围,并且用是否含有增信说明(家庭金融、房屋、车辆资产情况)作为控制变量。
    蔡莹莹[12]在对“点名时间”的研究中提出,融资期限越短,投资者的感知风险较低,在模型中融资期限虽然对筹款率并不显著,但是有明显的负向影响关系。可以由此类比捐助类项目,筹款期限越短,捐款者可以在更短的时间内看到自己的捐款被投入使用,感知风险较低,故我们将项目的筹款时长作为控制变量。
    通过上述数据处理,为了初步探究网络公益众筹筹款效果与文本特征之间、文本特征与捐款者信任程度之间的关系,我们选择筹款效果作为前期研究的被解释变量,文本特征作为解释变量,而根据文本要素构成,我们选择文本字数、符号个数等作为文本特征的具体表现。具体变量设置如表2。
    表2 变量定义
    变量类型 变量名称 变量定义
    被解释变量 筹款效果(mon_ratio) 筹款人当前筹款金额/目标金额

    解释变量 主题类词汇 第一人称词汇数量占比(sub_num) 公益众筹项目文字描述中第一人称词语的数量与总字数占比x100
    帮助类词汇数量占比(help_num) 公益众筹项目文字描述中帮助类词汇的数量与总字数占比x100
    金融类词汇数量占比(fin_num) 公益众筹项目文字描述中金融类词汇的数量与总字数占比x100
    慈善类词汇数量占比(cha_num) 公益众筹项目文字描述中慈善类词汇的数量与总字数占比x100
    感叹类词汇数量占比(pla_num) 公益众筹项目文字描述中感叹类词汇的数量与总字数占比x100
    关键词 “求”的数量占比(qiu_num) 公益众筹项目文字描述中“求”的数量与总字数占比x100
    “帮”的数量占比(bang_num) 公益众筹项目文字描述中“帮”的数量与总字数占比x100
    “请”的数量占比(qing_num) 公益众筹项目文字描述中“请”的数量与总字数占比x100
    “捐”的数量占比(juan_num) 公益众筹项目文字描述中“捐”的数量与总字数占比x100
    “款”的数量占比(kuan_num) 公益众筹项目文字描述中“款”的数量与总字数占比x100
    “善”的数量占比(shan_num) 公益众筹项目文字描述中“善”的数量与总字数占比x100
    “谢”的数量占比(xie_num) 公益众筹项目文字描述中“谢”的数量与总字数占比x100
    控制变量 筹款已进行天数(time) 公益众筹项目已进行的天数
    证明人数(verify) 公益众筹项目的证明人数
    目标金额(target) 公益众筹项目的目标金额
    捐款人数(donor) 为公益众筹项目捐款的人数
    增信说明(certification) 公益众筹项目是否拥有增信说明
    5.2描述性统计及分析
    表3 变量描述性统计
    变量 观测个数 均值 标准差 最小值 中位数 最大值
    mon_ratio 297 0.34 0.30 0.00 0.29 0.99
    sub_num 297 11.37 11.22 0.00 8.00 63.00
    help_num 297 36.66 27.35 0.00 31.00 176.00
    fin_num 297 13.67 7.81 0.00 13.00 45.00
    cha_num 297 12.54 8.83 1.00 11.00 57.00
    pla_num 297 2.35 3.52 0.00 1.00 28.00
    qiu_num 297 1.68 2.19 0.00 0.00 10.00
    bang_num 297 3.65 3.03 0.00 3.00 14.00
    qing_num 297 1.46 1.73 0.00 1.00 9.00
    juan_num 297 1.03 1.84 0.00 0.00 12.00
    kuan_num 297 5.81 4.12 0.00 5.00 26.00
    shan_num 297 6.10 5.64 0.00 5.00 49.00
    xie_num 297 0.71 1.18 0.00 0.00 6.00
    表3汇总了全部筹款指标的变量描述性统计结果。从表3可以看出,所有的在筹项目的筹款进度均值在34%左右,而进度最快的项目已经达到99%。项目文本字数的均值为1941.21,说明大部分项目文本字数较多,而字数的标准差为832.6,说明不同筹款者提供的项目文本对于字数的看法有较大差异。根据各类主题词的词频统计显示,在项目文本中帮助类词语出现的次数最多,平均每篇文章会出现近37个帮助类词语,试图通过这种表达方式引起捐款者共情,激发捐款者的捐款意愿。针对主题,我们可以得知并非所有的文本都包含相应主题,每个主题均存在文本不包含相应词语,故我们可以尝试探究存在相应关键词是否会影响项目的筹款效率。
    六 实证分析与结果
    6.1五类主题对项目筹款效率的信号作用
    为了验证H1(a),本文对五类主题词语比重的具体信号作用进行实证检验,回归模型如(1)所示,表4列示了相关回归结果。由表4可知,感叹类词语比重、帮助类词语比重和慈善类词语比重、金融类词语比重、第一人称词汇均对筹款效率有显著正向影响。
    其中,感叹类词语可塑造出筹款人心情急迫的形象,进而发出筹款人对渴望大家援助的强烈意愿和真诚恳求的信号。包括“!”、“谢谢”在内的感叹类词语与中国传统文化中感恩、知恩图报等主题思想一致,更易获得捐款人的好感,拉近求助者与捐款者之间的距离,从而提高捐款者的接受度,更易引发捐款人的共情,吸引捐款人为其捐款。帮助类词语包括“伸出援手”、“救命”、“帮助”等,这些表达往往被用于激发捐款人的道德感,表达筹款人对于这笔钱的需求以及急迫,而捐款者在看到该类词汇时道德认同水平提升,从而提升其做出转发、捐款等帮助行为的可能性。包括“爱心”、“慈善”等在内的慈善类词语表达可使捐款者产生移情,激发起进行亲社会行为,唤起内心的道德感及满足感。另外,包括“手术费”、“治疗费”等金融类词语的表达会使得捐助者更加细致地了解求助者现状,且该类词汇反映出求助者已作出的努力、对经济方面的掌握程度,一方面使得信息表现更加真实,同时体现出求助者对合理运用筹款的潜在能力与意愿,另一方面也说明捐款者的确切需要。主观类词汇“我”作为第一人称词汇,是求助者自身参与求助描述内容的代表。第一人称词汇“我”、“我们”的出现频数越多,则求助者在求助描述中的参与成分也就越多,是一种在意识层面上保障求助信息的真实性的方式。“我”的出现频数越多,捐款者就越容易信任求助描述,求助者的筹款进度也就相对越快。
    表4 主题对项目筹款效率的影响(OLS)
    变量 系数 系数 系数 系数 系数
    help_num 0.0459578***
    (0.0122365)
    fin_num 0.2395249***
    (0.0319995)
    cha_num 0.1866854***
    (0.0312045)
    sub_num 0.0087386***
    (0.0013104)
    pla_num 0.0246647***
    (0.0043227)
    控制变量 控制 控制 控制 控制 控制
    R-squared 0.5812 0.6407 0.6142 0.6260 0.6096
    Observations 297 297 297 297 297
    注:括号里的数字为标准误差;分别代表在10%、5%、1%程度上显著(对全文一致)
    6.2关键词对项目捐款效率的信号作用
    针对五个主题,通过前面所得到的词频较高的关键词,本文继续验证H1(b),探究关键词对项目捐款效率回归模型如(1)所示,表5列示了相关回归结果。由表2可知,“谢”、“帮”均对筹款效率有显著正向影响。而“求”、“请”、“款”、“善”等对筹款效率不存在显著关联。
    作为拥有强调语气作用的标点符号,“感叹号”在求助描述中的出现频数越多,求助者的求助意愿就表达得越强烈,更能促使捐助者为求助者提供帮助,求助者的筹款进度也就相对越快;“帮”和“请”的出现直接代表着受助者对获取捐助者帮助的需求,“帮”和“请”的出现频数越多,受助者向捐助者提出求助诉求的频数也就越多,频繁的求助能促使捐助者为求助者提供帮助,求助者的筹款进度也就相对越快;“捐”属于金融类词语,随着出现频数的增多,受助者对于金钱的需求也被强调得更多,这促使捐助者为求助者提供经济上的帮助,求助者的筹款进度也就相对越快;“谢”代表着受助者对捐助者的感激,随着出现频数的增多,捐助者受到的感激回馈在逐步累积,使得捐助者对受助者的好感也逐步累积,这促使捐助者为求助者提供帮助,求助者的筹款进度也就相对越快。
    表5 关键词对项目筹款效率的影响(OLS)
    变量 系数 系数 系数 系数 系数 系数 系数
    qiu_num 7.89153
    (12.95891)
    bang_num 20.91593

    (10.22983)
    qing_num 14.46494
    (23.61247)
    juan_num -9.17221
    (15.19426)
    kuan_num -1.37304
    (9.21298)
    Xie_num 92.43197

    (35.32273)
    Shan_num -9.10377
    (6.21394)
    控制变量 控制 控制 控制 控制 控制 控制 控制
    observations 297 297 297 297 297 297 297
    R-squared 0.07610 0.09402 0.07657 0.07596 0.07482 0.11532 0.08282
    注:括号里的数字为标准误差;
    、**、***分别代表在10%、5%、1%程度上显著
    七 结论及建议
    本文通过三种公益众筹平台上297个大病公益众筹项目文本作为样本数据,研究了项目文本中主题类词语、关键词语、证明人数、目标金额等信号对捐款人捐款决策的作用。本文的主要结论可以归纳为如下几点:
    (1)从项目文本中的词语信号作用来看,金融类词语、帮助类词语、慈善类词语、第一人称词语所发出的信号对捐款者行为有正向作用,表现为这类词语比重的提高会使项目筹款效率增加,二者之间存在显著正向相关关系。其中,“帮”、“谢”等关键字词对于项目筹款效率存在显著正向关系。
    (2)从非文本因素角度分析,项目证明人数对筹款效率有显著的正相关系,说明捐款人的捐款意愿与项目信息真实性有很大的依赖关系,可信度越高,捐款人的捐献意愿更强烈。
    基于以上结论,本文对大病公益众筹的筹款人提出以下建议:
    (1)项目发起前应做好对该项目的了解,为项目内容信息做充分准备,确保在项目发起中能提供有效的信息。
    (2)发起项目时首先应当保证该项目各信息的真实性,只有在保证信息真实,不欺骗捐款者的前提下再考虑筹款率。
    (3)对项目情况的描述中,项目发起人应当注重描述文本的词汇运用,建议带有一定的主观情感,在保证描述通顺不影响整体理解的情况下,增加感叹类词语比重、帮助类词语比重和慈善类词语比重、金融类词语比重。合理真实且生动地表达出项目发起人的所处形势。
    (4)注重与捐款人的互动,在向捐款人求助过程中应当明确表明作为筹款者的需求,展示筹款者自身良好的信用水平、品行,并表达对捐款者的感谢。
    (5)项目发起后鼓励筹款人寻求身边亲友或其他知情人对该项目进行证明、转发、捐款等行为。筹款人应对自身项目保持积极宣传、积极参与的心态。

    参考文献
    [1]彭红枫,林川.言之有物:网络借贷中语言有用吗?——来自人人贷借款描述的经验证据[J].金融研究,2018(11):133-152.
    [2]匡亚林.网络公益众筹中个人救助的参与效果何以评价?——兼论认同性危机的消弭之道[J].华中农业大学学报(社会科学版),2018(06):132-139+158.
    [3]钟智锦.社交媒体中的公益众筹:微公益的筹款能力和信息透明研究[J].新闻与传播研究,2015,22(08):68-83+127-128.
    [4]Herarnstein, Michal, Scott Sonenshein, and Utpal M. Dholakia.2011“Tell Me a Good Story and I may Lend You Money: The Role of Narratives in Peer-to-Peer Lending Decisions.”Journal of Marketing Research,48(SPL);S138-S149
    [5]魏慧玲.文本情感分析在产品评论中的应用研究[D]. 北京交通大学, 2014.
    [6]王伟,郭丽环,祝效国等.融资者个人因素以及社会关系对食品类众筹项目的影响研究[J].经济评论,2017(4):118-130
    [7] Kahneman D, Tversky A. On the Psychology of Prediction[J]. Psychological Review,1973,80(4):237-251.
    [8]韩丽颖.特质移情和状态移情及其对助人行为的影响研究[D].东北师范大学, 2005.
    [9]李杨. 求助者信息对微公益捐助行为的影响:移情的中介作用[D].宁波大学,2017.
    [10] Cohen J. Statistical power analysis for the behavioral sciences,2nd edition. Lawrence Erlbaum Associates,Hillsdale,New Jersey,1988
    [11]蔡莹莹,岳中刚.众筹融资成功的影响因素研究——以“点名时间”为例[J].南京邮电大学学报(社会科学版),2016,18(02):53-62…

    展开全文
  • 目前常用的文本挖掘算法有:Bayes LISF SVM KNN ANN 决策树等,其中大部分都是基于VSM。 VSM基本思想:文本可以表示成为由独立概念词组成的向量空间,独立概念词成为文本特征项,每个特征项都是一维,维...
  • 网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物,产生了海量的用户行为数据,其中用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据,将有利于企业在电商平台...
  • 文本聚类算法总结

    2016-06-02 16:54:00
    聚类概念 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的...
  • 情感分析教程

    2020-10-19 22:16:58
    因此,从非结构化数据中提取信息是数据分析的重要组成部分。 文本挖掘是从非结构化文本数据中获取有价值的信息的过程,情感分析是文本挖掘的应用之一。它使用自然语言处理和机器学习技术从文本数据中理解和分类情绪...
  • "孝"文化是中国传统文化中不可或缺且独具特色的重要组成部分。文章从认知语言学的典型理论视角出发,通过对中国经典诗词中相关文本进行分析,揭示出其中"孝"文化的五种典型内涵,即子女对父母的敬顺、思念、担忧、感恩...
  • 属性是实体的重要组成部分,因此实体属性的获取是知识图谱构建 的关键步骤。由哈尔滨工业大学社会计算与信息检索研究中心推出的开放 域中文知识图谱《大词林》是通过从文本中自动挖掘实体及实体间的关系 而构建而成...
  • 通过多层面attention CNN关系分类 ...摘要: 关系分类是众多从文本挖掘结构化事实信息抽取系统中一个重要组成部分。我们提出了一种新卷积神经网络体系结构,针对这一任务,依赖于两个层次...
  • 因此,从非结构化数据中提取信息是数据分析的重要组成部分。文本挖掘是从非结构化文本数据中获取有价值的信息的过程,情感分析是文本挖掘的应用之一。它使用自然语言处理和机器学习技术从文本数据中理解和分类情绪。...
  • 在众多试图从文本挖掘结构化事实信息抽取系统中,关系分类是一个至关重要的组成部分。我们提出了一种新卷积神经网络结构来完成这项任务,它依靠两个层次注意力来更好地识别异构环境中模式。这种体系结构...
  • 中文命名实体识别

    千次阅读 2014-01-03 10:15:39
    对很多文本挖掘任务来说,命名实体识别系统是重要的组成部分:一方面,命名实体识别可以帮助识别未登录词,而根据SIGHAN Bakeoff数据评测结果,未登录词造成分词精度损失远大于歧义;另一方面,对关键词提取等...
  • TF-IDF原理及sklearn调用

    2018-10-18 22:07:16
    TF-IDF,也就是“词频-逆文本频率”,是文本挖掘中做分词、向量化之后一个操作,它由两部分组成: 1、词频:某个词在当前文本中出现次数。 2、IDF:有些词语虽然词频很高,但是并不重要,IDF衡量就是一个词...
  • CruiseYoung提供的带有详细书签的电子书籍目录 ... 数据库系统基础:高级篇(第5版)(讲述数据库系统原理的经典教材) ... 12.6 数据挖掘的应用 250 12.7 商业化数据挖掘工具 250 12.7.1 用户界面...
  • 主要研究方向是工程设计、生物(特别是人类基因组)数据库、文档及文本数据库等新兴应用中数据库建模。设计和集成,此外,他对知识表示、数据挖掘和知识发现等也非常感兴趣。 目录 封面 -17 封底 -16 扉页 -15 ...
  • TF-IDF是一种统计方法,用来评估单词或短语对于一个语料库的重要程度,它两部分组成:TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency) 主要思想:单词或短语的重要
  • Tf-idf推导及理解

    2020-08-25 23:09:33
    1 什么是Tf-idf? TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。...顾名思义,Tf-idf由tf和idf两部分组成,tf是指一个词在当前document里面出现的频率,
  • 修改部分Bug:感谢用户hjbrave、proebc、看雪、绝望笨蛋等对部分Bug及时反馈 版本8.0.0更新时间:2009-09-29 新增多项创新功能: 剪贴板:资料整理助手和中转站,方便知识点重新归类、分类移动和文件关联...
  • Viewport 移动设备上Viewport就是设备屏幕上能用来显示网页一块区域,即浏览器上用来显示网页部分区域。Viewport不局限于浏览器可视区域大小,可能比浏览器可视区域要大,也可能比浏览器可视区域要...
  • 软件工程教程

    2012-07-06 23:10:29
    模型元素特征和语义的文本描述—模型“肉” 形成了承载模型语义背板,赋予模型意义,各种图仅仅是该背板视图或者可视化投影 修饰 修饰:图中建模元素上暴露信息项 任何UML图仅是模型视图, 只有在修饰...
  • [Oracle.11g权威指南(第2版)].谷长勇.扫描版.pdf

    千次下载 热门讨论 2013-06-23 21:16:09
    10.1.1 控制文件的组成 276 10.1.2 控制文件大小 277 10.1.3 控制文件更新 277 10.1.4 可复用区与不可复用区 277 10.2 控制文件多路复用 277 10.2.1 使用init.ora多路复用控制文件 277 10.2.2 使用SPFILE多路...
  • 修改部分Bug:感谢用户hjbrave、proebc、看雪、绝望笨蛋等对部分Bug及时反馈 版本8.0.0更新时间:2009-09-29 新增多项创新功能: 剪贴板:资料整理助手和中转站,方便知识点重新归类、分类移动和文件关联...
  • 修改部分Bug:感谢用户hjbrave、proebc、看雪、绝望笨蛋等对部分Bug及时反馈 版本8.0.0更新时间:2009-09-29 新增多项创新功能: 剪贴板:资料整理助手和中转站,方便知识点重新归类、分类移动和文件关联...
  • 以图形和文字等形式形象得描述系统整体物理架构模型,解释系统组成结构,重要节点,及其之间物理联系方式,具体框架见图3-1-1所示 图3-1-1 四川疫情可视化,系统功能框架设计 3.2项目技术框架设计 ​ 分析爬虫...

空空如也

空空如也

1 2
收藏数 31
精华内容 12
关键字:

文本挖掘的重要组成部分是