精华内容
下载资源
问答
  • rar帮助文本

    2013-03-06 12:25:14
    rar帮助文本
  • 文本读取 文本写入 文本操作 帮助类 WriteFiles
  • matlab开发-帮助图简单显示长文本。一个简单的图形用户界面,显示预先格式化的文本,作为Matlab帮助浏览器的轻量级替代。
  • Linux 常用基本命令 查看帮助文档

    万次阅读 2017-07-11 10:04:03
    在我们使用Linux命令的时候,如何知道该命令下面都有些什么选项呢?  (一) command --help  一般是Linux 自带的帮助信息。  如 ls --help 。

        在我们使用Linux命令的时候,如何知道该命令下面都有些什么选项呢?

        (一) command --help

        一般是Linux 自带的帮助信息。

        如 ls --help 。

        

        (二)man  (有问题,找男人 manual)

        man是linux提供的一个手册,包含了绝大部分的命令,函数使用说明。

        该手册分为很多章节,使用man时可以指定不同的章节来浏。例:man ls 。

        man中各个章节(section)意义如下:

        1.Standard commands (标准命令)

        2.System call (系统调用)

        3.Library function(库函数)

        4.Special devices(设备文件的说明,/dev下各种设备)

        5.File formats(文件格式,如passwd)

        6.Games and toys(游戏和娱乐)

        7.Miscellaneous(杂项、惯例与协定等,例如Linux档案系统、网络协定)

        8.Adminstrative commands(管理员命令,如ifconfig)

        man是按照手册的章节号的顺序进行搜索的。

        man设置了如下的功能键:

        

        (3)自动补全

        在敲出命令的前几个字母时,按下tab键,系统会自动帮我们补全命令。注:该命令需要唯一确定。

        (4)历史命令

         当系统执行一些命令后,可按上下键查看以前的命令,history将执行过的命令列举出来。下图打入history后,显示从1一直到999个命令,截图为部分,之后输入!996 ,显示了home文件夹下的列表。

        

        

        

    展开全文
  • 文本分类过程概述

    千次阅读 2019-01-09 19:15:11
    传统的文本分类过程通常包括训练模块和分类模块如下图所示:一般来讲文本分类过程包括预处理、文本表示、特征降维、训练分类器和分类性能评估。  文本分类过程图 1、文本分类预处理  由于计算机很难直接处...

    传统的文本分类过程通常包括训练模块和分类模块如下图所示:一般来讲文本分类过程包括预处理、文本表示、特征降维、训练分类器和分类性能评估。

                                                                                               文本分类过程图

    1、文本分类预处理

            由于计算机很难直接处理网络上存在的大量半结构化或结构化的文本数据,所以在文本分类之前需要对这些数据进行相应的预处理。

            文本的预处理包括文本分词、去除停用词(包括标点、数字和一些无意义的词)、词义消歧、统计等处理。中文与英文相比,在分类上关键的区别是在数据集的预处理阶段。对中文文本进行分类之前,首先要进行分词处理,而英文文本单词与单词之间则有空格进行分割,无需进行分词。近几年,中文文本的分词技术主要有三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词。

            A、基于字符串匹配的分词方法

            该方法也成为机械分词方法,其主要思想是预想构造一个“充分大的”词典,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照不同的长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:正向最大匹配法(由左到右的方向)、逆向最大匹配法(由有到左的方向)、最少切分(使每一句中切出的词数最小)。

            还可以将上述各种方法相结合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245.但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其他的语言信息来进一步提高切分的准确率。

            一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

            B、基于理解的分词方法

            该方法是让计算机人工智能化,通过对句子的理解,达到对词进行识别的效果。其主要思想就是分词和句法、语义分析同时进行,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。通过总控部分的协调,分词子系统获得有关词、句子的句法和语义信息来对分词歧义进行判断,即人对句子的理解过程应用到计算机上。该分词方法需要使用大量的语言知识和信息。由于汉语语言知识的庞统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

            C、基于统计的分词方法

    2、文本表示

            A、布尔模型

            B、向量空间模型

            C、潜在语义索引模型

            D、概率模型

    3、特征降维

            由于使用的数据集特征的集合通常非常巨大,例如DNA微阵列数据中,一条样本含有的基因维数可达到几千或者几万。Web文本数据中包含非常多的术语,维数可达到几万甚至几十万。这些数据中经常含有大量的对分类有副作用的噪声特征,假如在文本表示中使用这些特征会大大影响最终的分类效果,因此需要减少特征的维数,来提高分类的精度和文本数据的处理速度。特征选择是特征空间降维的重要方法,它从总的特征集中选择对文本分类贡献度较大的特征子集,过滤掉噪声和分类贡献低的特征进行独立的评估,这样特征会获得一个评估分值,然后对所有的特征按照其评估分值的大小进行排序,选取预定数目的最佳特征作为特征子集,其中阈值的选取要根据具体问题的实验来确定。特征选择在减少特征维数的同时还要保证不影响文本的主题信息,这样在提高分类精度的同时也会大大提高文本数据的处理效率。特征选择容易实现,且方法很多,目前常用的特征选择方法有文档频率、信息增益、互信息、期望交叉熵。

    4、分类器

            文本分类的核心问题是如何构造分类器,根据分类体系将一个文本分到一个或几个相关联的类别中。文本分类的具体过程是,用已知的训练集训练分类器,再利用分类器对未知的文本进行分类。在众多的分类算法中,常用的典型分类算法有决策树、最大熵(MaxEnt)、贝叶斯和支持向量机(SVM)算法等。下面简单介绍这几种分类算法。

    5、分类性能评估

    展开全文
  • 为了学习bootsrap,顺便搞了一个bootstrap版的在线富文本编辑器,里面有可以运行的代码,希望能够帮助到大家。如果有什么意见和建议的话,请留言,感激不尽。
  • 为指向帮助页面文档的超链接提供 HREF 文本从当前在 MATLAB 帮助浏览器 (doc) 中打开的页面获取文档链接。... 函数帮助详细描述了如何获取这些信息并将其作为您自己的 M 文件函数的帮助文本中的超链接。
  • 文本编辑器源码

    热门讨论 2012-05-26 10:58:52
    文本编辑器,Rich Text Editor, 简称 RTE, 它提供类似于 Microsoft Word 的编辑功能,容易被不会编写 HTML 的...这是我在 D2 上的一个分享内容,在台上的演讲效果不佳,固写下来,希望能够对感兴趣的读者有所帮助
  • python机器学习——文本情感分析(英文文本情感分析)代码下载,代码完整可以运行。希望可以帮助到正在学习的伙伴们。
  • IBM SPSS Modeler 文本分析 18.0中文指南.pdf 官方中文帮助文档,实用权威
  • sklearn文本聚类分析

    千次阅读 2020-05-10 19:04:15
    前面说了计算机不知道每个词的意思,我们主要通过每个词出现的频率等因素来训练它对文本内容进行区分,所以这些经常出现但对文本区分没什么帮助的词需要去除,并将每段文本中进行分词并用空格分隔。 因为是中文文本...

    面对如今的大数据时代,各种各样的信息令人眼花缭乱,你根本不知道哪些信息是自己所需要的,而一个个看又会浪费很多时间,更不用说对一大堆信息进行分类或总结了。

    对于文本信息,我们人是要把内容看完才能知道它意思,然后在此基础上对其进行处理。但对于计算机而言,把内容看完了也不知道意思,因为每个字的意思是人为设定的,计算机并不知道,更何况我们看到的字输入之后在计算机眼里就是一段机器码。

    不过不用着急,计算机虽然不知道每个字的意思,但它能清楚地区分每个字的模样,而且记忆力超群,我们人有时候会分不清形近字,但计算机不会。利用这个特性,我们就可以让计算机学会区分文本了,进一步可以让它把意思相近的文章进行分类。

    具体步骤就一一看下去吧。

    本文用到的数据来自于一个比赛,已在网上公开,为了便于大家直接下载,我把所需要的数据从中提取并放到 GitHub 里了,当然本文的代码也在里面:https://github.com/Stevengz/Text_cluster


    需要用到的库:

    import pandas as pd
    import jieba
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.cluster import Birch
    

    数据提取

    数据存放在 excel 表中,对于数据处理,我经常使用 Pandas 库,确实比较方便。

    表中的文本数据有两列,表达的意思相同,一个是留言主题总结了文本的意思,另一个是留言详情详细叙述了文本:
    在这里插入图片描述
    这里选择留言主题,有两个原因,、主题是总结的内容,比较精炼,大部分字都是与想表达的意思相关的,便于提取特征;而详情里面大部分都是描述,字数比较多,一句话里面可能就两三个字是关键,其它不相关的字太多,容易让计算机混淆意思;而且我把两列数据分别进行了训练,确实前者准确率更高。、主题里面字数少,一般就是100个字左右,而详情里面都有好几百个字,选择前者能很大程度上减轻负担。

    当然在这里的主要原因是原因一,原因二里面的 “减轻负担” 是附带的福利,不是主要因素,如果两段文本中字数多的那一个有更多比例的关键字,还是推荐选后者。

    利用 Pandas 的便捷性:

    data = pd.read_excel('文本数据集.xlsx')
    x = data.留言主题
    

    这样留言主题那一列的数据就被提取出来了。


    文本处理

    对于每一段文本,只有一部分词能表达主要意思,很多词并没有明确的意思,只是起到一个起承转合的作用,比如 “是、的…” 这类,而且这些词在文本中会大量重复出现。前面说了计算机不知道每个词的意思,我们主要通过每个词出现的频率等因素来训练它对文本内容进行区分,所以这些经常出现但对文本区分没什么帮助的词需要去除,并将每段文本中进行分词并用空格分隔。

    因为是中文文本,所以这里使用 jieba 库,先导入停用词库:

    # 停用词
    stopwords = []
    with open('stopwords.txt', errors='ignore') as sf:
        for line in sf.readlines():
            stopwords.append(line.strip())
    

    这里的停用词库 stopwords.txt 如果你没有,我已将它与文本数据放在一起了,可以自行提取。

    分词函数:

    # 分词处理
    def text_cut(in_text):
        words = jieba.lcut(in_text)
        cut_text = ' '.join([w for w in words if w not in stopwords and len(w) > 1])
        return cut_text
     
    x_change = []
    for i in x:
        x_change.append(text_cut(i))
    

    这样 x 中的每个文本都被分词并存在新列表中了。

    文本中含有英文和数字,但是没有去除,因为两者在数据中代表地区编号,是内容的主体之一。


    文本特征提取

    向模型输入数据时,不能把文本直接输入进去,需要转换为矩阵的形式。

    计算词在向量中的权重可以采用 TF-IDF 算法,比较两个指标:词在当前文本中出现的次数、词在总文本中的次数。前者越高表示越重要,后者越低表示越重要。

    解释起来就是,如果一个词在某一文本中出现的次数越多表示它对此文本越重要,但如果这个词在所有文本中出现的次数越多又表示它对此文本越不重要,综合两者才表示一个词对此文本的重要程度。例如一个词只在某个文本中出现多次,但在所有文本中出现的次数很少,那么这个词对于此文本非常重要;若一个词在所有文本中都经常出现,那么这个词对每个文本都不太重要。

    sklearn 中有专门的特征提取方法:

    # 特征提取
    vectorizer = TfidfVectorizer(min_df=2, ngram_range=(1,2), strip_accents='unicode', norm='l2', token_pattern=r"(?u)\b\w+\b")
    X = vectorizer.fit_transform(x_change)
    

    这样大写 X 中保存了每个文本的特征向量。


    选择模型并训练

    对于聚类处理,最常见的肯定是 K-Means 了,这也是我最开始使用的聚类方法,不过在写这篇文章时我又想使用一下别的聚类方法,因为 sklearn 里面包含了很多,功能确实挺强大。当然想使用其它的也可以,毕竟使用流程都是一样的,只是把模型换一下。

    这里使用 birch (层级聚类),比较适合于数据量大,类别数K也比较多的情况。birch 算法利用了一个树结构来帮助我们快速的聚类,如果想知道具体原理可以自己去搜,都讲的非常好,这里就不再赘述了。

    不过要注意的是,K-Means 必须要指定类别数,而 birch 不需要强制性指定,如果知道类别数最好输入进去,如果不知道,birch 会根据树结构里面的样本情况自己决定类别数:

    birch_cluster = Birch(n_clusters=390)
    birch_result = birch_cluster.fit_predict(X)
    

    上面 390 是类别的数量,因为所有文本在原始系统分类中最细可分为 390 类左右,我就直接使用最严格的标准来分。当然 Birch 还包含其它参数:threshold ---- 分类依据,默认0.5;branching_factor ---- 每个类别的最大数量,默认50;compute_labels ---- 布尔值,表示是否标示类别输出,默认是True。

    birch_result 是生成的所有文本的索引列表,如果 birch_result[0]=30 则表示第 0 个文本被分到第 30 类中去了,所有类别索引为 30 的文本就是一类了。


    结果表达

    既然我们已经知道了每个文本属于哪一类,就可以直接对它们进行标记。

    提取数据时所有内容都放在 data 里面了,我直接在 data 里面新增一列数据,标签就为 “类别编号”,将类别索引保存进去,最后将全部数据保存回源文件,这就将训练结果保存了。

    data['类别编号'] = birch_result
    pd.DataFrame(data).to_excel('文本数据集.xlsx', sheet_name='Sheet1', index=False, header=True)
    

    看看结果:
    在这里插入图片描述
    如果我们想把每类数据提取出来也很简单,随便选择一类提取:

    six_data = data[(data.类别编号==6)]
    

    这样 six_data 就是类别编号为 6 的所有数据了,如果还想做其它操作,可以以此为基础,比如提取每类文本的关键字等。

    展开全文
  • 文本分类的总结

    万次阅读 2018-08-28 08:43:17
    笨妞很少做文本分类,因为工作中文本分类确实不怎么用得到,唯一一个项目用到短文本分类,验证集acc和f1都到90%以上,所以在笨妞印象中文本分类应该是很简单的分类问题,都不属于NLP问题。偶然碰到DC竞赛中“达观杯...

    笨妞很少做文本分类,因为工作中文本分类确实不怎么用得到,唯一一个项目用到短文本分类,验证集acc和f1都到90%以上,所以在笨妞印象中文本分类应该是很简单的分类问题,都不属于NLP问题。偶然碰到DC竞赛中“达观杯”文本分类大赛,尝试了一下新闻类文本的分类。其实并没有那么简单。

     

    数据概况

    “达观杯”的主题是19类新闻分类,数据包含4个字段:id(文章索引)、article(字级别文章)、word_seg(词级别文章)、class(类别),其中字和词全部用数字代替。

    以词度量文章的长度,其分布式这样的:

    总体来说,算是长文本吧,且长度分布比较分散。

    各类别的分布是这样的:

    {'14': 6740, '3': 8313, '12': 5326, '13': 7907, '1': 5375, '10': 4963, '19': 5524, '18': 7066, '7': 3038, '9': 7675, '4': 3824, '17': 3094, '2': 2901, '8': 6972, '6': 6888, '11': 3571, '15': 7511, '5': 2369, '16': 3220}。

     

    过程总结

    之前做短文本分类的时候用了两个模型——bilstm和cnn,两个模型的验证acc都在90%以上,所有首先考虑这两个算法。回过头去看,有这么高的精度主要还是分类的文章规则性比较强,且属于特定领域,词量不多,类别差异可能比较明显。

    搜了一下别人对“文本分类”的总结,貌似中文,基于词的效果会好于字。因此用第三个字段(词级别文章)作为训练数据。首先训练词向量,分别训练了200维和100维的词向量做备用。

    模型很快搭好,接下来设定输入长度,一般是以最长的文本长度作为输入长度,然而这个数据中,最长的文本达到几万字,不太适合,于是设定最长为1000(80%满足)。

    1. 首先跑bilstm,没有GPU,200维词向量且词向量在模型中不参与训练,跑一轮需要20个小时左右,第一轮验证准确率达到0.74的样子,没有勇气跑第二轮了。

    1. 换上TextCNN,和bilstm相比,速度快到飞起来,30分钟便可跑一轮,看别人说Textcnn做文本分类容易过拟合,于是采用了变换batch_size和lr,batch_size变化范围(32, 64, 128, 256), lr从0.0005开始,val_loss连续2次不下降,则lr变为原来的0.2倍。这样训练后,验证集f1到了0.8,测试集预测后提交,f1只有0.74。CNN并联和串联都尝试过,其中并联比串联更容易过拟合。

    2. doc2vec+mlp,这个没什么好说的,充数,验证集f1为0.7019。

    3. keras版本的fasttext。fasttext之前没有接触过,算是一个新收获。fasttext也是mikolov大神的杰作,原生版的原理基本上和word2vec类似,采用cbow和skgram两种模型,同样是一个输入层+一个隐藏层(映射)+softmax。不同的是,输入不仅仅是词,采用了ngram。原生的还需要安装,于是自组了keras版本的,后来发现,不用原生的是大失误。keras版本的,ngram设为2,16G的内存就很吃紧了,原因在于,按照ngram=2遍历,embedding层最大有几百万的节点,句子长度为1000,算一算确实比较可怕。用ngram=1,跑下来,f1只能到0.72,放弃。

     

    4. 机器学习经典文本分类算法尝试

       tfidf+svm,选错了svm的kernel,选了非线性kernel,tfidf特征有100多万维,用非线性kernel速度太慢了,且效果不好,即便压缩到5000维,速度还是跟不上。后来别人给的baseline,用linearsvc,速度快,且测试集f1能到0.77。这就是经验呀。 

    tfidf+nb: 原本觉得朴素贝叶斯效果应该不会比mlp差的,但我做出来f1只有 0.59。

     

    5. 文本inception:这是“看山杯”文本分类大赛第一名自创的模型,训练过程中过拟合严重,训练acc到0.92,验证集val_acc只有0.75.

    6. 原生版fasttext: 认真读了一下fasttext的论文,并看了官网,发现原生版和自己的keras版本还是很不同的,原生版采用C语言,读入文本没有最大长度之分。所有数据全部读进去,且可分bucket,不像一般的深度学习框架,需要对句子进行padding。同时,原生版处理学习率是从0.1开始,然后按照训练步数来折算学习率的变化值,这也是keras不好操作的。不太明白的一点是:为什么word2vec和fasttext用0.1这么大的学习率,loss也并不震荡。

    用原生版fasttext分别训练了字级别文章和词级别文章,验证集准确率分别是0.761和0.77,词级别测试集f1也达到0.774。好悲伤,搞了这么久才和人家的baseline同分。

     

    想了一下,tfidf+svm和fasttext都有一个共同点——句子的长度对模型没有影响。而这个数据集中,句子长度分布太广了,很难一个模型照顾到短的文本和长文本。那么要不要做了个多输入的CNN什么的呢?想法虽好,但多通路选择性输入,训练的时候怎么反向传播呢?好吧,暂时到这儿吧。

     

    总结

    在cnn和lstm中,尝试了embedding层训练和不训练两种,参与训练速度会慢一些,效果也并没有很好的提升。

    复杂的模型未必会有很好的结果,简单模型效果未必不理想,没必要一味追求深度学习、复杂模型什么的。选什么样的模型还是要根据数据来的。

    同一类问题,不同的数据效果差异很大,不要小看任何一类问题,例如分类,我们通常觉得它很简单,但有些数据并非你所想。本次“达观杯”到目前为止,第一名最高也只有0.80。

     

     

     

     

     

    展开全文
  • 我们身边每天所产生的信息量正在迅猛增加,而这些信息基本都是非结构化的海量文本。 人类可以轻松处理与感知非结构化文本,但机器显然很难理解。 不用说,这些文本定然是信息和知识的一个宝贵来源。因此,设计出能...
  • Matplotlib

    万次阅读 多人点赞 2018-08-23 23:28:21
    官网帮助文档地址:https://matplotlib.org/tutorials/introductory/pyplot.html Pyplot简介 matplotlib.pyplot 是一个命令风格的函数集合,这使得 matplotlib 工作起来和MATLAB很相似。每一个 pyplot 函数都会使...
  • 使用simhash计算文本相似度

    千次阅读 2020-01-30 17:37:56
    文本相似度计算常用于网页去重以及NLP里文本分析等场景。文本相似度,可以分为两种,一种是字面相似度,另一种是语义相似度。本文记录的是文本的字面相似度的计算及实现,语义相似度计算则需要海量数据去计算语义值...
  • 新手,使用百度的ueditor富文本编辑器时图片上传功能无法实现,求帮助,可以的话,请给个相关案例或者推荐一下其他的富文本编辑器,感谢
  • 文本挖掘系列之文本分类

    千次阅读 2017-06-18 17:40:07
    文本分类介绍文本分类问题是根据文本的特征将其分到预先设定好的类别中,类别可以是两类,也可以是更多的类别。文本分类是机器学习领域里监督学习的一种重要应用问题。不过需要指出的是,第一,文本分类问题中用于...
  • 使用LSTM生成文本

    千次阅读 2019-04-17 11:38:48
    使用LSTM生成文本概述如何生成序列数据生成文本的采样策略文本序列生成程序流程准备并解析初始文本将字符序列向量化构建神经网络模型训练语言模型并采样用模型生成文本 概述 我们的感知模式、语言和艺术作品都具有...
  • ChineseTextualInference project including chinese corpus build and inferecence model, 中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建. 项目地址:...
  • NLP之文本分类

    万次阅读 2018-09-26 15:08:07
    文本自动分类简称文本分类(text categorization),是模式识别与自然语言处理密切结合的研究课题。传统的文本分类是基于文本内容的,研究如何将文本自动划分成政治的、经济的、军事的、体育的、娱乐的等各种类型。 ...
  • 压缩包中包括python脚本和一个PPT。 在UtralEdit中打开这两个脚本NBayes_lib.py和NBayes_...PPT详解了朴素贝叶斯算法的原理以及这个文本分类器的程序思想和运行结果详解,希望对你能够有帮助,如果有任何问题,请留言!
  • 文本可视化研究

    万次阅读 2017-10-23 19:28:32
    文本可视化技术综合了文本分析、数据挖掘、数据可视化、计算机图形学、人机交互、认知科学等学科的理论和方法,为人们理解复杂的文本内容、结构和内在的规律等信息的有效手段。 1.2文本可视化作用和重要性 问题 ...
  • python 中文文本分类

    万次阅读 多人点赞 2017-02-06 11:31:21
    写这篇博文用了很多时间和精力,如果这篇博文对你有帮助,希望您可以打赏给博主相国大人。哪怕只捐1毛钱,也是一种心意。通过这样的方式,也可以培养整个行业的知识产权意识。我可以和您建立更多的联系,并且在相关...
  • 新闻信息抓取及词云可视化、文本聚类和LDA主题模型文本挖掘 https://blog.csdn.net/Eastmount/article/details/104698926 [Pyhon疫情大数据分析] 二.PyEcharts绘制全国各地区、某省各城市疫情地图及可视化分析 ...
  • 自动生成文本摘要

    万次阅读 2018-10-06 14:33:38
    什么是文本摘要生成 如何从网页上提取数据 如何清洗数据 如何构建直方图 如何计算句子分数 如何提取分数最高的句子/摘要   在继续往下阅读之前,我假设你已经了解下面几...
  • 文本聚类算法介绍

    万次阅读 热门讨论 2015-04-10 12:58:14
    本博客通过对当前比较成熟的聚类算法分析,介绍如何对非结构的数据(文档)做聚类算法;如何利用搜索引擎的相关知识来解决文本聚类问题等
  • XGBoost文本分类实战

    千次阅读 2019-07-16 08:56:25
    一、将收集到的语料进行文本预处理 1)train.txt预处理为train.csv,格式为id,内容,标签 使用excel打开train.txt然后选择分隔符为英文逗号,这样内容在一列,然后再为他们添加id,从1-900,接着添加标签,0,1,...
  • 2、本课程从属于正在录制的《机器学习入门系列》,本篇是第2篇:朴素贝叶斯文本分类。本课程中会涉及到一些数学算法和使用工具。先教大家怎么使用和简单触碰原理。很快后续会有针对这些特定数学基础和工具的精讲...
  • VC++MFC帮助文件的实现

    千次阅读 2009-09-09 21:44:00
    很多人问起现在的CHM帮助文档如何作为软件的热点敏感帮助,网上搜索的资料也不多,可能是太简单了吧,呵呵!今天整理了一下,详细的介绍在VC开发的软件中对CHM帮助文档的调用方法以及CHM帮助文档的制作要求。一、...
  • selenium查找文本 Selenium中CSS定位器是一个基本概念,每个旨在使用Selenium执行自动化测试的测试人员都应该意识到这一点。 在Selenium中充分使用CSS定位器可以帮助您以更高效,更彻底的方式执行测试。 我从7年...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 566,578
精华内容 226,631
关键字:

帮助文本