精华内容
下载资源
问答
  • 文本分类特征的选取

    2020-07-19 16:42:07
    一、基本概念 自然语言处理(NLP) ...文本处理的第一步一般是要做分词(也部分文本处理算法不需要做分词,这里不做讨论),这里介绍两个分词工具,其中最常用的是jieba,两者很多相似的地方。

    一、基本概念

    • 自然语言处理(NLP)
    • 策略、机器学习(深度学习)相比较
      基于策略的文本分类方法要求我们得尽量搞清楚影响问题的所有因素的细节,如果问题越来越复杂,手动地制定规则就变得非常困难;机器学习和深度学习可以从样本中学习到更加深层次的内容(知识,规则),同时我们可以通过调整特征和参数不断优化模型的效果。
    • 精确率、准确率、召回率

    二、文本特征选取

    文本处理的第一步一般是要做分词(也有部分文本处理算法不需要做分词,这里不做讨论),这里介绍两个分词工具,其中最常用的是jieba,两者有很多相似的地方。

    1. 中文分词:将中文句子分割为多个词语就是中文分词
      jieba分词,支持自定义词典,是对自带词典的补充;支持基于TF-IDF算法和TextRank算法的关键词抽取;支持词性标注
      HanLP,与jieba相比,支持简繁转换,支持拼音转换,支持自定义分词模型,支持语义距离分析,特定情况下分词速度和效果更好,配套书籍《自然语言处理入门》
    2. 在分词后将中文句子转换问多个词语的序列,这一步需要做特征提取,将文本转换为模型可以使用的数据
      • one-hot编码:将一个词语转换为仅有1位是1,其他位全是0的向量,向量的长度是词表的长度,词表可以自定义,也可以使用分词工具中的词表,常用的汉语词汇大约在10W这个等级,也就是向量的维度
      • 词袋模型:对于一条文本,每个单词都收入一个词袋中并计数,为了能比较不同长度的文本,因此词袋中的词出现的频率要做正则化。用的方法叫TF-IDF,也就是词出现的频率要乘以词的权重,这样就能统一比较不同长度的文本了。
      • TF-IDF:TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率较高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
        one-hot编码和词袋模型只保留了词和词频的信息,而丢掉了词的位置信息,而词的位置和文本的意义有很大关系
      • Word2VecWord2vec只关心模型训练完后的副产物——模型参数(这里特指神经网络的权重),并将这些参数,作为输入 x 的某种向量化的表示,这个向量便叫做——词向量,其中的 x 是one-hot编码,模型指的是以下之一:
        • 如果是用一个词语作为输入,来预测它周围的上下文,那这个模型叫做『Skip-gram 模型』
        • 而如果是拿一个词语的上下文作为输入,来预测这个词语本身,则是 『CBOW 模型』
      • 词向量的维度(与隐含层节点数一致)一般情况下要远远小于词语总数 V 的大小,所以 Word2vec 本质上是一种降维操作——把词语从 one-hot encoder 形式的表示降维到 Word2vec 形式的表示。
      • 词向量可以自行训练,但是一般不建议,因为需要很大的工作量,可以使用训练好的词向量:Chinese Word Vectors 中文词向量
        # 使用上述训练好的词向量模型做测试
        import gensim
        BAIKE_VEC = 'resource/baike.vectors.bin'
        w2v_model = gensim.models.KeyedVectors.load_word2vec_format(BAIKE_VEC, binary=True)
        # 打印和“南京”相似的前3个词及其相似度
        print(w2v_model.similar_by_word("南京", topn=3))
        # 结果
        [('苏州', 0.8196749687194824), ('无锡', 0.7864724397659302), ('常州', 0.7753453850746155)]
        
      • 词向量在文本分类中的使用:如何用 word2vec 计算两个句子之间的相似度?

    三、分类方法实践

    1. 朴素贝叶斯、支持向量机
      上述两种模型使用的都是python的sklearn库:scikit-learn (sklearn) 官方文档中文版
      以下是两种模型的示例代码:
    from sklearn.svm import SVC
    from sklearn.naive_bayes import MultinomialNB
    from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
    from sklearn.metrics import confusion_matrix,classification_report
    import numpy as np
    
    # 每条文本为一行,分词之间以空格分割,多行文本组成一个list,get_file是自定义函数
    train_text = np.asarray(get_file(TRAIN_DATA))
    train_label = np.asarray(get_file(TRAIN_LABEL)
    test_text = np.asarray(get_file(TEST_DATA))
    test_label = np.asarray(get_file(TEST_LABEL))
    
    # 特征数值计算类,可以使用自定义的词表,也可以使用训练数据生成词表
    count_v0 = CountVectorizer()
    # 判断CountVectorizer的词表是否为空,为空则生成词表,并使用词表将训练文本转化为词频
    counts_train = count_v0.fit_transform(train_text)
    # 使用已有的词表将测试文本转化为词频
    counts_test = count_v0.transform(test_text)
    
    # 将词频转化为Tf-idf
    tfidftransformer = TfidfTransformer()
    # fit会计算训练文本中所有词的idf,并存储
    train_data = tfidftransformer.fit_transform(counts_train)
    # 这里用transform处理测试文本,其中会直接使用训练数据的idf
    test_data = tfidftransformer.transform(counts_test)
    
    # 多项式朴素贝叶斯
    clf = MultinomialNB(alpha=0.01)
    clf.fit(train_data, train_label)
    pred = clf.predict(test_data)
    preds = pred.tolist()
    
    # 模型效果评价:计算并打印混淆矩阵
    c_matrix = confusion_matrix(test_label, preds)
    for i in c_matrix:
        print(i)
    report = classification_report(test_label, preds)
    print(report)
    
    # svm
    svclf = SVC(kernel='linear', class_weight='balanced')
    svclf.fit(train_data, train_label)
    pred = svclf.predict(test_data)
    preds = pred.tolist()
    
    # 模型效果评价:计算并打印混淆矩阵
    c_matrix = confusion_matrix(test_label, preds)
    for i in c_matrix:
        print(i)
    report = classification_report(test_label, preds)
    print(report)
    

    精确率和召回率是一对矛盾的向量,通常在一些简单的任务中才可能使查全率和查准率都很高。精确率、召回率、F1计算

    1. 训练集和测试集的划分:留出法、交叉验证法、自助法
      为了将样本数据划分为训练集和测试集,同时避免样本数据分布不均衡,需要使用合理的划分方法,这里使用交叉验证法。
      交叉验证法是将样本数据划分为k个大小相同的子集,每次选取其中k-1个作为训练集,剩下的一个作为测试集,一般取k=10,称为10折交叉验证。
      可以使用sklearn中的StratifiedKFold实现:模型选择和评估
    from sklearn.model_selection import StratifiedKFold
    # 10折交叉验证
    skf = StratifiedKFold(n_splits=9)
    for train_index, test_index in skf.split(vect, label):
        print("train_index: ",train_index.shape)
        print("test_index: ",test_index.shape)
        x_train, x_test = vect[train_index], vect[test_index]
        y_train, y_test = label[train_index], label[test_index]
        model_train(x_train, y_train, x_test, y_test)
    
    1. 二分类/多分类
      以上代码中的MultinomialNB和SVC实现的都是二分类算法,类似的也可以使用二分类组合实现多分类:二分类实现多分类的两种思路
      sklearn中的多分类也是基于以上思想实现的,无论是one-versus-rest还是one-versus-one都有其固有的缺点,具体实践中需要评估。
      多分类效果的评价也可以使用sklarn:sklearn的多分类模型评价指标
    2. 数据不平衡问题
      机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class skew)。以常见的二分类问题为例,当正类和负类差距很大时,就是数据不平衡问题,对待不平衡问题一般有三中处理方法:过采样、欠采样和阈值调整:如何处理数据中的「类别不平衡」?
      欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响?
    3. 尝试xgboost模型
      使用过采样(或SMOTE)+强正则模型(如XGBoost)可能比较适合不平衡的数据。拿到一个新的数据时,可以不妨直接先试试这个方法,作为基准(Baseline)。
    4. 异常数据识别
      一般可以将异常检测看成是数据不平衡下的分类问题。
      数据挖掘中常见的「异常检测」算法有哪些?
    展开全文
  • 在核模糊C均值聚类的基础上,结合了多类分类支持向量机中的一对一方法,按照既定的准则把训练样本集中可能属于支持向量的样本数据进行预选取,并应用到语音识别中。实验取得了较好的结果,该方法有效地提高了支持...
  • 目标知道总体、样本样本大小、样本数量知道样本统计量和总体统计量知道总体分布、样本分布和抽样分布知道常用的抽样方法某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者帮忙完成...

    学习目标
    目标知道总体、样本、样本大小、样本数量知道样本统计量和总体统计量知道总体分布、样本分布和抽样分布知道常用的抽样方法某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者帮忙完成检验,结果却让人大跌眼镜!

    没文化,真可怕!我该怎么办? 有时候数据很容易收集,例如参加健身俱乐部的人的年龄,后这一家游戏公司的销售数据。但有时候不太容易,该怎么办呢? 是时候拿出终极武器了— 抽样
    1.抽样相关概念
    总体:是指研究对象的整个群体。
    公司生产的一批糖果

    样本:是从总体中选取的一部分,用于代表总体的整体情况。
    在这批糖果中随机抽取50颗糖果

    样本数量:又叫样本空间,是表示有多少个样本。
    在这批糖果中随机抽取50颗糖果,抽5次:样本数量=5

    样本大小:也叫样本容量,表示每个样本里有多少个数据。
    每个样本50颗糖果:样本大小=50
    统计量:
    统计量是对数据进行统计得到的量,例如:均值、方差、标准差、比例等。
    总体统计量:总体XX对总体进行统计得到的统计量
    总体均值μ\mu:整批所有糖果数据的均值总体方差σ2\sigma^2:整批所有糖果数据的方差样本统计量:样本XX对样本进行统计得到的统计量
    样本均值Xˉ\bar{X}:抽取的某个样本糖果数据的均值样本方差S2S^2:抽取的某个样本糖果数据的方差分布:
    总体分布总体数据的概率分布:整批所有糖果数据的概率分布
    往往未知,很多时候无法获得总体所有元素的观测值可以通过理论计算进行假定样本分布抽取的样本中数据的概率分布:抽取的某个样本糖果数据的概率分布
    假设总体大小为m,样本大小为n,n趋近于m时,样本分布趋近于总体分布样本分布又称经验分布注意:样本分布与总体分布近似(抽样正确的前提下)
    抽样分布
    对样本统计量概率分布的一种描述:所有样本均值的概率分布

    2.抽样方法
    抽样的目的是为了通过样本获得总体的信息,所以关键点是怎么抽样才能保证获得的样本具有代表性,下面,我们简单介绍几种常用的抽样方法。
    简单随机抽样(simple random sampling)。原理和我们抽扑克牌、抽奖一样,就是从一个固定的总体中(比如有N个对象),利用抽签或其他随机方法(如随机数表)抽取n个对象。所谓随机,是指总体中每一个对象被抽中的概率相等。假设两个人抽扑克牌比大小,两个人抽中大王的概率其实一样,都是1/54。系统抽样(systematic sampling)。这种抽样方法的核心在于确定一个所谓的“抽样间隔”。比如将总体对象随机编号,从1至100,我们只抽取编号个位数是7的对象,即编号为7,17,27,…的样本,本质上他们相邻的编号有一个固定的间隔——10。分层抽样(stratified sampling),是指先将总体按照某种特征分为若干层,比如按照性别分为男女两层,然后再从每一层内进行简单随机抽样。分层的目的就在于提升样本对总体的代表性,提高估计的精确度,比如一般的理工院校男生多女生少,采用分层抽样可以保证男性和女性样本都能被抽中。整群抽样(cluster sampling),是将总体分成几个群,比如我国开展的大型调查一般会以省或地区为群,先采用简单随机抽样的方法抽取群,然后从抽中的群中再抽取相关的个体进行研究。现实过程中可以将抽中的群中的所有对象作为研究样本,也可以在群内部再次进行抽样获得部分调查对象作为样本

    展开全文
  • SVM支持向量机,作为一种分类方法,通过核函数将低维空间上线性不可分的样本映射到高维空间上线性可分的样本空间,通过核函数计算内积,得到一个线性分类器。 常用的核函数多种,如线性核函数,多项式核函数,...

        SVM支持向量机,作为一种分类方法,通过核函数将低维空间上线性不可分的样本映射到高维空间上线性可分的样本空间,通过核函数计算内积,得到一个线性分类器。

        常用的核函数有多种,如线性核函数,多项式核函数,径向基核函数,Sigmoid核函数和复合核函数。libsvm用的是线性核函数,核函数的选取对分类器的性能有一定影响。

        分类中的概念,如超平面(分类器构成的平面)、支撑向量、松弛向量、离散点、软间隔分类(加入松弛向量,可以容易离散点,容忍度可以通过参数调整)、硬间隔分类(没有松弛向量)、样本不均衡时会影响超平面的选择(欺负样本体积较小的类别,通过调整不同的松弛向量(可根据样本大小比例或体积比例),样本集较少的容忍度小)。

       SVM应用于多分类时,是通过一对多或一对一等组合成多个分类器,然后通过投票或DAG SVM(类似于二分的思想)进行分类。

       SVM训练过程的事件复杂度与样本数量,样本维数及支撑向量的个数有关。

    推荐阅读SVM入门系列(一至十):http://www.blogjava.net/zhenandaci/archive/2013/01/17/254519.html#394361

    记下来,整理一下思路,便于日后温故而知新。

    转载于:https://www.cnblogs.com/changxiaoxiao/archive/2013/01/24/2875169.html

    展开全文
  • 统计学方法与数据分析(上下册)

    热门讨论 2013-12-29 11:32:47
    4.10一个常用的连续随机变量:正态分布 4.11随机抽样 4.12抽样分布 4.13二项分布的正态逼近 4.14Minitab指令 4.15小结 重要公式 补充练习 第五部分数据分析:中心值方差和比例 第五章关于总体中心值的推断 ...
  • 2)在二维上举例:我们用我们常用的坐标系,即(1,0)、(0,1)为基的坐标系,选取一组数据[ (-2,-2),(-1,-1)、(0,0)、(1,1)、(2,2)],我们发现这组数据在坐标系上都处于一条直线上,就是y=x上。...

    一、降维

    1)首先我们可以将数据以矩阵的形式表示出来,例如Xmxn,即m个数据样本,每个数据样本有n维度的特征(这个特征就是数字,n维特征就是n个数字表示了这个样本)。降维的目的就是减小n,比如降低维度到k(k<n)。
    2)在二维上举例:我们用我们常用的坐标系,即(1,0)、(0,1)为基的坐标系,选取一组数据[ (-2,-2),(-1,-1)、(0,0)、(1,1)、(2,2)],我们发现这组数据在坐标系上都处于一条直线上,就是y=x上。此时他的维度是二维的,但是我们把X、Y坐标轴逆时针旋转45度,即X轴与之前的y=x直线重合,我们得到X’、Y’,此时数据全部在X’轴上,点的y坐标全变为0,Y‘轴似乎没有什么作用,这样就把维度降低一维了。
    3)我们需要明确的是,某点在不同的基下,坐标是不同的,但是该点距离原点的距离不变。这个距离通过勾股定理计算得来,因此在X轴上的投影越大,那么相应在Y轴上的投影就会变小,极端情况下,全部分配给了X轴,y=0,这就舍弃了Y轴,达到了降维的目的。
    4)如下图,当点集中在Y轴分布的范围很广,在X轴分布的范围很小,因此我们可以认为用X轴描述数据集的特征必要不大,因此我们可以舍弃X轴的维度,从而达到降维的目的。这就提醒我们应该把数据集投影到范围比较广的范围里,比如下图中的Y轴,即尽可能的扩大数据集的离散程度。
    在这里插入图片描述

    5)降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
    降维具有如下一些优点:

    1. 使得数据集更易使用。
    2. 降低算法的计算开销。
    3. 去除噪声。
    4. 使得结果容易理解。
      降维的算法有很多,比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。

    二、PCA简介

    1、PCA,即主成分分析,提取数据的主要成分,剔除数据中相对次要的成分,换句话说PCA的目标是降维,就是剔除数据次要成分的维度。在很多应用领域的数据是多个变量存在的,而且要求收集数据量是很大的,这将增加数据分析工作的难度。因此,我们想能不能剔除数据中相对次要的成分,一次来压缩数据量的大小、降低数据变量的复杂度。
    2、 高维数据中变量之间的关系是不可见的,因此我们应该找到一个合理的方法,在降低维度的同时,尽量的减少数据信息的损失,这样对于数据的处理是可以接受的。

    三、PCA的目标

    1、总结一下 PCA 的算法步骤:

    设有 m 个n 维数据。

    1)将原始数据按列组成 m行 n 列矩阵 X;
    2)将 X 的每一行减去这一行的均值;
    3)求出协方差矩阵
    在这里插入图片描述
    4)求出协方差矩阵的特征值及对应的特征向量;(此处求解协方差矩阵的特征值和特征向量有两种方法:特征值分解方法和SVD分解方法)
    5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P;
    6)Y=PX即为降维到 k 维后的数据

    :A、特征值分解矩阵
    在这里插入图片描述

    B、SVD分解矩阵原理
    在这里插入图片描述

    2、基的选择标准

    我们知道同样的一组数据选用不同的基,其表示也会不同。基的数量也就是维的数量,当基的数量小于数据的数据的维数,就是降维。假如我们从n维降到k维,那么这k个基怎么选择呢?也就是说怎么选择k个基才能使得降维的效果最好,保存原始信息最多。
    这里给出两种理解,均是PCA最大方差理论(就是数据投影到特定基后的方差越大,降维的效果越好)
    1)在信号处理中认为信号具有较大的方差,噪声有较小的方差。如果样本在X上的投影方差较大,在Y上的投影方差较小,那么可认为Y上的投影是由噪声引起的。
    2)方差越大,数据越分散,也就意味着信息量越多,信号越强,也可以说熵越大,该特征越有区分度。协方差代表维度x和维度y之间的相关程度,协方差越大,也就意味着噪声越大,信息的冗余程度越高。
    因此n维的数据降低到k维,在k维上的每一维的样本方差都很大。
    注:数据投影到基上的分散程度越大,越好。因此衡量标准可以变为所有点的投影绝对值之和最大。下图是计算投影的方法,即某一点到原点的向量与基的内积。

    (图片来自其他人的博客)

    3、多维

    在一维空间中我们可以用方差来表示数据的分散程度。而对于高维数据,我们用协方差进行约束,协方差可以表示两个变量的相关性。为了让两个变量尽可能表示更多的原始信息,我们希望它们之间不存在线性相关性,因为相关性意味着两个变量不是完全独立,必然存在重复表示的信息。
    因此问题转化为:将一组 N 维向量降为 K 维,其目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下,取最大的 K 个方差)。

    四、实现PCA的Python代码

    在这里插入代码片##Python实现PCA
    import numpy as np
    
    
    def pca(X, k):  # k is the components you want
        # mean of each feature
        n_samples, n_features = X.shape
        mean = np.array([np.mean(X[:, i]) for i in range(n_features)])
        # normalization
        # 去平均值,即每一位特征减去各自的平均值。
        norm_X = X - mean
        # scatter matrix
        # 计算协方差矩阵
        scatter_matrix = np.dot(np.transpose(norm_X), norm_X)
        # Calculate the eigenvectors and eigenvalues
        # 求特征值和特征向量
        eig_val, eig_vec = np.linalg.eig(scatter_matrix)
        eig_pairs = [(np.abs(eig_val[i]), eig_vec[:, i]) for i in range(n_features)]
        # sort eig_vec based on eig_val from highest to lowest
        # 对特征值从大到小排序,
        eig_pairs.sort(reverse=True)
        # select the top k eig_vec
        # 选择其中最大的k个。然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
        feature = np.array([ele[1] for ele in eig_pairs[:k]])
        # get new data
        # 将数据转换到k个特征向量构建的新空间中。
        data = np.dot(norm_X, np.transpose(feature))
        return data
    
    
    X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
    
    print(pca(X, 1))
    

    五、本文参考博客

    https://www.zhihu.com/question/41120789?sort=created
    https://blog.csdn.net/luoluonuoyasuolong/article/details/90711318
    https://zhuanlan.zhihu.com/p/77151308
    https://blog.csdn.net/program_developer/article/details/80632779
    本文使用到了这些博客的图、代码等

    展开全文
  • RBF神经网络学习算法

    千次阅读 2016-09-06 10:08:08
    RBF网络需要学习的参数有3个:基函数的中心ci,方差σi以及...聚类方法就是把样本聚成几类,以类中心作为各RBF函数的中心,常用的方法有k均值聚类法。 权值W的学习算法可用LMS(最小均方误差)方法、也可直接用伪逆
  • 常用的有随机采样器:RandomSampler,当dataloader的shuffle参数为True时,系统会自动调用这个采样器,实现打乱数据。默认的是采用SequentialSampler,它会按顺序一个一个进行采样。这里介绍另外一个很有用的采样...
  • <br>【内容提要】 本书针对工程中常用的行之有效的算法而编写,其主要内容包括多项式的计算、复数运算、随机数的产生、矩阵运算、矩阵特征值与特征向量的计算、线性代数方程组的求解、非线性方程与方程组的...
  • KNN理解和实现

    2020-05-27 15:19:31
    常用的衡量距离的方式主要两种:曼哈顿距离和欧式距离 样本的特征空间:两个样本集都是含有n为特征的数据集, (1)曼哈顿距离: (2)欧氏距离: 这里我们使用欧式距离L2作为衡量的尺度,实现简单数据...
  • 常用的聚类算法类型:划分方法(k-means),层次方法,基于密度的方法,基于网格的方法。聚类算法选取取决于数据的类型和聚类的目的。二、各类算法基本原理及优缺点(一)划分算法1.算法原理K-means聚类,原理是随...
  • 数据抽取非正态性处理

    千次阅读 2013-06-19 16:46:02
    若抽取样本不正态,说明数据选取有遗漏或问题,虽说从理论上来讲是不可取,但可以通过将数据正态化来充分利用现有数据。  正态化过程是非线性转化过程,这样做,会改变原始数据... 数据正态化的常用方法有
  • 本文将稍微介绍径向基函数的基础知识,之后以鸢尾...可从此处下载一些常用的简单的机器学习数据集,本文使用的鸢尾花数据集(将在最后的网盘链接中给出)包含三类,共150个样本,每条样本有4个属性,以csv文件的方式存
  • 目前常用的方法有过滤法和缠绕法。结合过滤法和缠绕法的优点,提出基因选择的多目标分布 估计算法(MOEDA)。首先通过打分函数确定MOEDA的候选基因集合,在确定候选基因后,MOEDA通过对 KNN分类器的多个性能指标及...
  • 下面讲一讲用python实现kNN算法的方法,这里主要用了python中常用的numpy模块,采用的数据集是来自UCI的一个数据集,总共包含1055个样本,每个样本有41个real的属性和一个类标签,包含两类(RB和NRB)。我选取800条...
  • 假设检验PPT01

    2015-07-17 09:47:54
    假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究...常用的假设检验方法有u-检验法、t检验法、χ2检验法(卡方检验)、F-检验法,秩和检验等。
  • 数据生产

    2020-06-16 18:15:48
    第一章 数据的生产 数据是怎样产生的?(抽样方法) 所度量的东西是什么?(度量方法) 统计误差类型 ...样本是怎么选取的 ...常用的实验方法有两种:随机比较实验法和历史比较实验法。随机比较实验
  • 假设检验

    2016-08-29 10:31:00
    假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H...常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检...
  • k-means聚类算法

    万次阅读 2018-04-01 19:52:56
    常用的相似度计算方法为欧氏距离。 常用的聚类算法:原型聚类、层次聚类、密度聚类 k-means算法 k-means算法首先随机选取k个质心,计算每个样本和k个质心的相似度(欧氏距离),选择相似度最高的质心所在的簇...
  • 统计学中存在两类错误 这两类错误主要是在统计学假设检验中所出现的,因此,先要了解假设检验的基本概念。 假设检验(Hypothesis Testing)是...常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验
  • k-means流程

    2021-01-13 17:52:50
    无监督学习算法,用于将相似的样本归为一类,不同的相似度计算方法,会有不同的聚类结果,比如有很多水果,可以按种类,颜色,大小进行聚类,结果都不一样,常用的相似度计算方法有欧式距离法(两点之间的直线距离)...
  • Cascade R-CNN

    2019-11-25 22:08:27
    作者实验发现,因为在基于anchor的检测方法中,我们一般会设置训练的正负样本(用于训练分类以及对正样本进行坐标回归),选取正负样本的方式主要利用候选框与ground truth的IOU占比,常用的比例是50%,即IOU>...
  • pytorch 过采样

    2020-05-27 00:14:19
    常用的有随机采样器:RandomSampler,当dataloader的shuffle参数为True时,系统会自动调用这个采样器,实现打乱数据。默认的是采用SequentialSampler,它会按顺序一个一个进行采样。这里介绍另外一个很有用的采样...
  • pytorch sampler对数据进行采样

    万次阅读 2018-07-01 21:32:31
    常用的有随机采样器:RandomSampler,当dataloader的shuffle参数为True时,系统会自动调用这个采样器,实现打乱数据。默认的是采用SequentialSampler,它会按顺序一个一个进行采样。这里介绍另外一个很有用的采样...
  • batch_sampler是生产随机样本patch的方法,一种常用的数据增量(DataAugment)策略。具体说来,它从训练数据图像中随机选取一个满足限制条件的区域。这里两点,一个是随机选取,另一个就是得满足限制条件。限制条件...
  • 机器学习——决策树

    2019-11-15 20:02:45
    决策树是数据挖掘中最重要且最常用的方法之一. 在数据挖掘中,决策树主要两种类型:分类树和回归树 分类树输出的是样本的类标。 回归树输出的是一个实数。 构建决策树是一个自顶向下的过程。从包含所有数据的根节点...
  • 机器学习——交叉验证与特征选择

    千次阅读 2015-11-01 18:53:42
    k-折叠交叉验证是一种在机器学习中很常用的方法,简单来说就是手头是10个数据,取2-10为样本数据,用来学习,生成公式后将第一个数据送入公式进行计算,下次则选取第二个数据作为测试数据,1,3-10这九个数据作为...
  • 14 基于粒子群算法的PID控制优化算法(史峰) PID控制方法是工业领域中最常用的控制方法,然而在PID控制算法的使用中,P,I,D参数即比例 参数、积分参数、微分参数的确定是个难题,一般是凭经验获得。粒子群算法...
  • K-均值聚类算法研究

    2020-07-04 16:06:50
    ”聚类方法有很多种,其中最简单形式便是划分式聚类,划分式聚类试图将给定数据集合分割成不相交子集,使具体聚类准则是最优。实际中应用最广泛准则是聚类误差平方和准则,即对于每一个点都计算它到相应...

空空如也

空空如也

1 2
收藏数 35
精华内容 14
关键字:

常用的样本选取方法有