精华内容
下载资源
问答
  • make_classification

    2021-03-24 20:45:27
    from collections import ...from sklearn.datasets import make_classification from imblearn.over_sampling import ADASYN X, y = make_classification(n_classes=2, class_sep=2, weights=[0.1, 0.9], n_inf
    from collections import Counter
    from sklearn.datasets import make_classification
    from imblearn.over_sampling import ADASYN
    X, y = make_classification(n_classes=2, class_sep=2,
                               weights=[0.1, 0.9], 
                               n_informative=3, 
                               n_redundant=1, 
                               flip_y=0,
                               n_features=20, 
                               n_clusters_per_class=1, 
                               n_samples=1000,
                               random_state=10)
    
    print(X)
    print(y)
    print('Original dataset shape %s' % Counter(y))
    ada = ADASYN(random_state=42)
    X_res, y_res = ada.fit_resample(X, y)
    print('Resampled dataset shape %s' % Counter(y_res))
    
    

    make_classification参数注解

    展开全文
  • 代码二、sklearn.datasets.make_classification1. 产生分类数据2. 可视化方法验证数据是否符合正态分布3. 通过 scipy 库来验证数据是否符合正态分布4. 画出两个特征下的二分类原数据可视化结果5. 代码(只使用两个...

    一、sklearn.datasets.make_blobs

    在这里插入图片描述

    1. 产生随机数据

    产生多类单标签数据集,为每个类分配一个或多个正态分布的点集,为测试聚类算法而使用的
    在这里插入图片描述
    在这里插入图片描述

    • 产生的默认特征 n_features 是两种,0 和 1
    • 产生的默认种类是 3 个(center=3)
    • 产生的默认样本是 100 个

    2. 数据可视化

    提取一下每个类的点集,并且可视化一下:
    在这里插入图片描述

    3. 代码

    from sklearn.datasets import make_blobs
    import numpy as np
    import pandas as pd
    
    data,target = make_blobs()
    
    df = pd.DataFrame(data)
    df['target'] = target
    
    df1 = df[df['target']==0]
    df2 = df[df['target']==1]
    df3 = df[df['target']==2]
    
    # plt.scatter(df1)
    df1.index = range(len(df1))
    df2.index = range(len(df2))
    df3.index = range(len(df3))
    
    plt.figure(figsize=(5,3))
    plt.scatter(df1[0],df1[1],color='red')
    plt.scatter(df2[0],df2[1],color='green')
    plt.scatter(df3[0],df3[1],color='blue')
    

    二、sklearn.datasets.make_classification

    多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等
    在这里插入图片描述

    1. 产生分类数据

    在这里插入图片描述
    在这里插入图片描述

    2. 可视化方法验证数据是否符合正态分布

    • 只验证一下 df1(标签为0)的数据中的第一列的数据是否符合正态分布
      在这里插入图片描述

    3. 通过 scipy 库来验证数据是否符合正态分布

    • scipy 中的 ks-test 方法可以用来检测是否符合正态分布 pvalue > 0.05 就是正态分布
      在这里插入图片描述

    在这里插入图片描述

    4. 画出两个特征下的二分类原数据可视化结果

    在这里插入图片描述
    在这里插入图片描述

    5. 代码(只使用两个特征的情况)

    • 修改 make_classification 里面的参数即可
    '''
    make_classification
    '''
    from sklearn.datasets import make_classification
    import numpy as np
    import pandas as pd
    from scipy import stats
    
    data, target = make_classification(n_features=2,n_classes=3,n_clusters_per_class=1,n_redundant=0)
    
    df = pd.DataFrame(data)
    df['target'] = target
    
    df1 = df[df['target']==0]
    df2 = df[df['target']==1]
    df1.index = range(len(df1))
    df2.index = range(len(df2))
    
    plt.figure(figsize=(3,3))					# 画出数据集的数据分布
    plt.scatter(df1[0],df1[1],color='red')
    plt.scatter(df2[0],df2[1],color='green')
    
    plt.figure(figsize=(6,2))
    df1[0].hist()
    df1[0].plot(kind = 'kde', secondary_y=True)
    
    mean_ = df1[0].mean()
    std_ = df1[0].std()
    
    stats.kstest(df1[0], 'norm', (mean_, std_))
    

    三、sklearn.datasets.make_gaussian-quantiles

    在这里插入图片描述

    将一个单高斯分布的点集划分为两个数量均等的点集,作为环形数据来验证模型分类效果

    1. 产生数据并验证其正态性

    在这里插入图片描述
    在这里插入图片描述

    • 两个特征都完全符合正态分布

    2. 可视化数据

    在这里插入图片描述
    在这里插入图片描述

    3. 代码

    from sklearn.datasets import make_gaussian_quantiles
    import numpy as np
    import pandas as pd
    
    data, target = make_gaussian_quantiles(n_samples=500)
    
    df = pd.DataFrame(data)
    df['target'] = target
    
    df[0].plot(kind='kde',secondary_y=True,label='df[0]')
    df[1].plot(kind='kde',secondary_y=True,label='df[1]')
    plt.legend()
    
    df1 = df[df['target']==0]
    df2 = df[df['target']==1]
    df3 = df[df['target']==2]
    
    df1.index = range(len(df1))    # 调整行索引(养成良好的数据处理习惯)
    df2.index = range(len(df2))
    df3.index = range(len(df3))
    
    plt.figure(figsize=(5,5))
    plt.scatter(df1[0],df1[1],color='red')
    plt.scatter(df2[0],df2[1],color='green')
    plt.scatter(df3[0],df3[1],color='orange')
    
    
    
    展开全文
  • make_classification参数

    千次阅读 2018-11-07 19:04:24
    sklearn.datasets.make_classification ( n_samples=100,  n_features=20, 特征个数= n_informative() + n_redundant + n_repeated n_informative=2, 多信息特征的个数 n_redundant=2...

    sklearn.datasets.make_classification

    (

    n_samples=100, 

    n_features=20,                     特征个数= n_informative() + n_redundant + n_repeated

    n_informative=2,                  多信息特征的个数

    n_redundant=2,                    冗余信息,informative特征的随机线性组合

    n_repeated=0,                      重复信息,随机提取n_informative和n_redundant 特征

    n_classes=2,                        分类类别

    n_clusters_per_class=2,      某一个类别是由几个cluster构成的

    weights=None,                     列表类型,权重比             

    flip_y=0.01,                           

    class_sep=1.0,                      乘以超立方体大小的因子。 较大的值分散了簇/类,并使分类任务更容易。默认为1

    hypercube=True,shift=0.0, scale=1.0,                      

    shuffle=True, 

    random_state=None              如果是int,random_state是随机数发生器使用的种子; 如果RandomState实例,random_state是随                                                 机数生成器; 如果没有,则随机数生成器是np.random使用的RandomState实例。

    )

    功能:生成样本集,通常用于分类算法

     

    返回值:

    X:形状数组[n_samples,n_features]
    生成的样本。

    y:形状数组[n_samples]
    每个样本的类成员的整数标签。

    展开全文
  • sklearn.make_classification

    2018-04-02 21:26:00
    sklearn.datasets.make_classification(n_samples=100,n_features=20,n_informative=2, n_redundant=2, n_repeated=0,n_classes=2,n_clusters_per_class=2,weights=None, flip_y=0.01...

    sklearn.datasets.make_classification(n_samples=100, n_features=20, n_informative=2, 

    n_redundant=2,  n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None,                     

    flip_y=0.01, class_sep=1.0, hypercube=True,shift=0.0, scale=1.0,                      

    shuffle=True, random_state=None) 

    功能:生成样本集,通常用于分类算法

    参数:

    n_features :特征个数= n_informative() + n_redundant + n_repeated
    n_informative:多信息特征的个数
    n_redundant:冗余信息,informative特征的随机线性组合
    n_repeated :重复信息,随机提取n_informative和n_redundant 特征
    n_classes:分类类别
    n_clusters_per_class :某一个类别是由几个cluster构成的

    weights:列表类型,权重比

    class_sep:乘以超立方体大小的因子。 较大的值分散了簇/类,并使分类任务更容易。默认为1

    random_state: 如果是int,random_state是随机数发生器使用的种子; 如果RandomState实例,random_state是随机数生成器; 如果没有,则随机数生成器是np.random使用的RandomState实例。

    返回值:

    X:形状数组[n_samples,n_features]
    生成的样本。

    y:形状数组[n_samples]
    每个样本的类成员的整数标签。

    转载于:https://www.cnblogs.com/sunbigdata/p/8697729.html

    展开全文
  • from sklearn.datasets.samples_generator import make_classification 当导入make_classification时出现FutureWarning错误: FutureWarning: The sklearn.datasets.samples_generator module is deprecated in ...
  • 一、Make_blobs(聚类生成器) n_samples:待生成的样本的总数 n_features:每个样本的特征数,默认为2 centers: 要生成的样本中心(类别)数,默认为3 cluster_std: 每个类别的方差,默认为1 shuff...
  • make_classification创建用于分类的数据集,官方文档 例子: ### 创建模型 def create_model(): # 生成数据 from sklearn.datasets import make_classification X, y = make_classification(n_samples...
  • sklearn.make_classification </div> sklearn.datasets.make_classification(n_samples=100, n_features=20, n_informative=2,  n_redundant=2,  n_repeated=0, n_classes=...
  • sklearn.datasets.make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercub...
  • <div><p>Supplying the following keywords to dask_ml.datasets.make_classification does not appear to have the expected result. <p>n_samples, n_informative, n_redundant, n_features <p>Take a look at the...
  • 1、make_moons() sklearn.datasets.make_moons(n_samples=100, shuffle=True, noise=None, random_state=None) 制作月亮型数据。 重要参数:n_samples:设置样本数量、noise:设置噪声、random_state:设置随机参数...
  • make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=...
  • scikit-learn 包括各种随机样本的生成器,可以用来建立可控制的大小和复杂性人工数据集。 一、分类和聚类样本生成器 ...sklearn.datasets.make_blobs(n_samples=100,n_features=2,centers=None,cluster_std=1.0,ce...
  • make_classification参数解释

    万次阅读 2018-07-22 14:42:51
    参数 类型 默认 说明 n_samples int类型 可选 (default=100) 样本数量. n_features int 可选 (default=20) 总的特征数量,是从有信息的数据点,冗余数据点,重复数据点,和特征点-有...
  • “”" Plot randomly generated ...This illustrates the datasets.make_multilabel_classification dataset generator. Each sample consists of counts of two features (up to 50 in total), which...
  • Help on function make_multilabel_classification in module sklearn.datasets.samples_generator: make_multilabel_classification(n_samples=100, n_features=20, n_classes=5, n_labels=2, length=50, allow_...
  • replace data in 'data/sample_multiple_label.txt', and make sure format as below: 'word1 word2 word3 __label__l1 __label__l2 __label__l3' where part1: 'word1 word2 word3' is input(X), part2: '__label__...
  • Generate a random multilabel classification problem. For each sample, the generative process is: pick the number of labels: n ~ Poisson(n_labels):选取标签的数目 n times, choose a class c: c ~ ...
  • pytorch FC_classification

    2020-08-26 18:35:06
    import torch import torch.nn.functional as F import matplotlib.pyplot...# make fake data n_data = torch.ones(100, 2) x0 = torch.normal(2*n_data, 1) # class0 x data (tensor), shape=(100, 2) y0 = torch.zer
  • sklearn.datasets.samples_generator.make_classification sklearn.datasets.make_classification(n_samples=100, n_features=20, ***, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_...
  • python使用sklearn.datasets.make_gaussian生成数据,代码传送门: ...from sklearn.datasets import make_classification from sklearn.datasets import make_blobs from sklearn.datasets im...
  • <p>The experimental text_classification datasets should have a way to build a validation set from them, without the vocabulary being built over the validation set. <p><strong>Motivation</strong></p> ...
  • make_scorer" that can take metrics meant for classification and allow them to also be used to measure outlier detection algorithms. <pre><code>python from sklearn.metrics import precision_score, ...
  • sklearn --make_moons

    2020-09-04 15:48:15
    A simple toy dataset to visualize clustering and classification algorithms. Read more in the User Guide. Parameters n_samples: int or two-element tuple, optional (default=100) If int, the total ...
  • cats_dogs classification

    2021-01-19 16:12:18
    今天讲二分类,旨在学习Pytorch 基础 ...make_file.py 注意original_dataset_dir 这个文件路径 base_dir 存储的文件路径 数据将被分为成data文件。 import os import numpy as np import shutil # kaggle原始...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 866
精华内容 346
关键字:

make_classification