精华内容
下载资源
问答
  • sklearn导入外部excel数据
    2022-03-02 20:48:03

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

    本文网址:https://blog.csdn.net/HiWangWenBing/article/details/123239912


    目录

    第1章 scikit-learn数据获取的主要方式

    第2章 导入外部数据集

    2.1 概述

    2.2 代码案例


    第1章 scikit-learn数据获取的主要方式

    自带的小数据集:安装后,这些数据集一并安装,xxx.load_xxx()

    在线下载的数据集:下载远程数据集

    计算机生成的数据集:通过某种数学算法,生成数据集

    svmlight/svm格式的数据集: 从文件冲去数据集

    mldata.org: 在线下载由mldata.org提供的大型数据集

    第2章 导入外部数据集

    2.1 概述

    有时候,我们需要使用外部的数据集,外部数据集通常以txt或excel的格式提供。

    excel数据集的特征是:多特征的矩阵,列表示“特征”和标签,行表示样本。

    这时候,我们就需要通过pd.read_csv读入数据集,非常简单。

    2.2 代码案例

    import numpy as np
    import pandas as pd
    
    # 外部文件名,可以是excel文件,可以是txt文件
    # sep:分割符号
    df_demo = pd.read_csv('demo.txt',sep=' ')
    
    df_demo.shape
    
    df_demo.head().T[[0]]

    (18371, 26)


    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

    本文网址:https://blog.csdn.net/HiWangWenBing/article/details/123239912

    更多相关内容
  • 利用Pandas导入Excel数据后,输出第一行表头是表头下的第一行数据

    在这里插入图片描述
    将header参数改为0

    输出第一行表头

    #假使刚刚是data = [上面图片]
    在这里插入图片描述
    在这里插入图片描述
    即可

    展开全文
  • sklearn建模流程-自带数据导入

    千次阅读 2021-05-20 21:40:17
    sklearn建模流程: (不同算法之间建模流程基本相同) (1)首先需要将使用的API导入内存 from sklearn.neighbors import Nearest...(3)然后调用fit方法,并传入训练数据对算法进行训练 #模型训练 knn.fit(X_trai

    sklearn建模流程:

    (不同算法之间建模流程基本相同)
    在这里插入图片描述
    (1)首先需要将使用的API导入内存

    from sklearn.neighbors import NearestNeighbors
    

    (2)导入进来的是算法的类,首先需要实例化一个算法对象,并在实例化的过程中,传入想要设置的算法参数.

    #使用类创建一个具体的对象  
    knn = KNeighborsClassifier(n_neighbors=3)
    

    (3)然后调用fit方法,并传入训练数据对算法进行训练

    #模型训练
    knn.fit(X_train, y_train)
    

    (4)算法训练好后,通常需要进行模型效果评估,score方法是最常用的评估方法.

    #评估模型准确率  
    knn.score(X_test, y_test)
    

    (5)当模型训练好后,就可以使用predict接口预测新的数据啦

    #预测数据接口
    knn.predict(X_new)
    
    import numpy as np
    import pandas as pd
    # 1. 先导入需要的算法模型
    from sklearn.neighbors import KNeighborsClassifier
    # 实例化
    knn = KNeighborsClassifier(n_neighbors=3 )
    
    # 2. 训练数据
    rowdata = {'颜色深度':[14.23,13.2,13.16,14.37,13.24,12.07,12.43,11.79,12.37,12.04],
              '酒精浓度':[5.64,4.38,5.68,4.80,4.32,2.76,3.94,3.  ,2.12,2.6 ],
              '品种':[0,0,0,0,0,1,1,1,1,1]} #0 代表 “黑皮诺”,1 代表 “赤霞珠” 
    # 3. 测试数据
    new_data = np.array([12.8,4.1])
    
    # 4. 将数据保存成DataFrame
    wine_data = pd.DataFrame(rowdata)
    wine_data
    
    # 5. 提取出特征数据 X、y
    X = wine_data.iloc[:,:-1].values
    X
    y = wine_data.iloc[:, -1].values
    y
    
    # 6. 使用训练集数据对算法进行训练
    knn.fit(X, y)
    
    # 7. 使用这个模型,对新的数据进行预测
    # 注: 必须将数据变形成二维数据才能传入模型当中预测
    knn.predict(new_data.reshape(1,2))
    

    Sklearn自带数据导入

    sklearn中有一个datasets模块, 其中包含很多用于测试模型的实验数据集
    在这里插入图片描述
    尝试用load方法导入自带数据集:

    # 1. 导入load_breast_cancer函数
    from sklearn.datasets import load_breast_cancer
    
    # 2. 调用函数返回乳腺癌数据集数据
    cancer = load_breast_cancer()
    
    # 3. 查看里面封装了哪些东西
    cancer.keys()
    
    # 4..xxx的语法查看某一个内容
    # DESCR查看描述
    print(cancer.DESCR)
    # 查看数据
    cancer.data
    # 查看标签名称
    cancer.target_names
    # 查看标签数据
    cancer.target
    # 查看特征名称
    cancer.feature_names
    

    Sklearn数据集拆分代码实践:

    # 1. 导包
    import pandas as pd
    from sklearn.datasets import load_breast_cancer
    
    # 2. 调用函数返回乳腺癌数据集数据
    cancer = load_breast_cancer()
    cancer.data # 数据
    cancer.feature_names # 数据对应的特征名称
    # 3. 将数据集转换成DataFrame
    X = pd.DataFrame(cancer.data, columns=cancer.feature_names) 
    y = cancer.target # 标签数据
    
    # 4. 导入切分数据集API
    from sklearn.model_selection import train_test_split
    
    # 5. 传入整个数据集X, y
    X_train, X_test, y_train, y_test = train_test_split(
       X, y, test_size=0.3, random_state=0)
    

    说明:
    test_size : 从里面抽取出数据的百分比作为测试集
    random_state:随机数种子
    X_train、y_train:训练集的自变量和因变量
    X_test 、y_test :测试集的自变量和因变量

    展开全文
  • python导入数据集详解,包含mysql数据库连接,建议收藏! python导入数据集详解,包含mysql数据库连接,建议收藏! python导入数据集详解,包含mysql数据库连接,建议收藏!

    python数据科学系列

    • 🌸个人主页:JoJo的数据分析历险记
    • 📝个人介绍:小编大四统计在读,目前保研到统计学top3高校继续攻读统计研究生
    • 💌如果文章对你有帮助,欢迎关注、点赞、收藏、订阅专栏

    最近小伙伴问我有什么刷题网站推荐,在这里推荐一下牛客网,里面包含各种面经题库,全是免费的题库,可以全方面提升你的职业竞争力,提升编程实战技巧,赶快来和我一起刷题吧!牛客网链接|python篇

    加载数据是我们进行数据分析的第一步,本文主要介绍以下几个常用的方面导入数据集

    • 加载scikit-learn中的数据集
    • 创建模拟数据集
    • 导入csv数据集
    • 导入excel数据集
    • 连接mysql数据库

    🥇1.加载sklearn包中的数据集

    sklearn是一个机器学习库,里面包含了许多机器学习数据集。例如:

    • load_boston 波士顿房价的观测值 用于研究回归算法

    • load_iris 150个花的数据,用于研究分类算法

    • load_digits 手写数字图片的观测值,用于研究图形分类算法的优质数据集

    from sklearn import datasets
    
    # 手写数字数据集
    digits = datasets.load_digits()
    
    # 创建特征向量
    features = digits.data
    # 创建目标向量
    tatget = digits.target
    
    features[0]
    
    array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
           15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
           12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
            0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
           10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])
    

    🥇2.创建模拟数据集

    🥈2.1 回归数据集

    下面我们通过make_regression来模拟一个回归数据集

    from sklearn.datasets import make_regression
    features, target, coefficients = make_regression(n_samples=100,
                                                     n_features=3,
                                                     n_informative=3,
                                                     n_targets=1,
                                                     noise=0,
                                                     coef=True,
                                                     random_state=1)
    
    print('Featrue Matrix\n', features[:3])
    print('Target Vector\n', target[:3])
    
    Featrue Matrix
     [[ 1.29322588 -0.61736206 -0.11044703]
     [-2.793085    0.36633201  1.93752881]
     [ 0.80186103 -0.18656977  0.0465673 ]]
    Target Vector
     [-10.37865986  25.5124503   19.67705609]
    

    🥈2.2 分类模拟数据集

    使用make_classification创建分类数据集

    from sklearn.datasets import make_classification
    features, target= make_classification(n_samples=100,
                                          n_features=3,
                                          n_informative=3,
                                          n_redundant=0,
                                          n_classes=2,
                                          weights=[.25, .75],
                                          random_state=1)
    
    print('Featrue Matrix\n', features[:3])
    print('Target Vector\n', target[:3])
    
    Featrue Matrix
     [[ 1.06354768 -1.42632219  1.02163151]
     [ 0.23156977  1.49535261  0.33251578]
     [ 0.15972951  0.83533515 -0.40869554]]
    Target Vector
     [1 0 0]
    
    import matplotlib.pyplot as plt
    %matplotlib inline
    
    plt.scatter(features[:,0], features[:,1],c=target)
    


    png

    🥈2.3 聚类数据集

    使用make_blobs创建聚类数据集

    # 用于聚类
    from sklearn.datasets import make_blobs
    features, target = make_blobs(n_samples=100,
                                  n_features=2,
                                  centers=3,
                                  cluster_std=0.5,
                                  shuffle=True,
                                  random_state=1)
    
    print('Featrue Matrix\n', features[:3])
    print('Target Vector\n', target[:3])
    
    Featrue Matrix
     [[ -1.22685609   3.25572052]
     [ -9.57463218  -4.38310652]
     [-10.71976941  -4.20558148]]
    Target Vector
     [0 1 1]
    
    plt.scatter(features[:,0], features[:,1],c=target)
    


    png

    🥇3. 加载CSV文件

    csv文件是我们在进行数据分析时最常用的数据格式。python中pandas库提供了非常简单的方法导入,具体如下

    import pandas as pd 
    file = r'C:\Users\DELL\Desktop\Statistic learning\ISLR\data\auto.csv'
    df = pd.read_csv(file)
    # 当数据没有表头时,设置header = None
    df.head()
    
    mpgcylindersdisplacementhorsepowerweightaccelerationyearoriginname
    018.08307.0130350412.0701chevrolet chevelle malibu
    115.08350.0165369311.5701buick skylark 320
    218.08318.0150343611.0701plymouth satellite
    316.08304.0150343312.0701amc rebel sst
    417.08302.0140344910.5701ford torino

    🥇4. 加载excel文件

    url = r'C:\Users\DELL\Desktop\我的文件\学校课程\大三上复习资料\多元统计\例题数据及程序整理\例3-1.xlsx'
    df = pd.read_excel(url,header=1)
    #sheetname 表数据表所在的位置,如果加入多张数据表,可以把他们放在一个列表中一起传入
    f
    
    序号批发和零售业交通运输、仓储和邮政业住宿和餐饮业金融业房地产业水利、环境和公共设施管理业所属地区单位类型
    0153918.031444.047300.038959.047123.035375.0北京集体
    1261149.039936.045063.0116756.048572.047389.0上海集体
    2334046.047754.039653.0111004.046593.037562.0江苏集体
    3450269.051772.039072.0125483.056055.043525.0浙江集体
    4527341.043153.040554.079899.044936.042788.0广东集体
    56129199.090183.059309.0224305.080317.074290.0北京国有
    6789668.0100042.064674.0208343.088977.077464.0上海国有
    7869904.072784.045581.0105894.065904.059963.0江苏国有
    89108473.086648.051239.0163834.069972.056899.0浙江国有
    91063247.076359.052359.0138830.054179.047487.0广东国有
    101193769.080563.050984.0248919.087522.073048.0北京其他
    1112118433.099719.052295.0208705.082743.073241.0上海其他
    121363340.065300.042071.0126708.067070.050145.0江苏其他
    131461801.071794.041879.0125875.066284.052655.0浙江其他
    141562271.080955.043174.0145913.068469.052324.0广东其他

    🥇5. 查询SQL数据库

    在实际业务分析中,很多时候数据都是存放在数据库中,因此,学会如何连接数据库是非常有必要的,之前介绍了如何使用R语言连接数据库,R语言连接mysql数据库,接下来我们看看如何使用python来连接数据库。首先需要安装pymysql包,pip install pymysql,具体使用代码如下

    • 导入相关库
    impcort pandas as pd 
    import pymysql
    
    • 连接mysql数据库,需要指定相关的参数
    dbconn=pymysql.connect(
      host="localhost",
      database="test",#要连接的数据库
      user="root",
      password="密码",#密码
      port=3306,#端口号
      charset='utf8'
     )
    
    • 读取数据,通过read_sql可以实现在python中读取sql查询的结果,具体结果如下。
    sql = "select * from goods;"
    df = pd.read_sql(sql=sql, con=dbconn)
    df
    
    idcategory_idcategoryNAMEpricestockupper_time
    011女装/女士精品T恤39.910002020-11-10
    121女装/女士精品连衣裙79.925002020-11-10
    231女装/女士精品卫衣89.915002020-11-10
    341女装/女士精品牛仔裤89.935002020-11-10
    451女装/女士精品百褶裙29.95002020-11-10
    561女装/女士精品呢绒外套399.912002020-11-10
    672户外运动自行车399.910002020-11-10
    782户外运动山地自行车1399.925002020-11-10
    892户外运动登山杖59.915002020-11-10
    9102户外运动骑行装备399.935002020-11-10
    10112户外运动运动外套799.95002020-11-10
    11122户外运动滑板499.912002020-11-10

    本章的介绍到此介绍,在后续我还会考虑介绍一些如何使用python进行特征工程、数据清洗、模型构建以及一些数据挖掘实战项目。大家多多点赞、收藏、评论、关注支持!!

    最近小伙伴问我有什么刷题网站推荐,在这里推荐一下牛客网,里面包含各种面经题库,全是免费的题库,可以全方面提升你的职业竞争力,提升编程实战技巧,赶快来和我一起刷题吧!牛客网链接|python篇

    展开全文
  • 如何在Python中导入Excel文件?

    千次阅读 2021-01-12 00:52:00
    我试图导入一个.xlsx文件,并使用电子表格中的字段来代替脚本中的“email”、“password”、“first name”、“last name”和“city”。我还希望脚本循环,直到所有字段都正确地输入到脚本中。在下面是我要使用的...
  • sklearn——加载数据

    千次阅读 2019-07-25 18:26:55
    1. 通用数据集 API 根据所需数据集的类型,有三种主要类型的数据集API接口可用于获取数据集; 方法一,loaders 可用来加载小的标准数据集,在玩具数据集中有介绍 方法二,fetchers 可用来下载并加载大的真实数据集...
  • 如有错误,恳请指出。 以下内容整理自专栏:博主... scikit-learn数据集获取3.1 生成聚类数据:make_blobs3.2 生成分类数据:make_classification3.3 生成环形数据:make_circles3.4 生成回归数据:make_regressio.
  • Python Excel导入、导出,条形图、饼图等统计图
  • x,OnlineSecurity_x,\ OnlineBackup_x,DeviceProtection_x,TechSupport_x,tenure_x,MonthlyCharges_x],axis=1) #数据导入 import pandas as pd import numpy as np data_frame=pd.read_excel("Save_X.xlsx") X=np....
  • sklearn具有分类、回归、聚类、数据降维、模型选择、数据处理六大功能。 sklearn中具有用于监督学习和无监督学习的基本方法。 sklearn中的函数大致可以分为两类,分别是估计器和转换器。估计器就是模型,用于对数据...
  • Excel数据透视表 熟练python 独立开发相关程序 熟练使用djan...
  • 利用Excel分析链家二手房数据

    千次阅读 2019-04-22 20:54:33
    首先导入数据: 可以从工具点击“数据”选项卡–>获取外部数据–>选择“自文本”选项 然后根据文本的特征选择相应的格式就行了 观察一下数据集,数据大体详情如下: 由于特征名看起来有点乱,可以将数据调成...
  • 5.1线性回归算法模型机器学习...算法模型对象内部封装的方程的解就是算法模型预测或则分类的结果样本数据样本数据和算法模型之间的关系是什么?模型的训练:需要将样本数据带入到模型对象中,让模型对象的方程求出解...
  • 本系列文章主要讲解SQL Server 2017实现Python数据分析的文章,同时对比两者的优劣。前一篇文章主要讲解SQL Server开发Python环境的安装过程及基本的数据分析代码实现,本文主要讲解T-SQL实现表的查询及简单的数据...
  • 原标题:如何将示波器信号完整数据导入数学分析软件进行计算学习如何将麦科信示波器信号的完整数据导入matlab进行分析,我们先要学习如何完整导出示波器的信号数据。示波器可将模拟通道或数学通道波形保存到本地或者...
  •   对于餐饮企业来说,数据挖掘的基本任务就是从餐饮企业采集各类菜品销量、成本单价、会员消费、促销活动等内部数据,以及天气、节假日、竞争对手及周边商业氛围等外部数据,利用数据挖掘手段,实现菜品只
  • Python作为数据科学界的关键工具之一,几乎可以应用于所有数据化运营分析和实践的场景。一 用Python做数据化运营Python是什么?数据化运营又是什么?为什么要将Python用于数据化运营?本节先来回答这几个问题。1. ...
  • 当前,数字经济成为我国经济高质量发展的新引擎,企业面临着以大数据为核心的数字化转型重要机遇和挑战。如何打造安全可靠的数据基础设施和价值挖掘平台,发挥数据资产的核心价值是企业能否赢取未来的关...
  • 任务 1 数据导入与预处理 任务 1.1 将附件中的 data1.csv、data2.csv、data3.csv 三份文件加载到 分析环境,对照附录一,理解字段含义。探查数据质量并进行缺失值和异常值等 方面的必要处理。将处理结果保存为“task...
  • 分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,属于监督学习。 (2)预测 预测是指建立在两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。 (3)实现过程 分类算法:...
  • 第一部分:《Python数据分析与挖掘实战》第五章 的内容; 目录第一部分第5章 挖掘建模5.1 分类与预测5.1.1 实现过程5.1.2 常用的分类与预测算法5.1.3 回归分析5.1.4 决策树5.1.5 人工神经
  • 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 ...from sklearn.preprocessing import StandardScaler airline_data = pd.read_csv("../data/air_data.csv", encoding="gb18030")
  • 十九、数据整理(下) 作者:Chris Albon 译者:飞龙 ...# 导入模块 import pandas as pd from IPython.display import display from IPython.display import Image raw_data = { 'subject_id': ['1',...
  • Python数据分析与机器学习项目实战

    千次阅读 2020-11-08 11:32:46
    我们不妨称之为数据信用,它比抵押更靠谱,它比担保更保险,它比监管更高明,它是一种面向未来的财产权,它是数字货币背后核心的抵押资产,它决定了数字货币时代信用创造的方向、速度和规模。一句话,谁掌握了数据...
  • 机器学习和数据科学领域有无数多优秀的工具和资源可供使用,令人眼花缭乱,有时会让我们很难弄清楚该学习什么技能,该使用哪种工具。本文对机器学习和数据科学领域最常用的Python开源库做一个罗列和极简介绍(当然仅...
  • 从0到1Python数据科学之旅

    千次阅读 2020-11-08 11:18:14
    我们不妨称之为数据信用,它比抵押更靠谱,它比担保更保险,它比监管更高明,它是一种面向未来的财产权,它是数字货币背后核心的抵押资产,它决定了数字货币时代信用创造的方向、速度和规模。 债务货币,例如美元,...
  • Python 数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有 Python 内置函数和标准库,又有第三方库和工具。 这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换...
  • 导读:Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。这些库可用于文件读写、网络抓取和解...
  • Python 数据科学入门教程:Pandas

    万次阅读 多人点赞 2018-02-02 20:13:43
    Python 和 Pandas 数据分析教程 原文:Data Analysis with Python and Pandas Tutorial Introduction 译者:飞龙 协议:CC BY-NC-SA 4.0 大家好,欢迎阅读 Python 和 Pandas 数据分析系列教程。 Pandas ...
  • oracle 中从一个历史表中查询最新日期数据插入到另一个表中语句先从历史表中查询最新的一个语句: select t.id from ( select r.*, row_number() over(partition by r.分组字段 order by r.排序时 ...java从文件中...

空空如也

空空如也

1 2 3 4 5 ... 12
收藏数 229
精华内容 91
热门标签
关键字:

sklearn导入外部excel数据