python数据处理 订阅
《Python数据处理》,[美] 杰奎琳·凯泽尔凯瑟琳?贾缪尔编写,译者张亮/吕家明,由人民邮电出版社2017-6-1出版。 [1] 展开全文
《Python数据处理》,[美] 杰奎琳·凯泽尔凯瑟琳?贾缪尔编写,译者张亮/吕家明,由人民邮电出版社2017-6-1出版。 [1]
信息
出版年
2017-6-1 [1]
作    者
杰奎琳·凯泽尔凯瑟琳?贾缪尔 [1]
译    者
张亮/吕家明 [1]
装    帧
平装 [1]
中文名
Python数据处理 [1]
出版社
人民邮电出版社 [1]
ISBN
9787115459190 [1]
页    数
378 [1]
Python数据处理内容简介
本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。
收起全文
精华内容
下载资源
问答
  • Python 数据处理

    千次阅读 2018-08-14 00:44:21
    本场 Chat 为 Python 数据处理课程,包括: Python 基础知识(极简教程) 提升 Python 代码执行效率的方法 爬虫简介+Scrapy++Selenium(自动化测试框架)+简易分布式(Redis) 分词程序设计(Jieba) 数据存储...

    本场 Chat 为 Python 数据处理课程,包括:

    1. Python 基础知识(极简教程)
    2. 提升 Python 代码执行效率的方法
    3. 爬虫简介+Scrapy++Selenium(自动化测试框架)+简易分布式(Redis)
    4. 分词程序设计(Jieba)
    5. 数据存储(本地数据上传 Hive)

    通过本场 Chat 读者可学到以下内容:

    1. 提升 Python 代码执行效率的方法。
    2. 分布式爬虫的设计以及部分验证码的破解方式。
    3. 中文分词。

    阅读全文: http://gitbook.cn/gitchat/activity/5b6413fa5c59d07c6486b8f1

    您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

    FtooAtPSkEJwnW-9xkCLqSTRpBKX

    展开全文
  • Python数据处理

    千次阅读 2019-05-27 19:13:25
    作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。...

    本书特色

    用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。

    • 快速了解Python基本语法、数据类型和语言概念
    • 概述数据的获取与存储方式
    • 清洗数据并格式化,以消除数据集中的重复值与错误
    • 学习何时对数据进行标准化,何时对数据清理进行测试并将其脚本化
    • 使用Scrapy写网络爬虫
    • 利用新的Python库和技术对数据集进行探索与分析
    • 使用Python解决方案将整个数据处理过程自动化

    “如果你一直感觉电子表格(甚至关系型数据库)无法回答你想要提出的问题,或者除这些工具之外你准备进一步学习,那么这本书非常适合你。我一直在等待这本书的出现。”

    ——Derek Willis,ProPublica新闻应用开发者,OpenElections联合创始人

    “所有新手数据科学家、数据工程师或其他技术方面的数据专家都应该读一读这本实践指南。数据处理领域正需要这样一本书,真希望我第一次开始用Python处理数据时就能有它指导。”

    ——Tyrone Grandison博士,Proficiency Labs Intl. CEO

    目录

    版权声明
    O’Reilly Media, Inc.介绍
    本书赞誉
    前言
    第 1 章 Python 简介
    第 2 章 Python 基础
    第 3 章 供机器读取的数据
    第 4 章 处理 Excel 文件
    第 5 章 处理 PDF 文件,以及用 Python 解决问题
    第 6 章 数据获取与存储
    第 7 章 数据清洗:研究、匹配与格式化
    第 8 章 数据清洗:标准化和脚本化
    第 9 章 数据探索和分析
    第 10 章 展示数据
    第 11 章 网页抓取:获取并存储网络数据
    第 12 章 高级网页抓取:屏幕抓取器与爬虫
    第 13 章 应用编程接口
    第 14 章 自动化和规模化
    第 15 章 结论
    附录 A 编程语言对比
    附录 B 初学者的 Python 学习资源
    附录 C 学习命令行
    附录 D 高级 Python 设置
    附录 E Python 陷阱
    附录 F IPython 指南
    附录 G 使用亚马逊网络服务
    关于作者
    关于封面

    下载

    https://pan.baidu.com/s/1B2H_CxsXfnjRouxU6bCTRw

    展开全文
  • Python 数据处理 缺失值处理

    千次阅读 2019-08-17 19:20:09
    Python 数据处理 缺失值处理 数据来源:https://forge.educoder.net/attachments/download/376915/input.zip dataframe 缺失值处理 查看缺失值情况 train.isnull().sum().sort_values(ascending = False) 缺失值...

    Python 数据处理 缺失值处理

    数据来源:https://forge.educoder.net/attachments/download/376915/input.zip

    在这里插入图片描述
    在这里插入图片描述

    dataframe 缺失值处理

    查看缺失值情况

    train.isnull().sum().sort_values(ascending = False)
    

    在这里插入图片描述

    缺失值处理

    def solve_nan_str(data, columns):
        for column in columns:
            if data[column].dtype != 'float64':    # 字符串数据
                data[column] = data[column].fillna(0)   # 缺失值补0 
                unique_list = data[column].unique().tolist()   # 字符串列表
                if 0 in unique_list:
                    unique_list.remove(0)
                for index, unique_ in enumerate(unique_list): # 字符串Label
                    data.loc[data[column] == unique_, column] = index
            else:
                data[column] = data[column].fillna(data[column].mean())
        return data
    
    展开全文
  • Python数据处理DataFrame小记

    万次阅读 多人点赞 2019-05-22 23:35:17
    python数据处理小记简介:1、DataFram定义:2、DataFrame的append3、DataFrame去除列或行 简介: 目前从事数据版块的工作,基本就是数仓、ETL、BI这一块。学习了一个python机器学习课程,在此记下学习过程中遇到的坑...

    简介:

    目前从事数据版块的工作,基本就是数仓、ETL、BI这一块。学习了一个python机器学习课程,在此记下学习过程中遇到的坑。pandas的详细使用可查:http://pandas.pydata.org/pandas-docs/stable/index.html

    1、DataFram定义:

    只定义列名

    import pandas as pd
    
    df = pd.DataFrame(columns=['姓名','年龄','性别'])
    print(df)
    

    输出为:
    Empty DataFrame
    Columns: [姓名, 年龄, 性别]
    Index: []

    列名及索引(行名)都定义:

    import pandas as pd
    
    df = pd.DataFrame(columns=['姓名','年龄','性别'],index=['甲','乙','丙'])
    print(df)
    

    输出为:
      姓名 年龄 性别
    甲 NaN NaN NaN
    乙 NaN NaN NaN
    丙 NaN NaN NaN

    定义加上值:

    import pandas as pd
    
    df = pd.DataFrame([['张三',23,'男'],['李四',24,'女'],['王五',35,'男']],columns=['姓名','年龄','性别'],index=['甲','乙','丙'])
    print(df)
    

    输出为:
      姓名 年龄 性别
    甲 张三 23 男
    乙 李四 24 女
    丙 王五 35 男

    2、DataFrame的append

    append字典结构

    import pandas as pd
    
    df = pd.DataFrame(columns=['姓名','年龄','性别'])
    print(df)
    line = {'姓名':'张三','年龄':24,'性别':'男'}
    df = df.append(line,ignore_index=True)
    print(df)
    

    输出为:
    Empty DataFrame
    Columns: [姓名, 年龄, 性别]
    Index: []
      姓名 年龄 性别
    0 张三 24 男

    append Series结构
    方法1:

    import pandas as pd
    
    df = pd.DataFrame(columns=['姓名','年龄','性别'])
    print(df)
    line = pd.Series({'姓名':'张三','年龄':24,'性别':'男'})
    df = df.append(line,ignore_index=True)
    print(df)
    

    输出为:
    Empty DataFrame
    Columns: [姓名, 年龄, 性别]
    Index: []
     姓名 年龄 性别
    0 张三 24 男

    方法2:

    import pandas as pd
    
    df = pd.DataFrame(columns=['姓名','年龄','性别'])
    print(df)
    line = pd.Series({'姓名':'张三','年龄':24,'性别':'男'},name='Series可以设置索引名称')
    df = df.append(line,ignore_index=False)
    print(df)
    

    输出为:
    Empty DataFrame
    Columns: [姓名, 年龄, 性别]
    Index: []
                姓名 年龄 性别
    Series可以设置索引名称 张三 24 男

    如果是append字典,则ignore_index必须为True,如果是append Series结构,则可以设置ignore_index为False,然后设置特定的索引。

    3、DataFrame去除列或行

    去除列:

    import pandas as pd
    
    df = pd.DataFrame([['张三',23,'男'],['李四',24,'女'],['王五',35,'男']],columns=['姓名','年龄','性别'],index=['甲','乙','丙'])
    print(df)
    #inplace如果设置为False,则不会替换原有对象
    df.drop(columns=['姓名','年龄'],inplace=False)
    print(df)
    #列删除
    df.drop(columns=['姓名','年龄'],inplace=True)
    print(df)
    #行删除
    df = pd.DataFrame([['张三',23,'男'],['李四',24,'女'],['王五',35,'男']],columns=['姓名','年龄','性别'],index=['甲','乙','丙'])
    df.drop(index='甲',inplace=True)
    print(df)
    

    输出为:
     姓名 年龄 性别
    甲 张三 23 男
    乙 李四 24 女
    丙 王五 35 男
     姓名 年龄 性别
    甲 张三 23 男
    乙 李四 24 女
    丙 王五 35 男
      性别
    甲 男
    乙 女
    丙 男
      姓名 年龄 性别
    乙 李四 24 女
    丙 王五 35 男

    drop方法,需要留意inplace变量,若要替换则设置为True,columns和index可以通过列表结构或字符串来定位需要删除的列和行。

    行删除的方法二:

    import pandas as pd
    
    df = pd.DataFrame([['张三',23,'男'],['李四',24,'女'],['王五',35,'男']],columns=['姓名','年龄','性别'],index=['甲','乙','丙'])
    print(df)
    #isin是获取所有姓名为['张三']的行数据,~是取反的意思。
    df = df[~df['姓名'].isin(['张三'])]
    print(df)
    

    输出为:
      姓名 年龄 性别
    甲 张三 23 男
    乙 李四 24 女
    丙 王五 35 男
      姓名 年龄 性别
    乙 李四 24 女
    丙 王五 35 男

    4、DataFrame查看数据基本统计情况

    查看统计详情:

    import pandas as pd
    
    df = pd.DataFrame([['张三',23,'男'],['李四',24,'女'],['王五',35,'男']],columns=['姓名','年龄','性别'],index=['甲','乙','丙'])
    print(df)
    print(df.describe())
    

    输出为:
      姓名 年龄 性别
    甲 张三 23 男
    乙 李四 24 女
    丙 王五 35 男
       年龄
    count 3.000000
    mean 27.333333
    std 6.658328
    min 23.000000
    25% 23.500000
    50% 24.000000
    75% 29.500000
    max 35.000000

    describe方法可以看到数据里面数值类型的基本统计情况。

    5、DataFrame的applymap及apply操作

    applymap操作:

    import pandas as pd
    
    df = pd.DataFrame([4,13,5,38,28,59,24,79],columns=['年龄'])
    
    def testApplyMap(age):
        #小于30的标记为年轻,大于等于30的标记为中年,大于等于60标记为老年
        return '老年' if age >= 60 else ('中年' if age >= 30 else '年轻')
    print(df)
    print(df.applymap(testApplyMap))
    print(df)
    df = df.applymap(testApplyMap)
    print(df)
    

    输出为:
     年龄
    0 4
    1 13
    2 5
    3 38
    4 28
    5 59
    6 24
    7 79
      年龄
    0 年轻
    1 年轻
    2 年轻
    3 中年
    4 年轻
    5 中年
    6 年轻
    7 老年
     年龄
    0 4
    1 13
    2 5
    3 38
    4 28
    5 59
    6 24
    7 79
     年龄
    0 年轻
    1 年轻
    2 年轻
    3 中年
    4 年轻
    5 中年
    6 年轻
    7 老年

    applymap是向方法中传入每一个元素,然后方法返回结果。applymap没有inplace参数,如果要覆盖原对象,需要进行重新赋值操作。

    apply操作:

    import pandas as pd
    
    df = pd.DataFrame({
    
        's1': [27.93, 58.08, 38.67, 45.83, 70.26, 46.61, 49.73, 34.02, 56.64, 57.28],
    
        's2': [28.18, 50.61, 31.73, 31.48, 55.96, 22.73, 40.47, 42.02, 31.39, 64.21],
    
        's3': [29.39, 51.62, 57.91, 45.94, 53.81, 45.77, 69.13, 28.75, 43.43, 55.7],
    
        's4': [40.52, 48.55, 59.24, 71.21, 58.48, 63.63, 55.16, 34.9, 54, 68.03],
    
        's5': [26.26, 54.03, 49.08, 46.53, 43.23, 56.79, 58.71, 26.43, 44.97, 54.16]
    
    }, index =  ['05-21', '05-22', '05-23', '05-24', '05-25', '05-26', '05-27', '05-28', '05-29', '05-30'])
    
    def testApply(sale):
        return max(sale)
    print(df)
    print(df.apply(testApply))
    print(df.apply(testApply,axis=1))
    print(df)
    

    输出为:
       s1 s2 s3 s4 s5
    05-21 27.93 28.18 29.39 40.52 26.26
    05-22 58.08 50.61 51.62 48.55 54.03
    05-23 38.67 31.73 57.91 59.24 49.08
    05-24 45.83 31.48 45.94 71.21 46.53
    05-25 70.26 55.96 53.81 58.48 43.23
    05-26 46.61 22.73 45.77 63.63 56.79
    05-27 49.73 40.47 69.13 55.16 58.71
    05-28 34.02 42.02 28.75 34.90 26.43
    05-29 56.64 31.39 43.43 54.00 44.97
    05-30 57.28 64.21 55.70 68.03 54.16
    s1 70.26
    s2 64.21
    s3 69.13
    s4 71.21
    s5 58.71
    dtype: float64

    05-21 40.52
    05-22 58.08
    05-23 59.24
    05-24 71.21
    05-25 70.26
    05-26 63.63
    05-27 69.13
    05-28 42.02
    05-29 56.64
    05-30 68.03
    dtype: float64
        s1 s2 s3 s4 s5
    05-21 27.93 28.18 29.39 40.52 26.26
    05-22 58.08 50.61 51.62 48.55 54.03
    05-23 38.67 31.73 57.91 59.24 49.08
    05-24 45.83 31.48 45.94 71.21 46.53
    05-25 70.26 55.96 53.81 58.48 43.23
    05-26 46.61 22.73 45.77 63.63 56.79
    05-27 49.73 40.47 69.13 55.16 58.71
    05-28 34.02 42.02 28.75 34.90 26.43
    05-29 56.64 31.39 43.43 54.00 44.97
    05-30 57.28 64.21 55.70 68.03 54.16

    apply是想方法里面传入一列或者一行进行运算,axis=0是传入一列,axis=1则传入一行,默认为0。

    6、DataFrame的元素、列、行的获取

    import pandas as pd
    
    df = pd.DataFrame([['张三',23,'男'],['李四',24,'女'],['王五',35,'男']],columns=['姓名','年龄','性别'],index=['甲','乙','丙'])
    
    print(df,'\n')
    print('DataFrame后面紧接[],则可以获取对应列数据')
    print(df['姓名'],'\n')
    print('DataFrame后面紧接[][],第一个为列名,第二个为行名')
    print(df['姓名']['甲'],'\n')
    print('DataFrame的iloc里面对应的是行的默认索引,0代表第一行,1代表第二行,如此类推')
    print(df.iloc[0],'\n')
    print('DataFrame的loc里面对应的行名')
    print(df.loc['甲'],'\n')
    print('获取列后,也是可以通过iloc和loc来获取行数据的')
    print(df['姓名'].iloc[2])
    print(df['姓名'].loc['丙'],'\n')
    print('iat可以通过列和行的默认索引来定位数据')
    print(df.iat[0,0],'\n')
    

    输出为:
    姓名 年龄 性别
    甲 张三 23 男
    乙 李四 24 女
    丙 王五 35 男

    DataFrame后面紧接[],则可以获取对应列数据
    甲 张三
    乙 李四
    丙 王五
    Name: 姓名, dtype: object

    DataFrame后面紧接[][],第一个为列名,第二个为行名
    张三

    DataFrame的iloc里面对应的是行的默认索引,0代表第一行,1代表第二行,如此类推
    姓名 张三
    年龄 23
    性别 男
    Name: 甲, dtype: object

    DataFrame的loc里面对应的行名
    姓名 张三
    年龄 23
    性别 男
    Name: 甲, dtype: object

    获取列后,也是可以通过iloc和loc来获取行数据的
    王五
    王五

    iat可以通过列和行的默认索引来定位数据
    张三

    7、DataFrame的透视表

    方法为pivot_table:

    import pandas as pd
    import numpy as np
    
    
    df = pd.DataFrame([ ['张三','语文',98.],
    
                       ['张三','体育',60.],
    
                       ['李四','数学',60.],
    
                       ['李四','语文',100.],
    
                       ['王五','数学',89],
    
                       ['王五','体育',98.] ],
    
                        columns=['name','course','score'])
    
    print(df.pivot_table('score',index='name',columns='course',aggfunc=np.sum,margins=True,fill_value=0))
    

    输出为:
    course 体育 数学 语文 All
    name
    张三 60 0 98 158.0
    李四 0 60 100 160.0
    王五 98 89 0 187.0
    All 158 149 198 505.0

    参数说明:
    data: 创建透视表的dataframe

    values: 要聚合的值, optional

    index: 要聚合的index

    columns: 要聚合的columns

    aggfunc:聚合的方式, default numpy.mean

    fill_value: 用来替换透视表的缺失值scalar, default None

    margins: 添加所有行,列,例如在后面加个“总和”boolean, default False

    dropna: 不要包含条目都是NaN的列boolean, default True

    margins_name: 行列名称, default ‘All’

    8、DataFrame空值处理、去重

    空值处理:

    import pandas as pd
    
    
    df = pd.DataFrame([23,3,13,None,5],columns=['年龄'])
    
    print(df,'\n')
    #指定填充的值
    print(df.fillna(0))
    #取对应列的上一行数据
    print(df.ffill())
    #取对应列的下一行数据
    print(df.bfill())
    

    输出为:
    年龄
    0 23.0
    1 3.0
    2 13.0
    3 NaN
    4 5.0

    年龄
    0 23.0
    1 3.0
    2 13.0
    3 0.0
    4 5.0
    年龄
    0 23.0
    1 3.0
    2 13.0
    3 13.0
    4 5.0
    年龄
    0 23.0
    1 3.0
    2 13.0
    3 5.0
    4 5.0

    多有的空值补充函数都不会覆盖原来对象,需要设置inplace=True参数才能覆盖。

    去重:

    import pandas as pd
    
    
    df = pd.DataFrame([23,3,3,13,None,5],columns=['年龄'])
    
    print(df,'\n')
    print(df.drop_duplicates())
    print(df)
    df.drop_duplicates(inplace=True)
    print(df)
    

    输出为:
    年龄
    0 23.0
    1 3.0
    2 3.0
    3 13.0
    4 NaN
    5 5.0

    年龄
    0 23.0
    1 3.0
    3 13.0
    4 NaN
    5 5.0
    年龄
    0 23.0
    1 3.0
    2 3.0
    3 13.0
    4 NaN
    5 5.0
    年龄
    0 23.0
    1 3.0
    3 13.0
    4 NaN
    5 5.0

    9、DataFrame的数据库查询

    import pandas as pd
    from sqlalchemy import create_engine
    
    engine = create_engine("mysql+pymysql://root:123456@127.0.0.1:3306/test?charset=utf8")
    
    #SQL查询
    def query(sql,engine):
        return pd.read_sql(sql, engine, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)
    
    df = query('select * from a limit 1',engine)
    print(type(df))
    print(df)
    

    输出为:
    <class ‘pandas.core.frame.DataFrame’>
    id no name SYSTEM_SOURCE
    0 1 1 哈哈 Z

    参数详情:
    sql : 要执行的SQL查询。

    con : SQLAlchemy可连接(引擎/连接)或数据库字符串URI或DBAPI2连接(后备模式)使用SQLAlchemy可以使用该库支持的任何数据库。如果是DBAPI2对象,则仅支持sqlite3。

    index_col : 字符串或字符串列表,可选,默认值:无。要设置为索引的列(MultiIndex)。

    coerce_float : boolean,默认为True
    尝试将非字符串,非数字对象(如decimal.Decimal)的值转换为浮点,这对SQL结果集很有用。

    params : list,tuple或dict,optional,默认值:None
    要传递给执行方法的参数列表。用于传递参数的语法取决于数据库驱动程序。检查数据库驱动程序文档,了解支持PEP 249的paramstyle中描述的五种语法样式。例如。对于psycopg2,使用%(name)s所以使用params = {‘name’:‘value’}

    parse_dates : list或dict,默认值:None
    要解析为日期的列名列表。
    在解析字符串时间时格式字符串与strftime兼容的位置的字典,或者在解析整数时间戳的情况下是(D,s,ns,ms,us)之一。{column_name: format string}
    dict of ,其中arg dict对应于关键字参数。 特别适用于没有本机Datetime支持的数据库,例如SQLite。{column_name: arg dict}pandas.to_datetime()
    columns : list,默认值:None
    从SQL表中选择的列名列表(仅在读取表时使用)。

    chunksize : int,默认无
    如果指定,则返回一个迭代器,其中chunksize是要包含在每个块中的行数。

    10、DataFrame插入数据库

    import pandas as pd
    from sqlalchemy import create_engine
    
    engine = create_engine("mysql+pymysql://root:123456@127.0.0.1:3306/test?charset=utf8")
    
    df = pd.DataFrame([['5','泷泽萝拉','岛国']],columns=['no','name','SYSTEM_SOURCE'])
    #第一个参数为DataFrame格式的数据,第二个参数为表名,第三个参数为数据库连接,第四个为库名,第五个即存在相同的重复插入。这里的set_index是将no设置为索引列,如果不这样设置,它会默认的插入多一列index的索引列,因为数据库表是没有这一列的,这样会导致报错。
    pd.io.sql.to_sql(df.set_index('no'),'a',engine,schema='test',if_exists='append')
    

    在这里插入图片描述

    11、python去除字符串前后指定值

    去空格:

    import pandas as pd
    
    
    s = ' sskc ufss '
    s = s.strip()
    print(s)
    s = s.lstrip('s')
    print(s)
    s = s.rstrip('s')
    print(s)
    

    输出为:
    sskc ufss
    kc ufss
    kc uf

    strip、lstrip、rstrip默认是去除空格,可以指定值进行去除。

    未完待续,有空更新。。。

    展开全文
  • Python数据处理PDF

    千次阅读 2018-12-19 15:24:00
    Python数据处理(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1h8a5-iUr4mF7cVujgTSGOA 提取码:6fsl 复制这段内容后打开百度网盘手机App,操作更方便哦 内容简介 ······ 本书采用基于项目的...
  • python数据处理之日期格式转换

    千次阅读 2019-01-15 08:49:50
    标题@[python数据处理之日期格式转换] 分类:日期格式转换 日期格式的数据可以整列进行转换,不需要进行for循环。这也是python处理数据是的强大之处。具体操作如下: tmp = pd.to_datetime(df.datetime,format=&...
  • Python数据处理实例

    千次阅读 多人点赞 2019-01-02 19:05:28
    使用python进行数据处理的实例(数据为某公司HR部门关于员工信息的部分摘录,kaggle上面的一次赛题) https://www.kaggle.com/c/kfru-dbm-hr-analytics 该实例是根据其他所给属性预测员工是否会离职,代码实现如下...
  • Python数据处理》10.2.3地图笔记

    千次阅读 2020-05-18 21:17:17
    Python数据处理》10.2.3地图笔记一、源码问题二、render_to_png 一、源码问题 源码 worldmap_chart = pygal.Worldmap() worldmap_chart.title = 'Child Labor Worldwide' cl_dict = {} for r in ranked.rows: cl...
  • Python数据处理》第十四章笔记

    千次阅读 2020-05-19 18:18:25
    Python数据处理》第十四章笔记一、Python日志二、邮件一、问题: 一、Python日志 源码及其注释 import logging from datetime import datetime def start_logger(): ‘’‘日志初始化设置、文件名(时间)、DEBUG...
  • Python数据处理案例

    千次阅读 2019-09-21 23:24:46
    关于数据处理案例有两个,第一个案例是我整理到有道云上的,就直接剪切下来了,下面直接进入正题~ 案例1:快餐数据 案例2:欧洲杯数据 先进行数据探索 data.info() data.describe() 查看...
  • Python数据处理之导入导出excel数据

    千次阅读 2019-08-15 09:12:07
    Python的一大应用就是数据分析了,而数据分析中,经常碰到需要处理Excel数据的情况。这里做一个Python处理Excel数据的总结,基本受用大部分情况。相信以后用Python处理Excel数据不再是难事儿! Python处理Excel数据...
  • python数据处理-整理表格数据

    千次阅读 2020-04-08 17:53:40
    利用python整理表格数据 由于疫情数据量大,且时间跨度大从2020.1.23-2020.2.2日,可以利用‘’日期‘标签进行筛选: 首先需要python环境以及都三方库pandas 一下是实现代码: import pandas as pd data=[] dfd = pd...
  • 编写本篇文章的目的:了解Python数据处理的基本步骤,计算美国各州的人口密度,数据来源:https://github.com/jakevdp/data-USstates/ ,共3张数据表格:state-population.csv,state-areas.csv,state-abbrevs.csv...
  • python数据处理之异常值删除(3的塔准则) # 导入库 import numpy as np import pandas as pd from matplotlib import pyplot from pandas.core.frame import DataFrame import os from pandas.plotting import ...
  • 作为一名理工科实验狗,日常科研的数据动不动就是100M,而用传统的excel+origin处理的方法需要消耗大量的时间因此,我用python写了数据处理的脚本,可以快速得到我想要的数据,将原来需要4个小时的数据处理工作缩短...
  • Python数据处理方法总结

    千次阅读 2018-05-12 19:23:18
    数据处理方面,常用的python包有pandas和numpy。本次总结了基于参加一个机器学习比赛进行,主要是预测用户银行卡一周之后的余额。整个过程分为数据预处理阶段和预测阶段,重点介绍数据预处理阶段,这里涉及很多...
  • [Python数据处理] 怎样用Python预处理txt文档提取数据

    万次阅读 多人点赞 2019-05-31 15:08:11
    ANSI编码格式,共三条数据,每条数据的第一项是姓名,第二项是语文,第三项是数学,第四项是英语 张三,128,136,112 李四,99,106,73 王五,102,148,88 要求将文件改造成适合scikitlearn下KMeans聚类方法处理的形式...
  • 安利10款免费的Python数据处理工具

    千次阅读 多人点赞 2019-06-02 04:16:07
    原文章作者: Parul Pandey ... 如果想要利用这些图像数据,我们就必须对他们进行适当的处理。 简单来说,图像处理就是对数字图像进行分析转化从而提高质量或是提取关键信息的过程。常见的图像处理任务包...
  • Python数据处理(一)

    万次阅读 2019-04-08 08:30:31
    1.程序的基本逻辑处理 (1)if、elif、else的使用 >>> a=1 >>> if a>2: ... print("666") ... elif(a<0): ... print("777") ... else: ... print(a) ... >>> ** 指数(最高优先级)...
  • Python数据处理基础操作

    万次阅读 2018-09-29 08:46:30
    print(df1.info()) #查看数据表的整体信息,这里返回的信息比较多,包括数据维度、列名称、数据格式和所占空间等信息 ''' RangeIndex: 19 entries, 0 to 18 Data columns (total 7 columns): 分子公司 19 non-null ...
  • python 数据处理之分箱操作

    千次阅读 2019-08-28 17:48:42
    简单点说就是将不同的东西,按照特定的条件放到一个指定容器里,比如水果 把绿色的放一个篮子里,红色一个篮子等等,这个篮子就是箱,而水果就是数据 颜色就是条件 什么样式的数据要进行分箱 数据主要分为连续变量...
  • python数据处理与分析

    千次阅读 2019-01-05 15:20:42
    如果不是所有级别值都能在分组中找到,会引入缺失数据 pd.concat([s1,s2],keys = ['one','two']) s2 = Series([4,5,6],index = ['c','d','e']) data2 = pd.concat([s1,s2],keys = ['one','two']) data2....
  • 超声波测距+python数据处理+可视化实时图像绘制

    千次阅读 多人点赞 2020-04-08 08:36:17
    本文介绍的是使用arduino驱动超声波测量距离,并通过串口将数据发送给python,从而进行数据处理,处理结果如图所示。 准备工作 超声波模块+arduino开发板+杜邦线数根+python开发环境 思路 首先使用arduino车辆距离,...
  • 每个文件内容相同,共三条数据,每条数据的第一项是姓名,第二项是语文,第三项是数学,第四项是英语 首先打开Excel,输入以下内容: 姓名 语文 数学 英语 张三 128 136 112 李四 99 ...
  • python数据处理——取dataframe的一列或一行

    万次阅读 多人点赞 2019-03-27 10:20:11
    df['w'] #选择表格中的'w'列,使用类字典属性,返回的是Series类型 df.w #选择表格中的'w'列,使用点属性,返回的是Series类型 df[['w']] #选择表格中的'w'列,返回的是DataFrame属性 data[0:2] #返回第1行到第2行...
  • python 数据处理 数组拼接concatenate

    千次阅读 2018-06-26 15:57:28
    concatenate 是numpy 下一个函数在处理数据的时候,经常会将训练集和验证集放在一起,进行特征处理,此时可以使用这个函数输入:import numpy as np x = [[1, 2], [3, 4]] x1 = np.concatenate([x, x], axis=0) ...
  • Python数据处理》7.2.1笔记:zip函数输出为“zip object at 0x00000272CAEDD488”一、现象二、原因三、解决办法(一)增加一个list()(二)进行美化 一、现象 书中位置:2合并问题与答案的 第三个代码处: #变量...
  • import pandas as pd #设置切分区域 listBins = [0, 10, 20, 30, 40, 50, 60, 1000000] #设置切分后对应标签 listLabels = ['0_10','11_20','21_30','31_40...#利用pd.cut进行数据离散化切分 """ pandas.cut(x,bin...
  • python数据处理之OneHot

    千次阅读 2019-01-09 18:47:11
    1.OneHot变换 import pandas as pd df1=pd.DataFrame({'key':['a','b','c'],'data1':[1,2,3]}) print(df1) df2=pd.get_dummies(df1['key']) print(df2) df3=pd.get_dummies(df1) print(df3) ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 72,717
精华内容 29,086
关键字:

python数据处理

python 订阅