2018-07-22 19:43:44 weixin_39778570 阅读数 16602
  • Python进阶-Pandas数据分析

    您观看课程学习后 免费入群领取【超全Python资料包+17本学习电子书】 Pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。本课程会讲解到pandas中最核心的一些知识点,包括Series以及DataFrame的构建,赋值,操作,选择数据,合并等等,以及使用pandas对文件进行读取和写入,使用pandas绘图等等。

    1933 人正在学习 去看看 覃秉丰

所有资料汇总学习:点这里

利用python进行数据分析

Numpy

Numpy简单使用(入门)

Pandas入门

Pandas入门系列(一)-- Series
Pandas入门系列(二)-- DataFrame
Pandas入门系列(三)-- 深入理解Series和DataFrame
Pandas入门系列(四) – Pandas io操作
Pandas入门系列(五) – Indexing和Selecting
Pandas入门系列(六) – reindex
Pandas入门系列(七) – NaN
Pandas入门系列(八) – 多级index
Pandas入门系列(九) – Map和replace

pandas进阶

Pandas玩转数据(一) – 简单计算
Pandas玩转数据(二) – Series和DataFrame排序
Pandas玩转数据(三) – DataFrame重命名
Pandas玩转数据(四) – DataFrame的merge
Pandas玩转数据(五) – Concatenate和Combine
Pandas玩转数据(六) – 通过apply对数据进行处理
Pandas玩转数据(七) – Series和DataFrame去重
Pandas玩转数据(八) – 时间序列简单操作
Pandas玩转数据(九) – 时间序列的采样和画图
Pandas玩转数据(十) – 数据分箱技术Binning
Pandas玩转数据(十一) – 数据分组技术Groupby
Pandas玩转数据(十二) – 数据聚合技术Aggregation
Pandas玩转数据(十三) – 透视表
Pandas玩转数据(十四) – 分组和透视功能实战

Matplotlib入门

Matplotlib简单画图(一) – plot
Matplotlib简单画图(二) – subplot
Matplotlib简单画图(三) – pandas绘图之Series
Matplotlib简单画图(四) – pandas绘图之DataFrame
Matplotlib简单画图(五) – 直方图和密度图

Matplotlib扩展之Seaborn

Seaborn简单画图(一) – 散点图
Seaborn简单画图(二) – 直方图和密度图
Seaborn简单画图(三) – 柱状图和热力图
Seaborn简单画图(四) – 设置图形显示效果
Seaborn简单画图(五) – Seaborn调色功能

获取数据的一个库Tushare

Tushare获取数据

简单实战

股票市场分析实战

2019-01-03 09:44:05 shuryuu 阅读数 790
  • Python进阶-Pandas数据分析

    您观看课程学习后 免费入群领取【超全Python资料包+17本学习电子书】 Pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。本课程会讲解到pandas中最核心的一些知识点,包括Series以及DataFrame的构建,赋值,操作,选择数据,合并等等,以及使用pandas对文件进行读取和写入,使用pandas绘图等等。

    1933 人正在学习 去看看 覃秉丰

1.Python基本功能

1.利用Python写脚本

2.excel可视化有性能瓶颈,需要Python来实现。

3.Python与数据分析相关如下

  • Python的数据科学环境
  • Python基础
  • Numpy和Pandas
  • 数据可视化(Matplotlib)
  • 数据分析案例
  • 数据分析平台(轻量级BI)

2.Numpy和pandas

1.Python groupby

mysql不支持分组排序

2.concat和merge

concat是强行耦合

merge,是有共同名,优先表进行耦合

3.多重索引

4.文本函数

填充空值,None需要用np.nan,c语言形式的控制

pd.dropna()去除所有还有空值的行

5.Python pandas apply

6.聚合 apply

7.pandas数据透视

7.python连接数据库

Pandas中读取数据库:

conn=pymysql.connect(
    host='localhost',
    user='root',
    password='123456',
    db='data_kejilie',
    port=3306,
    charset='utf8'
)
def reader(query,db):
    sql=query
    engine=create_engine('mysql+pymysql://root:123456@localhost/{0}?charset=utf8').format(db))
    df=pd.read_sql(sql,engine)
    return df
    
reader
​
cur.execute('select * from article_link ')
​
data=cur.fetchall()
​
cur.close()
conn.commit()

3.数据可视化

可视化可自行百度学习Matplotlib模块。

4.案例实战分析

相关案例可自行百度。

5.数据分析平台

推荐使用的是Python中的Superset库,基于web的数据分析平台。(详细部署流程可自行百度)

严重提示:安装这个库一定要新建一个虚拟环境后再进行pip安装,不然会使得依赖库和Anaconda中的部分库冲突,使得原环境的库无法正常调用

使用逻辑:

  1. 先加载数据库或者数据文件
  2. 写好sql语法,进行一定编辑数据集。
  3. 在silces里面对于数据集,进行一个个图的绘画与调整
  4. Dashboard里进行最后图表的汇合。

2018-05-28 17:20:54 weixin_41852491 阅读数 960
  • Python进阶-Pandas数据分析

    您观看课程学习后 免费入群领取【超全Python资料包+17本学习电子书】 Pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。本课程会讲解到pandas中最核心的一些知识点,包括Series以及DataFrame的构建,赋值,操作,选择数据,合并等等,以及使用pandas对文件进行读取和写入,使用pandas绘图等等。

    1933 人正在学习 去看看 覃秉丰

Python是目前学习数据分析课程中,非常重要的一块,也是目前非常受行业欢迎的。因此,学习非常重要,下面是Python学习的一些重要步骤和知识!

    步骤1:熟悉Python

    对数据科学,PythonR都是不错的编程语言选择。R在学术界往往更受欢迎,而Python更受行业欢迎,两种语言都有丰富的包支持数据科学工作流。我用两种语言教过数据科学,通常更喜欢Python

    作为初学者,你不需要同时学习PythonR。相反,你应该集中精力学习一种语言及其用于数据科学的包体系。如果你选择了Python(个人建议Python),建议安装Anaconda,它简化了WindowsOSXLinux上各种包的安装和管理。

    步骤2:学习用pandas库进行数据分析、数据处理和可视化

    如果你要用Python处理数据,你应该学习如何使用pandas库。

    pandas提供了一个高性能的数据结构(叫做 "DataFrame"),适用于有不同类型列的表格数据,类似于Excel表格或SQL表。它包含读写数据、处理缺失数据、过滤数据、清理混乱数据、合并数据集、可视化数据等工具。简而言之,学习pandas将大大提高你处理数据的工作效率。

    然而,pandas包含了大量的函数,(可以说)提供了太多的方式来完成相同的任务。这使得学习pandas、寻找pandas的最佳实践具有挑战性。

    步骤3:用scikit-learn进行机器学习

    如果你希望用Python进行机器学习,应该学习使用scikit-learn库。

    构建"机器学习模型"来预测未来或者自动从数据中提取信息,是数据科学最性感的部分。scikit-learnPython中最受欢迎的机器学习库,有以下优点:

    "它对大量不同模型提供了一个干净且一致的接口。

    "它为每一个模式提供了许多调节参数,但同时设置了合理的默认值。

    步骤4:深度理解机器学习

    机器学习是一个很复杂的领域。虽然scikit-learn提供了机器学习的有效工具,但它无法直接回答许多重要问题:

    "怎么知道哪个机器学习模型最适合我的数据集?

    "如何解释模型的结果?

    "如何评价我的模型对未来数据的概括?

    "如何给模型选择特征?

    "等等。

    "以上只是简单的用文字说明了一下数据分析当中Python的学习,下面这张图更能直观反映学习内容


以上片摘自科多大数据的程,想自学的小伙伴看起来会比有思路

当然需要特指出,数据分析程学内容肯定不止python这一项内容,还包括数据分析基础,互联网电子商务、经济学基础,数据产品(可视化报表)等各个板块的学习


2016-09-29 10:24:50 he_min 阅读数 2368
  • Python进阶-Pandas数据分析

    您观看课程学习后 免费入群领取【超全Python资料包+17本学习电子书】 Pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。本课程会讲解到pandas中最核心的一些知识点,包括Series以及DataFrame的构建,赋值,操作,选择数据,合并等等,以及使用pandas对文件进行读取和写入,使用pandas绘图等等。

    1933 人正在学习 去看看 覃秉丰
几个概念:
json:是一种常用的web数据格式,其中《利用python进行数据分析》用到的一个usa.gov数据集就是这种格式。
{ "a": "Mozilla\/5.0 (Windows NT 6.1; WOW64) AppleWebKit\/535.11 (KHTML, like Gecko) Chrome\/17.0.963.78 Safari\/535.11", "c": "US", "nk": 1, "tz": "America\/New_York", "gr": "MA", "g": "A6qOVH", "h": "wfLQtf", "l": "orofrog", "al": "en-US,en;q=0.8", "hh": "1.usa.gov", "r": "http:\/\/www.facebook.com\/l\/7AQEFzjSi\/1.usa.gov\/wfLQtf", "u": "http:\/\/www.ncbi.nlm.nih.gov\/pubmed\/22415991", "t": 1331923247, "hc": 1331822918, "cy": "Danvers", "ll": [ 42.576698, -70.954903 ] }
这是数据中的一行。
列表推到式:这是在一组字符串或其他对象上执行相同的指令的方式,例如:num = [a for a in open(filename)]
字典:字典是另一种可变容器模型,且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中 ,格式如下所示:d = {key1 : value1, key2 : value2 }

本部分的代码可见下:
#encoding:utf8
'''
Created on 2016年9月28日
@author: 8888
'''
import json
sourcepath = r"D:\workspace\pydata-book-master\ch02\usagov_bitly_data2012-03-16-1331923249.txt"
#print(open(sourcepath).readline())
record = [json.loads(line) for line in open(sourcepath)]
print(record[0])
#字典的话可以用键值对来搜索如下:
print(record[0]['u'])


--------
输出为
{u'a': u'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.78 Safari/535.11', u'c': u'US', u'nk': 1, u'tz': u'America/New_York', u'gr': u'MA', u'g': u'A6qOVH', u'h': u'wfLQtf', u'cy': u'Danvers', u'l': u'orofrog', u'al': u'en-US,en;q=0.8', u'hh': u'1.usa.gov', u'r': u'http://www.facebook.com/l/7AQEFzjSi/1.usa.gov/wfLQtf', u'u':u'http://www.ncbi.nlm.nih.gov/pubmed/22415991', u't': 1331923247, u'hc': 1331822918, u'll': [42.576698, -70.954903]}

统计一个序列中单词的个数:两种写法:
def get_count(sequence):
    count = {}
    for x in sequence:
        if x in count:
            count[x]+=1
        else:
            count[x] = 1
    return count
---------------------
from collections import defaultdict
def get_count2(sequence):
    count = defaultdict(int)
    for x in count:
        count [x]+=1
    return count
这个是采用了标准库中的collection包的方法,defaultdict的意思是:
这里的defaultdict(function_factory)构建的是一个类似dictionary的对象,其中keys的值,自行确定赋值,但是values的类型,是function_factory的类实例,而且具有默认值。比如default(int)则创建一个类似dictionary对象,里面任何的values都是int的实例,而且就算是一个不存在的key, d[key] 也有一个默认值,这个默认值是int()的默认值0.
英文解释为:dict subclass that calls a factory function to supply missing values。
提取键值对中前10个数:
def top_count(countsequence,n=10):
    value_key = [(key , value ) for value,key  in countsequence.items() ]
    value_key.sort()
    return value_key[-n:]
上述采用标准库中的collection.Counter可以更简单:
counts = Counter(get_count2(timezone)) #排序
print counts.most_common(10)#使用most_common方法提取前多少组



---------------------
python搭建环境可参考其他博文,本人使用win10系统,eclipse开发



2019-04-17 16:09:37 qq_35531549 阅读数 540
  • Python进阶-Pandas数据分析

    您观看课程学习后 免费入群领取【超全Python资料包+17本学习电子书】 Pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。本课程会讲解到pandas中最核心的一些知识点,包括Series以及DataFrame的构建,赋值,操作,选择数据,合并等等,以及使用pandas对文件进行读取和写入,使用pandas绘图等等。

    1933 人正在学习 去看看 覃秉丰

Python数据分析工具

  • Python 本身的数据分析功能不强,需要安装一些第三方扩展库来增强它的能力。常用
    的库有Numpy 、Scipy 、Matplotlib 、Pandas 、Scikit-Learn 、Keras 和Gensim 等,下面将对
    这些库的安装和使用进行简单的介绍。
  • 如果你安装的是Anaconda 发行版,那么它已经自带了以下库: Numpy 、Scipy 、Matplotlib
    、Pandas 和Scikit-Leam。

在这里插入图片描述

1 .Numpy

  • Python 并没有提供数组功能。虽然列表可以完成基本的数组功能,但它不是真正的数
    组,而且在数据量较大时,使用列表的速度就会慢得让人难以接受。为此, Numpy 提供了真
    正的数组功能,以及对数据进行快速处理的函数。Numpy 还是很多更高级的扩展库的依赖
    库,Scipy 、Matplotlib 、Pandas 等库都依赖于它。值得强调的是, Numpy 内
    置函数处理数据的速度是C 语言级别的,因此在编写程序的时候,应当尽量使用它们内置的
    函数,避免出现效率瓶颈的现象(尤其是涉及循环的问题) 。

2. Scipy

  • 如果说Numpy 让Python 有了Matlab 的味道,那么Scipy 就让Python 真正地成为了半个
    Matlab 了。Numpy 提供了多维数组功能,但它只是一般的数组,并不是矩阵。例如,当两个
    数组相乘时,只是对应元素相乘,而不是矩阵乘法。Scipy 提供了真正的矩阵,以及大械基
    于矩阵运算的对象与函数。
  • Scipy 包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变
    换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,显然,这些功
    能都是挖掘与建模必备的。
  • Scipy 依赖于Numpy, 因此安装它之前得先安装Numpy 。

3 . Matplotlib

  • 不论是数据挖掘还是数学建模,都免不了数据可视化的问题。对于Python 来说,Matplotlib 是最著名的绘图库,它主要用于二维绘图,当然它也可以进行简单的三维绘图。它不但提供了一整套和Matlab 相似但更为丰富的命令,让我们可以非常快捷地用Python 可视化数据,而且允许输出达到出版质量的多种图像格式。

4. Pandas

  • python数据分析主力工具Pandas 。Pandas 是Python 下最强大的数据分析和探索
    工具(貌似没有之一) 。它包含高级的数据结构和精巧的工具,使得在Python 中处理数据非
    常快速和简单。Pandas 构建在NumPy 之上,它使得以NurnPy 为中心的应用很容易使用。
  • Pandas 的名称来自于面板数据( Panel Data) 和Python 数据分析( Data Analysis), 它最初被作
    为金融数据分析工具而开发出来,由AQR Capital Management 公司千2008 年4 月开发出来,
    并于2009 年底开源。
  • Pandas 的功能非常强大,支持类似于SQL 的数据增、删、查、改,并且带有丰富的数
    据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等。事实上,单纯Pandas 工
    具就足以写一本书,读者可以阅读Pandas 的主要作者之一Wes McKinney 写的《利用Python
    进行数据分析》一书,学习更详细的内容。
  • Pandas 基本的数据结构是Series 和DataFrame 。顾名思义, Series 就是序列,类似一维数组; DataFrame 则是相当于一张二维的表格,类似二维数组,它的每一列都是一个Series 。
    为了定位Series 中的元索, Pandas 提供了Index 对象,每个Series 都会带有一个对应的
    Index, 用来标记不同的元素, Index 的内容不一定是数字,也可以是字母、中文等,它类似
    千SQL 中的主键。
    类似地, DataFrame 相当于多个带有同样Index 的Series 的组合(本质是Series 的容器),
    每个Seiries 都带有唯一的表头,用来标识不同的Series 。

5. StatsModels

  • Pandas 着眼于数据的读取、处理和探索,而StatsModels 则更加注重数据的统计建模分
    析,它使得Python 有了R 语言的味道。StatsModels 支持与Pandas 进行数据交互,因此,它
    与Pandas 结合,成为了Python 下强大的数据挖掘组合。

  • StatModel 依赖于Pandas (当然也依赖于Pandas 所依赖的),同时还依赖于
    pasty (一个描述统计的库) 。

6. Scikit-Learn

  • 从该库的名字可以看出,这是一个机器学习相关的库。不错, Scikit-Learn 是Python 下
    强大的机器学习工具包,它提供了完善的机器学习工具箱,包括数据预处理、分类、回归、
    聚类、预测和模型分析等。
  • Scikit-Learn 依赖于NumPy 、SciPy 和Matplotlib, 因此,只需要提前安装好这几个库,
    然后安装Scik止Learn 就基本上没有什么问题了。

7. Keras

  • 虽然Scikit-Leam 足够强大,但是它并没有包含一种强大的模型一人工神经网络。人
    工神经网络是功能相当强大的、但是原理又相当简单的模型,在语言处理、图像识别等领域
    有着重要的作用。近年来逐渐火起来的“深度学习“算法,本质上也就是一种神经网络,可
    见在Python 中实现神经网络是非常必要的。
  • 事实上, Keras 并非简单的神经网络库,而是一个基
    于Theano 的强大的深度学习库,利用它不仅仅可以搭建普通的神经网络,还可以搭建各种
    深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等。由千它是基
    于Theano 的,因此速度也相当快。
  • 有必要介绍一下Theano, 它也是Python 的一个库,它是由深度学习专家Yoshua Bengio
    带领的实验室开发出来的,用来定义、优化和高效地解决多维数组数据对应数学表达式的模
    拟估计问题。它具有高效地实现符号分解、高度优化的速度和稳定性等特点, 最重要的是它
    还实现了GPU 加速,使得密集型数据的处理速度是CPU 的数十倍。
  • 用Theano 就可以搭建起高效的神经网络模型,但是对于普通读者来说门槛还是相当高
    的, Keras 正是为此而生,它大大简化了搭建各种神经网络模型的步骤, 允许普通用户轻松
    地搭建并求解具有几百个输入节点的深层神经网络, 而且定制的自由度非常大, 甚至可能惊
    呼:搭建神经网络可以如此简单!

8. Gensim

  • 在Gensim 的官网中,它对自己的简介只有一句话: topic modelling for humans!
    Gensim 是用来处理语言方面的任务,如文本相似度计算、LOA 、Word2Vec 等,这些领
    域的任务往往需要比较多的背景知识,通常的情况是:研究这方面的读者,已经不需要我再
    多说什么;不研究这方面的读者,在这里也说不清楚。(所以Gensim 的介绍只有一句话也就
    不奇怪了。)
  • 需要一提的是, Gensim把Google 公司在2013 年开源的著名的词向量构造工具Word2Vec
    编译好了作为它的子库,因此需要用到Word2Vec 的读者也可以直接用Gensim 而无需自行
    编译了。据说Gensim 的作者对Word2Vec 的代码进行了优化,据说它在Gensim 下的表现
    比原生的Word2Vec 还要快。(为了实现加速,需要准备C++ 编译器环境,因此,建议用到
    Gensim 的Word2Vec 的读者在Linux 下环境运行。)

python数据分析之数据导入导出

博文 来自: susu9520
没有更多推荐了,返回首页