精华内容
下载资源
问答
  • python数据分析-学生成绩分析python数据分析-学生成绩分析目标:分析学生成绩的影响因素1.导入原始数据,以及需要用到的库import pandas as pdimport numpy as npdf = pd.read_csv('StudentsPerformance.csv')(数据...

    python数据分析-学生成绩分析

    python数据分析-学生成绩分析

    目标:分析学生成绩的影响因素

    1.导入原始数据,以及需要用到的库

    import pandas as pd

    import numpy as np

    df = pd.read_csv('StudentsPerformance.csv')

    (数据来源于kaggle)

    2.查看文件

    从上面的信息可以看出这一千个学生的数据中是没有空值,而且可以看出各列数据的类型。

    还可以通过unique来查看某列数据都有哪些值,是否有无效数据。

    df['parental level of education'].unique()

    df['test preparation course'].unique()

    再来查看成绩是否为有效值(使用loc)

    df.loc[(df['math score']<0) | (df['math score']>100) | (df['reading score']<0) | (df['reading score']>100) | (df['writing score']<0) | (df['writing score']>100)]

    可以看出成绩中没有无效值

    3.数据处理

    根据目标,删除一些不需要的列(使用drop)

    df.drop(['gender','race/ethnicity'],axis=1)

    #参数axis默认值为0,指行,要删除列的话将axis设为1

    df_1 = df.drop(['gender','race/ethnicity'],axis=1)

    求学生成绩平均值

    df_1['average']= round((df_1['math score']+df_1['reading score']+df_1['writing score'])/3)

    #round()用来对数据四舍五入

    4.分析学生成绩影响因素

    df_1.groupby('parental level of education')['average'].agg([np.mean]).plot.bar()

    df_1.groupby('lunch')['average'].agg([np.mean]).plot.bar()

    df_1.groupby('test preparation course')['average'].agg([np.mean]).plot.bar()

    从上面三张图可以初步得出结论:

    1.父母学历越高,学生成绩越好

    2.午餐吃的好的同学成绩较高

    3.考试准备充分的同学成绩较高

    以下,用相关系数分析父母学历对哪科成绩影响最大

    先按照父母学历高低将表中数据替换为数值

    df_1.replace({'some high school':1, 'high school':2,'some college':3,"associate's degree":4,"bachelor's degree":5,"master's degree":6},inplace = True)

    #inplace = True是为了改变文档的源数据

    用corr求出相关系数(相关系数接近0,说明相关性小,越接近1,正相关性越强,越接近-1,负相关性越强)

    根据父母学历与学生数学、阅读、写作成绩的相关系数,可以看出,父母学历与三者都成正相关,其中与写作成绩相关性最强,而且各科之间相关性都很强,说明某一科成绩好的同学其他科成绩很可能也好。

    5.结论

    通过以上分析,可以初步得出以下的结论:

    1.父母学历越高,学生成绩越好(对写作成绩的影响最大)

    2.午餐吃的好的同学成绩较高

    3.考试准备充分的同学成绩较高

    4.某科成绩好的学生其他科成绩也较好(其中写作与阅读成绩相关性最强)

    python数据分析-学生成绩分析相关教程

    展开全文
  • 学完廖雪峰的课程之后就开始读书,结果在捧着python必读书《利用python学习数据分析》时,发现里面的例子所使用的函数和字段难免有错误和过时之处,便想把自己的学习过程整理下来,方便为python困扰的朋友一起学习...

    python在职场竞争力越来越强,我这个从来不喜欢碰代码的人也不得不硬着头皮捧起教程和课本研究。学完廖雪峰的课程之后就开始读书,结果在捧着python必读书《利用python学习数据分析》时,发现里面的例子所使用的函数和字段难免有错误和过时之处,便想把自己的学习过程整理下来,方便为python困扰的朋友一起学习进步。

    本次学习是《利用python学习数据分析》的第二章内容:电影评分数据分析

    数据源:

    1. 对解压出来的文件用pd.read.table函数进行读取,python代码如下:

    import pandas as pd

    unames=['user_id','gender','age','occupation','zip']

    users=pd.read_table('ml-1m/users.dat',sep='::',header=None,names=unames)

    rnames=['user_id','movie_id','rating','timestamp']

    ratings=pd.read_table('ml-1m/ratings.dat',sep='::',header=None,names=rnames)

    mnames=['movie_id','title','genres']

    movies=pd.read_table('ml-1m/movies.dat',sep='::',header=None,names=mnames)

    对dataframe的数据验证是否加载顺利,结果如下:

    2.为了便于分析,将这三个表中的数据合并到同一张表中,利用pd.merge函数:

    Data=pd.merge(pd.merge(users,ratings),movies)

    结果如下:

    3.进行分析

    a.按性别计算每部电影的平均得分

    使用pivot_table方法:

    pivot_table:透视表,作用类似excel的数据透视表,

    结构:

    pandas.pivot_table(data,values =None,index = None,columns = None,aggfunc ='mean',fill_value = None,margin = False,dropna = True,margins_name ='All' ,表中数据按columns聚合,values为要聚合的列)

    mean_ratings=data.pivot_table('rating',index='title',columns='gender',aggfunc='mean')

    rating为内容,title为行标,columns为列标,运行结果如下:

    b.选取评分250条以上的电影

    利用size()函数得到一个含有电影分组大小的series对象,

    ratings_by_title=data.groupby('title').size()

    索引出大于250条评论的电影名称,

    active_titles=ratings_by_title.index[ratings_by_title>=250]

    根据上述电影名称结果从前面的mean_ratings中选取所需要的行,(ix 按行索引)

    mean_ratings=mean_ratings.ix[active_titles]

    为了解女性最喜欢的电影,对F列降序:

    top_female_ratings=mean_ratings.sort_index(by='F',ascending=False)(此处使用sort_index/values排序,ascending=False表示降序)

    c.计算评分分歧

    用diff作为评分差值,diff=男性均值-女性均值

    mean_ratings['diff']=mean_ratings['M']-mean_ratings['F']

    升序排列得到分歧最大且女性更喜欢的电影:

    sorted_by_diff=mean_ratings.sort_values(by='diff')

    倒序排列得到男性更喜欢的电影:

    如果不考虑性别因素,则可以通过计算方差或者标准差来得到分析最大的电影:

    计算标准差:

    rating_std_by_title=data.groupby("title")["rating"].std()

    再根据active_titles进行索引过滤

    rating_std_by_title=rating_std_by_title.ix[active_titles]

    最后根据值进行倒序排序

    rating_std_by_title=rating_std_by_title.sort_values(ascending=False)

    好啦~这节内容就学完啦,是不是觉得也不是很难,尤其看到自己写的代码实现了也超级有成就感!我们期待下节吧。

    展开全文
  • Python数据分析基础》作业初学使用Python编程小程序摘要:本作业是通过python的基础语句,运用条件嵌套判断以及随机数的生成,实现了与电脑进行石头剪刀布游戏功能。机器环境:系统:Windows10,python2.7,...

    Python

    数据分析基础》作业

    初学使用

    Python

    编程小程序

    要:

    本作业是通过

    python

    的基础语句,运用条件嵌套判断以及随机数的生成,实现

    了与电脑进行石头剪刀布游戏功能。

    机器环境

    :系统:

    Windows10

    python2.7

    eclipse

    准备工作

    :先装一个

    eclipse

    ,配置

    jdk

    。再进行

    Python

    插件的安装,先装

    pydev

    插件,最后

    配置解释器。

    正文:

    因为初学

    Python

    且时间有限,

    就编了一个很简单的

    Python

    小程序。

    我学习

    Python

    是通过互联网,在网上找

    Python

    的视频来学习和模仿。因为之前学过

    C

    语言以及

    Java

    ,所

    以学起来不是很吃力。程序截图如下:

    # coding:utf8

    import

    random

    player = int(input(

    "

    请输入您要出的拳

    石头

    (1)/

    剪刀

    (2)/

    (3):"

    ))

    computer = random.randint(

    1

    ,

    3

    )

    print

    (

    "

    玩家选择的拳头是

    %d -

    电脑出的拳是:

    %d"

    % (player,computer))

    展开全文
  • 内容简介本书采用理论与案例相结合的形式,以Anaconda为主要开发工具,系统全面地介绍了Python数据分析的相关知识。全书共分为9章,第1章介绍了数据分析的基本概念,以及开发工具的安装和使用;第2~6章介绍了Python...

    内容简介

    本书采用理论与案例相结合的形式,以Anaconda为主要开发工具,系统全面地介绍了Python数据分析的相关知识。全书共分为9章,第1章介绍了数据分析的基本概念,以及开发工具的安装和使用;第2~6章介绍了Python数据分析的常用库及其应用,涵盖了科学计算库NumPy、数据分析库Pandas、数据可视化库Matplotlib、Seaborn与Bokeh,较为全面地讲述了Python数据分析技术;第7~8章属于拓展知识,主要介绍了时间序列和文本数据的分析;第9章结合之前所学的技术开发了一个综合案例,动手演示如何在项目中运用所学的知识。除了第1章外,其他章节都包含了很多示例和案例,通过动手操作和练习,可以帮助读者更好地理解和掌握所学的知识。

    适合群体

    1、计算机或者大数据相关专业教材

    2、大数据或者数据分析爱好者

    图书特色

    特色一:零基础、入门级讲解

    本书以初学者的角度出发,铺垫讲解了很多关于数据分析的基础知识,能够让读者理解与熟悉数据分析完整流程。

    特色二:循序渐进,通俗易懂

    在课程知识和内容讲解上,本书所涉及到的知识点都是对应实际应用需求,课程的编排顺序符合大众的认知规律,在知识讲解时采用易于理解的图示和举例的方式,将抽象的概念具体化,并利用示例进一步验证和测试,以总结出实用的经验。

    特色三:案例丰富、实战性强

    为了提高读者学习的动力,在学习的过程中,每个章节都会设立一个实用性比较强的案例,将每章中所涉及的知识进一步运用,以更快地、更直观地方式进行展现,从而满足了读者的成就感。

    特色四:知识点全面,针对性强

    为了拓宽读者的编程能力,本书在介绍传统类型数据的分析同时,还另外介绍了其它类型数据的分析,以便能够让读者更加适应岗位的需求。

    图书目录

    第1章 数据分析概述

    1.1数据分析的背景

    1.2什么是数据分析

    1.3数据分析的应用场景

    1.4数据分析的流程

    1.5为什么选择Python做数据分析

    1.6创建新的Python环境—Anaconda

    1.6.1Anaconda发行版本概述

    1.6.2在Windows系统中安装Anaconda

    1.6.3通过Anaconda管理Python包

    1.7启用Jupyter Notebook

    1.7.1启动Anaconda自带的Jupyter Notebook

    1.7.2Jupyter Notebook界面详解

    1.7.3Jupyter Notebook的基本使用

    1.8常见的数据分析工具

    1.9本章小结

    1.10本章习题

    第2章科学计算库NumPy

    2.1认识NumPy数组对象

    2.2创建NumPy数组

    2.3ndarray对象的数据类型

    2.3.1查看数据类型

    2.3.2转换数据类型

    2.4数组运算

    2.4.1矢量化运算

    2.4.2数组广播

    2.4.3数组与标量间的运算

    2.5ndarray的索引和切片

    2.5.1整数索引和切片的基本使用

    2.5.2花式(数组)索引的基本使用

    2.5.3布尔型索引的基本使用

    2.6数组的转置和轴对称

    2.7NumPy通用函数

    2.8利用NumPy数组进行数据处理

    2.8.1将条件逻辑转为数组运算

    2.8.2数组统计运算

    2.8.3数组排序

    2.8.4检索数组元素

    2.8.5唯一化及其他集合逻辑

    2.9线性代数模块

    2.10随机数模块

    2.11案例—酒鬼漫步

    2.12本章小结

    2.13本章习题

    第3章 数据分析工具Pandas

    3.1Pandas的数据结构分析

    3.1.1Series

    3.1.2DataFrame

    3.2Pandas索引操作及高级索引

    3.2.1索引对象

    3.2.2重置索引

    3.2.3索引操作

    3.3算术运算与数据对齐

    3.4数据排序

    3.4.1按索引排序

    3.4.2按值排序

    3.5统计计算与描述

    3.5.1常用的统计计算

    3.5.2统计描述

    3.6层次化索引

    3.6.1认识层次化索引

    3.6.2层次化索引的操作

    3.7读写数据操作

    3.7.1读写文本文件

    3.7.2读写Excel文件

    3.7.3读取HTML表格数据

    3.7.4读写数据库

    3.8案例—北京高考分数线统计分析

    2.8.1案例需求

    2.8.2数据准备

    2.8.3功能实现

    3.9本章小结

    3.10本章习题

    第4章数据预处理

    4.1数据清洗

    4.1.1空值和缺失值的处理

    4.1.2重复值的处理

    4.1.3异常值的处理

    4.1.4更改数据类型

    4.2数据合并

    4.2.1轴向堆叠数据

    4.2.2主键合并数据

    4.2.3根据行索引合并数据

    4.2.4合并重叠数据

    4.3数据重塑

    4.3.1重塑层次化索引

    4.3.2轴向旋转

    4.4数据转换

    4.4.1重命名轴索引

    4.4.2离散化连续数据

    4.4.3哑变量处理类别型数据

    4.5案例—预处理部分地区信息

    4.5.1案例需求

    4.5.2数据准备

    4.5.3功能实现

    4.6本章小结

    4.7本章习题

    第5章 数据聚合与分组运算

    5.1分组与聚合的原理

    5.2通过groupby()方法将数据拆分成组

    5.3数据聚合

    5.3.1使用内置统计方法聚合数据

    5.3.2面向列的聚合方法

    5.4分组级运算

    5.4.1 数据转换

    5.4.2 数据应用

    5.5案例—运动员信息的分组与聚合24

    5.6.1 案例需求24

    5.6.2 数据准备25

    5.6.3 功能实现25

    5.6本章小结33

    5.7本章习题33

    第6章 数据可视化

    6.1数据可视化概述

    6.1.1什么是数据可视化

    6.1.2常见的图表类型

    6.1.3数据可视化的工具

    6.2Matplotlib—绘制图表

    6.2.1通过figure()函数创建画布

    6.2.2通过subplot()函数创建单个子图

    6.2.3通过subplots()函数创建多个子图

    6.2.4通过add_subplot()方法添加和选中子图

    6.2.5添加各类标签

    6.2.6绘制常见图表

    6.2.7本地保存图形

    6.3Seaborn—绘制统计图形

    6.3.1可视化数据的分布

    6.3.2用分类数据绘图

    6.4Bokeh—交互式可视化库

    6.4.1认识Bokeh库

    6.4.2通过Plotting绘制图形

    6.5案例—画图分析某年旅游景点数据

    6.5.1案例需求

    6.5.2数据准备

    6.5.3功能实现

    6.6本章小结

    6.7本章习题

    第7章 时间序列分析

    7.1 时间序列的基本操作

    7.1.1 创建时间序列

    7.1.2 通过时间戳索引选取子集

    7.2 固定频率的时间序列

    7.2.1 创建固定频率的时间序列

    7.2.2 时间序列的频率、偏移量

    7.2.3 时间序列的移动

    7.3 时间周期及计算

    7.3.1 创建时期对象

    7.3.2 时期的频率转换

    7.4 重采样

    7.4.1 重采样方法(resample)

    7.4.2 降采样

    7.4.3 升采样

    7.5 数据统计—滑动窗口

    7.6 时序模型—ARIMA

    7.7 案例—股票收盘价分析

    7.7.1 案例需求

    7.7.2数据准备

    7.7.3功能实现

    7.7 本章小结

    7.8 本章习题

    第8章 文本数据分析

    8.1 文本数据分析工具

    8.1.1 NLTK与jieba概述

    8.1.2 安装NLTK和下载语料库

    8.1.3 jieba库的安装

    8.2 文本预处理

    8.2.1 预处理的流程

    8.2.2 分词

    8.2.3 词性标注

    8.2.4 词形归一化

    8.2.5 删除停用词

    8.3 文本情感分析

    8.4 文本相似度

    8.5 文本分类

    8.6 案例—商品评价分析

    8.6.1 案例需求

    8.6.2 数据准备

    8.6.3 功能实现

    8.7 本章小结

    8.8 本章习题

    第9章 数据分析实战—北京租房数据统计分析

    9.1 数据来源

    9.2 数据读取

    9.3 数据预处理

    9.3.1 重复值和空值处理

    9.3.2 数据转换类型

    9.4 图表分析

    9.4.1 房源数量、位置分布分析

    9.4.2 户型数量分析

    9.4.3 平均租金分析

    9.4.4 面积区间分析

    9.5 本章小结

    展开全部内容

    配套资源

    展开全文
  • 数据分析基础1.1 数据分析的基本概念1.1.1 什么是数据分析1.1.2 数据分析范式1.1.3 数据分析面临的问题1.1.4 相关概念辨析1.2 数据分析的任务与...1.3.1 典型的数据领域1.3.2 数据类型1.4 数据分析的生态系统1.4.1...
  • 数据分析涉及统计学、线性代数、图形分析绘制、数据挖掘等知识,推荐系统学习电子资料《利用Python进行数据分析第2版》、《Python数据分析与挖掘实战》、《从零开始学Python数据分析与挖掘》电子书和代码测试。...
  • python数据分析

    2018-10-10 15:47:12
    python数据清洗,处理,预处理,建模,系统而详细,内容不错
  • 课程咨询、获取课件、技术交流直接加入博学谷在线学习:631731828课程简介本课程采用理论与案例相结合的形式,以Anaconda为主要开发工具,系统全面地介绍了Python数据分析的相关知识。如:数据分析的基本概念,以及...
  • 在越来越多的工作中都扮演着重要的角色,Python可以利用各种Python库,如NumPy、pandas、matplotlib以及IPython等,高效的解决各式各样的数据分析问题,那么该如何学习Python数据分析呢?大数据作为一门新兴技术,...
  • 推荐几本Python数据分析方面的书。1、Python金融大数据分析Python凭借其简单、易读、可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析、处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发...
  • 数据分析概述1.1 数据分析的背景1.2 什么是数据分析1.3 数据分析的应用场景1.4 数据分析的流程1.5 为什么选择Python数据分析1.6 创建新的Python环境——Anaconda1.6.1 Anaconda发行版本概述1.6.2 在Windows系统中...
  • 第二课:公共交通运营数据分析案例实战某公共交通公司需要对运营数据进行挖掘分析,找出有用的信息以供决策之用。根据各线路的运营数据进行线路聚类,找出不同线路的发展特点。针对线路的历史...
  • Python编程基础1.1 Python系统配置1.2 Python基础知识1.2.1 帮助1.2.2 标识符1.2.3 行与缩进1.2.4 变量与对象1.2.5 数字与表达式1.2.6 运算符1.2.7 字符串1.2.7.1 转义字符1.2.7.2 字符串格式...
  • Python数据分析常用模型介绍Python数据分析--玩转统计模型视频课程, PYTHON可视化分析数据挖掘内常用的数据模型讲解.系统、全面的介绍方差分析模型、回归模型、logistic回归等各种经典统计模型,以及树模型、神经...
  • 结尾最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,...
  • 目录入门篇第1 章 数据分析基础 . 21.1 数据分析是什么 21.2 为什么要做数据分析 21.2.1 现状分析 . 31.2.2 原因分析 . 31.2.3 预测分析 . 31.3 数据分析究竟在分析什么 41.3.1 总体概览指标 . 41.3.2 对比性指标 . ...
  • 由于人们用 Python 所做的事情不同,所以没有一个普适的 Python 及其插件包的安装方案,接下来我将详细介绍各个操作系统Python 科学计算环境部署。我推荐免费的 Anaconda 安装包,Anaconda 提供 Python 2.7 和 ...
  • (1)没有高深理论,每章都以实例为主,读者参考书中源码运行,就能得到与书中一样的结果。...《Python数据分析与可视化从入门到精通》以“零基础”为起点,系统地介绍了Python在数据处理与可视化分析方面...
  • python数据分析参考案例,在线选房系统代码和数据,网络收集
  • 之前有比较系统地读过《Python数据分析基础》(Foundations for Analysis with Python),写了一些笔记,这里只选取关于Excel的部分。学习Python中有不明白推荐加入交流群号:960410445群里有志同道合的小伙伴,...
  • Python数据分析与数据可视化章节考试题库答案更多相关问题我们要看到物体,必须有 射入人的眼睛,光在传播的过程中若遇到了不透明的物体,就会在物体的后面投下一段 色什么是电力系统静态稳定性?简单电力系统静态...
  • 摘要在用Python数据分析的过程中,有一些操作步骤和逻辑框架是很固定的,只需要记住其用法即可。本节内容介绍Pandas模块在数据分析中的常用方法。内容目录1、...
  • python数据分析笔记(1):搭建python的数据分析环境(Mac系统下)笔者是一个技术小白,也是第一次写博客,所以如果有什么问题还请看到博客的各位多多指教。 当前,用python做数据分析已经成为了一个趋势,所以,...
  • 内容导航:Q1:怎样用python处理股票用Python处理股票需要获取股票数据,以国内股票数据为例,可以安装Python的第三方库:tushare;一个国内股票数据获取包。可以在百度中搜索“Python tushare”来查询相关资料,...
  • Python的运行环境要运行或写Python代码,就需要Python的运行环境,主要的Python有以下三类:原生态的Python:就是直接从Python的官网下载,然后安装使用。这类方法最简单直接,但是后期不容易维护;一些其他类型的...
  • 数据分析涉及统计学、线性代数、图形分析绘制、数据挖掘等知识,推荐系统学习电子资料《利用Python进行数据分析第2版》、《Python数据分析与挖掘实战》、《从零开始学Python数据分析与挖掘》电子书和代码测试。...
  • 课程内容包括数据科学必备的几种分布、统计描述、假设检验、方差分析、相关分析、因子分析、回归分析、聚类分析、逻辑回归、贝叶斯分析等Python数据分析内容,系统全面。从统计分析基础开始讲起,一步步完成整个统计...
  • 有没有python简单分析数据的的实例机器学习实战,纯算法学python就业都有哪些方向?就业方向一:Linux运维Linux运维是必须而且一定握Python语言,Python是一门非常NB的编程语言,它可以满足Linux运维工程师的工作需求...
  • python数据分析笔记

    2018-01-24 14:17:31
    定做,在开发效率和执行效率上均不适合直接用于数据分析,尤其是大数据的分析和处理。幸运 的是, NumPy为Python插上了翅膀,在保留Python语言优势的同时大大增强了科学计算和数据处 理的能力。更重要的是, NumPy与...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,946
精华内容 2,378
关键字:

python数据分析系统

python 订阅