精华内容
下载资源
问答
  • python数据处理案例
    千次阅读
    2021-12-16 15:51:02

    1.https://github.com/eastmountyxz/ImageProcessing-Python
    https://blog.csdn.net/eastmount/category_9278090.html
    Python图像处理文章
    https://github.com/eastmountyxz/CSDNBlog-ImageProcessing
    该资源为作者Eastmount在CSDN《Python图像处理》专栏系列分享的全文知识,只要为PDF文件
    https://github.com/eastmountyxz/Book3-Python-ImageProcessing
    该资源为作者《Python中的图像处理》书籍所有源代码,已修改为Python3实现

    https://github.com/eastmountyxz/AI-for-TensorFlow
    本系列主要是作者Python人工智能之TensorFlow的系列博客,涉及回归神经网络、CNN、RNN、TensorFboard等内容基础性代码.
    https://github.com/eastmountyxz/AI-for-Keras
    本系列代码主要是作者Python人工智能之Keras的系列博客,涉及回归神经网络、CNN、RNN、LSTM等内容。

    https://github.com/eastmountyxz
    https://blog.csdn.net/eastmount

    2.https://github.com/eastmountyxz/Book2-Python-DataAnalysis
    《Python网络数据爬取及分析从入门到精通(分析篇)》所有源代码,包括可视化分析、聚类分析、回归分析、分类分析、词云和LDA分析等内容。所有代码已修改为Python3实现
    https://github.com/eastmountyxz/Book1-Python-DataCrawl
    《Python网络数据爬取及分析从入门到精通(爬取篇)》书籍所有源代码,包括Python基础、网络爬虫基础、Urllib、BeautifulSoup、Selenium、在线百科抓取、豆瓣抓取、微博抓取等内容。所有代码已修改为Python3实现


    3.https://github.com/eastmountyxz/Sui-AIResearch
    该资源将应用人工智能技术研究水族文化、文字和古籍。为更好的抢救和保护濒危水族文字和非物质文化遗产,作者申请并开源了该项目,主要通过人工智能技术识别水书,构建与汉字的自动翻译系统,实现水族本体和文献知识图谱构建,挖掘新词并溯源民族变迁历史。作者回到家乡贵州教书以来,对利用AI抢救民族文物研究产生浓厚兴趣并后半生都将致力于该研究中,包括侗族大歌、苗族飞歌语音识别研究,王阳明文化研究,少数民族古籍文字保护及文化图腾识别都会陆续展开。
    https://github.com/eastmountyxz/Python-for-Data-Mining
    作者在CSDN的撰写Python数据挖掘和数据分析文章的支撑,主要是Python实现数据挖掘、机器学习、文本挖掘等算法代码实现
    https://github.com/eastmountyxz/Datasets-Text-Mining
    该资源为文本挖掘(中文和英文)相关的数据集
    https://github.com/eastmountyxz/Python-zero2one
    https://blog.csdn.net/eastmount/category_10324808.html
    作者《Python从零到壹》系列文章的对应代码,该系列包括200篇原创博客,涉及基础语法、网络爬取、大数据分析、机器学习、图像处理、人工智能、文本挖掘、图像识别等领域。


    4.https://github.com/eastmountyxz/AI-Sec-Paper-Sharing
    AI安全相关论文的分享知识,包括PPT和PDF版本及原文
    https://github.com/eastmountyxz/NetworkSecuritySelf-study
    系列网络安全自学教程,主要是关于网安工具和实践操作的在线笔记
    https://github.com/eastmountyxz/CSDNBlog-Security-Based
    https://blog.csdn.net/eastmount/category_9183790.html
    该系列资源为作者CSDN博客的备份文件。本资源为网络安全自学篇,包括作者安全工具利用、Web渗透、系统安全、CVE漏洞复现、安全论文及会议等知识
    https://github.com/eastmountyxz/SystemSecurity-ReverseAnalysis
    该资源为系统安全和逆向分析实验,包括作者从零学习恶意代码分析、病毒逆向分析的工具及样本,基础性文章
    https://github.com/eastmountyxz/WannaCry-Experiment
    该资源主要复现了WannCry勒索病毒过程,包括对应的资源、文章和勒索病毒。
    https://github.com/eastmountyxz/Software-Security-Course
    https://blog.csdn.net/Eastmount/article/details/104573931
    该资源为《软件安全》课程实验及工具,包括PE文件解析、数字签名解析、恶意软件分析、CVE漏洞复现等。
    https://github.com/eastmountyxz/Datasets-Security
    https://blog.csdn.net/Eastmount/article/details/108434835
    该资源为安全相关的数据集,包括恶意URL、恶意流量、图像分类、恶意软件等
    https://github.com/eastmountyxz/CyberSecurityBox
    该资源为网络安全和Web渗透各种类型题目的离线靶场,主要采用PHP语言实现,包括XSS攻击、文件上传漏洞、SQL注入等,基础性资源


    5.https://github.com/eastmountyxz/CTF-Tools
    收集各种类型CTF比赛的常用工具,包括Web、RE、Misc、Crypto、PWN、IOT等方向
    https://github.com/eastmountyxz/Love-code
    该资源为表白代码
     

    更多相关内容
  • Python数据处理案例

    千次阅读 2019-09-21 23:24:46
    关于数据处理案例有两个,第一个案例是我整理到有道云上的,就直接剪切下来了,下面直接进入正题~ 案例1:快餐数据 案例2:欧洲杯数据 先进行数据探索 data.info() data.describe() 查看...

    关于数据处理案例有两个,第一个案例是我整理到有道云上的,就直接剪切下来了,下面直接进入正题~

    案例1:快餐数据

    案例2:欧洲杯数据

    先进行数据探索 

    data.info()
    
    
    data.describe()
    

    查看数据集是否有缺失值且哪个字段存在缺失值?可以用下面的代码,也可以用前面案例1缺失值那里提到的前两种方法

    for i in range(data.shape[1]):
        if data.iloc[:,i].notnull().sum() != data.shape[0]:
             print('第%d列:字段%s 存在缺失值'%(i+1,data.columns[i]))

    代码运行结果是

    对Clearances off line进行缺失值处理

    首先查看Clearances off line字段

    统计其数字组成

    data['Clearances off line'].value_counts()

    从统计结果可以看到,在Clearances off line这个字段中有11个值为0,3个值为1,1个值为2,故考虑采用众数(mode)填充缺失值

    mode=data['Clearances off line'].mode()
    data['Clearances off line']=data['Clearances off line'].fillna(mode)

    描述性统计

    统计有多少球队参加了欧洲杯?

    data.Team.count()

    将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框

    discipline=data[['Team','Yellow Cards','Red Cards']]

    按照先Red Cards再Yellow Cards进行降序排序

    discipline.sort_values(by=['Red Cards','Yellow Cards'])

    计算每个球队拿到黄牌的平均值

    data['Yellow Cards'].mean()

    找出进球数大于6个的球队的数据

    data[data['Goals']>6]

    对比英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting Accuracy)

    data['Shooting Accuracy'].[data.Team.isin(['England','ltaly','Russia'])]

     

    展开全文
  • Python数据处理案例

    2021-01-27 15:01:43
    分享知识要点: lubridate包拆解时间|POSIXlt 利用决策树分类,利用随机森林预测 利用对数进行fit,和exp函数还原训练集来自...数据集共11个变量,10000多行数据。 https://www.kaggle.com/c/bike-sharing-demand首先
  • Python数据处理案例

    2020-12-21 15:56:14
    Python数据处理案例 1 准备数据 2 要求 (1)将数据表添加两列:每位同学的各科成绩总分(score)和每位同学的整体情况(类别),类别按照[df.score.min()-1,400,450,df.score.max()+1]分为“一般” “较好” ...
  • 基于真实场景的数据(Python数据处理和特征工程)作为Python数据清洗实战入门课程的升级版,本课程以真实的场景数据为案例进行教学,包括征信,电商,零售数据等, 本课程由浅入深详细讲解Python数据处理和特征工程在...
  • 基于Python语言的Spark数据处理分析案例集锦(PySpark) 实验环境 1) Linux: Ubuntu 20.04 2) Python: 3.7.x 3) Spark: 2.4.5(安装教程: 4) Jupyter Notebook: (安装教程和使用方法: 案例 1) yelp: ...
  • python数据分析技术对某药店一年销售数据进行处理与分析,内涵数据集,源码及说明文档,完美应对python课设及大作业
  • 主要介绍了VBA处理数据Python Pandas处理数据案例比较,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
  • 利用python处理UCI鲍鱼年龄预测数据,运用了经典回归、决策树、随机森林、SVM等十余种机器学习方法,附有数据集以及详细python代码。
  • Python数据处理

    千次阅读 2020-05-04 20:07:59
    # 查找后定位去重 df_list[~df_list.duplicated(["id","name"])] 三、类型转换 这个案例里last_review字段应该是日期时间的类型,但在这里是字符型展示,因此要把字符型转换成日期时间类型的数据,使用to_datetime...

    一、查找重复值

    既然我们这个系列是对比Excel,那么在Excel里是怎么查找重复值的呢?有很多种方法,这里就简单说一种:条件格式。在【开始】——【条件格式】里选择突出显示重复值,就将重复的值突出显示出来了:

     


    Pandas里如何查找重复值呢?

     

    1、查找所有列

    duplicated方法查找重复值,和isnull一样,得到的结果是布尔值,如果重复被标记为True,否则为False

    # 查看所有列都重复的数据
    df_list.duplicated()
    

    结果如下,得到的是一个序列,通过True/False来查看哪些行完全重复。

     


    也可以把它具体的位置找出来:

     

    # 定位出所有列都重复的行
    df_list[df_list.duplicated()]
    

    结果是一个空行,说明这个数据集里没有所有列都重复的行

     

    2、查找单独列

    对重复值的判断有时不需要判断所有列,只需要对某一列进行判断,还是用duplicated方法查找,如查找id列是否重复

    # 查找id列是否重复
    df_list[df_list.duplicated(["id"])]
    

    结果为空,说明id列是唯一标识。

    1240uploading.4e448015.gif转存失败重新上传取消

     

    二、重复值的处理

    对重复值的处理,就是删除

    在Excel里专门有一个删除重复值的功能,用这个功能就可以将某一列的重复值删除,只保留不重复的值:

     


    在Panda里用到drop_duplicates方法来删除重复值。

     

    1、所有列去重

    对所有列都重复的行去重

    # 所有列去重
    df_list = df_list.drop_duplicates()
    df_list.head()
    

    2、某一列去重

    对某一列重复的行去重,添加subset参数

    # 某一列去重
    df_list.drop_duplicates(subset = "id")
    

    3、某几列去重

    对要去重的几列的列名用列表框起来,subset参数名可以不写

    # 某几列去重
    df_list.drop_duplicates(["id","name"])
    

    4、去重后保留最后一个值

    以上去重时默认都是保留第一个重复的值,但如果想要保留最后一个重复的值呢,添加keep参数,让keep = "last"

    # 保留最后一个值
    df_list.drop_duplicates(["id","name"],keep = "last")
    

    5、查找后定位的方法去重

    前面介绍了查找重复值用到的duplicated方法,那么也可以用这个方法直接去重。df_list[df_list.duplicated(["id","name"])]是定位出重复值,加个取反的符号df_list[~df_list.duplicated(["id","name"])]就将不重复的值取出来了,也就是去重了。

    # 查找后定位去重
    df_list[~df_list.duplicated(["id","name"])]
    

    三、类型转换

    这个案例里last_review字段应该是日期时间的类型,但在这里是字符型展示,因此要把字符型转换成日期时间类型的数据,使用to_datetime方法,它有两个参数,第一个参数是要转换的列,第二个参数是设置日期时间格式。

     

    # 字符转时间
    df_list["last_review"] = pd.to_datetime(df_list["last_review"],
                                     format = "%Y/%m/%d")
    df_list.info()
    

    结果如下,可以看到这一列已经由原先的字符型转化为了时间型。

     


    类型转换还可以将字符转数值,数值转字符,用到astype(dtype)方法,dtype参数表示要转换的数据类型,整型为int,小数型位float,字符型为str

     

    # 数值转字符
    df_list["id"].astype(str).dtype
    

    如把id列的整型转为字符型,可以看到转换话数据类型为Object。

     

    四、字段拆分

    发现这里neighbourhood字段是“朝阳区 / Chaoyang ”形式,只想要保留“/”符号前的字段,因此需要对这个字段进行拆分,在Excel里拆分很简单,就用【数据】选项卡中的【分列】功能即可,分割符号选择“/”。

     


    在pandas里我们用split方法来拆分

     

    # 字段拆分
    new_neighbor = df_list["neighbourhood"].str.split("/",1,True)
    df_list[["neighborhood_new","neighbor2"]] = new_neighbor
    df_list
    

    第一个参数是指定分隔符,第二个参数填的是1,表示分割成1+1=2列,第三个参数填True,表示展开为数据框,默认是False,所以一般填True,结果如图

     


    同样地把room_type这个字段也拆分一下

     

    new_room_type = df_list["room_type"].str.split("/",1,True)
    df_list[["room_type_new","room_type2"]] = new_room_type
    df_list
    

    结果如图:

     


     

    @ 作者:可乐
    @ 公众号/知乎专栏/头条/简书:可乐的数据分析之路
    @ 加微信(data_cola)备注:进群,拉你进可乐的数据分析交流群,数据分析知识总结,不定期行业经验分享

     

    展开全文
  • 其中包含4个案例,以毕业论文的格式写出。包含原始数据。代码可复制粘贴。
  • Python数据分析与机器学习实战教程,该课程精心挑选真实的数据集为案例,通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。课程以实战为基础,所有课时都结合代码演示...
  • python数据分析参考案例,在线选房系统代码和数据,网络收集
  • 通过一个综合案例分析和演示数据处理和可视化的过程,加深对Pandas、Matplotlib库中一些常见方法的理解和使用,非常适合初学者自我测试和老师课堂教学。
  • 在此对利用Python进行预处理数据做一个总结归纳。 首先是缺失值处理。 #读取数据 import pandas as pd filepath= 'F:/...'#本地文件目录 df= pd.read_csv(train,sep=',')#df数据格式为DataFrame 查看缺失值 查看每...
  • 思考题: 计算每个数据集中fixed acidity低于均值的数目。 python实验课,适合计算机科学与技术专业学生
  • VBA处理数据Python Pandas处理数据案例比较 Author : Collin_PXY 需求: 现有一个 csv文件,包含’CNUM’和’COMPANY’两列,数据里包含空行,且有内容重复的行数据。 要求: 1)去掉空行; 2)重复行数据只保留一...
  • Python数据处理与特征工程

    千人学习 2020-10-11 16:58:28
    CSDN全站首发——Python数据处理与特征工程 课程聚焦数据科学中,数据清洗与分析前的特征提取过程,解决数据科学中最重要的原始数据清洗和特征提取。 【定制课程 精准扫除学习盲点】 课程充分考虑各类实际问题...
  • python实战应用案例-Python进行CMIP6温带气旋分析(代码+数据).zip
  • Python应用实战案例】-Python绘制台风轨迹图源代码和数据.zip
  • Python数据可视化有多种方案。正是由于这种多样性,选用何种方案进行数据的可视化做为入门但极为困难。本课程以实战项目为导向,介绍Python中比较流行的数据可视化模块-Matplotlib中的Pyplot,以及如何使用它们...
  • python数据分析基础(一) 该部分将对python数据结构、函数等基础内容进行回顾,python大牛和想要直接套用模板进行数据分析方法的朋友可以直接跳过此部分。 一、基本数据结构-元组和列表 元组和列表是python最...

    python数据分析基础(一)

    该部分将对python数据结构、函数等基础内容进行回顾,python大牛和想要直接套用模板进行数据分析方法的朋友可以直接跳过此部分。

    一、基本数据结构-元组和列表

    元组和列表是python最常见也是最基本的数据结构,其区别在于元组的内容和长度是不可变的,而列表是可变的。下面通过实例来介绍一些元组列表的基本操作。

    1、两者之间的转换

    a=[1,2,3,4]
    b=1,2,3,4
    print(type(a))
    print(type(b))
    <class 'list'>
    <class 'tuple'>

    (1)列表->元组

    a=tuple(a)
    print(a)
    print(type(a))
    (1, 2, 3, 4)
    <class 'tuple'>

    (2)元组->列表

    b=list(b)
    print(b)
    print(type(b))
    [1, 2, 3, 4]
    <class 'list'>

    可以通过tuple和list函数将任意序列和迭代器换成元组和数列。

    2、连接和扩展

    元组和列表扩展的方式是相同的。

    (1,2,"jerry")+(3,4,"tom")
    (1, 2, 'jerry', 3, 4, 'tom')
    [1,2,"jerry"]+[3,4,"tom"]
    [1, 2, 'jerry', 3, 4, 'tom']
    (1,"jerry")*2
    (1, 'jerry', 1, 'jerry')
    [1,"jerry"]*3
    [1, 'jerry', 1, 'jerry', 1, 'jerry']

    需要注意的是元组连接和扩展并没有让原本的元组长度和内容发生变化,而是生成了一个新的元组(c=a+b)c是一个全新的元组,a和b并不受其影响。

    3、拆包

    对元组的数据或对列表的数据进行拆包通常用作变量赋值。

    a,b=(1,2)
    c,d=[3,4]
    print(a,b,c,d)
    1 2 3 4
    a=1,2,3,4,5,6
    b,c,*_=a
    #*_代表从3及以后的数字将被舍弃
    print(b,c)
    1 2

    4、对列表进行操作的常用方法

    由于元组的不可变性,除了一些查询操作,暂时没有想到其他的可操作性,接下来将对列表的常用操作进行回顾。

    (1)增加、删减元素

    a=['jerry','tom']
    a.append(1)#末尾增加数字1
    print(a)
    ['jerry', 'tom', 1]
    a=['jerry','tom']
    a.insert(1,'rose')#指定位置插入字符串“rose”
    print(a)
    ['jerry', 'rose', 'tom']
    a=['jerry','tom']
    a.pop(1)#删除指定位置元素
    print(a)
    ['jerry']
    a=['jerry','tom']
    a.remove('tom')#从位置0开始移除第一个遇到的“tom”
    print(a)
    ['jerry']

    (2)sorted

    a=[3,2,1,4]
    sorted(a)#将a内元素从小到大,从a到z进行排序,这部分网上内容较多,可以进行参考
    [1, 2, 3, 4]

    (3)reversed

    list(reversed(a))#将列表a中的元素倒叙排列,此处需要注意,reversed是生成器,因此需要list
    [4, 1, 2, 3]

    (4)enumerate

    a=['tom','jerry','rose']
    for position,name in enumerate(a):
        print(position,name)
    0 tom
    1 jerry
    2 rose

    将列表输入enuerate函数,会输出(位置,当前位置的元素)

    5、小结

    上面介绍了python中最基本的两种数据结构及其操作,在后面还会结合具体案例对其操作进行拓展、补充。

    二、基本数据结构-字典

    这部分在数据分析中用的特别多,我们先来看看字典的型式。

    dict = {'mother': 'jerry', 'father': 123, 'son':['tom']}

    字典的每个键值 key=>value 对用冒号 : 分割,每个对之间用逗号(,)分割,整个字典包括在花括号 {} 中 。

    该合集为Python数据分析的视频教程,定期更新,目录如下:

    系列一:2021python数据分析从基础到进阶课程(适合新手)

    系列二:2021数据分析从基础到实战系列

    系列三:2021四个月带你完完全全学习数据分析(视频+源码)

    系列四:2021年最新python大数据分析师教程(视频+源码+课件)

    系列五:2021最新python大数据全栈分析工程师视频教程

    系列六:2022数据分析师入职培训教程,带你拿到理想薪资(2022.3.14更新)

    点击我查看目录

    展开全文
  • 本文通过【泰坦尼克数据集】来做示例,通过对这个数据集的处理,手把手教你python数据分析,相信你在学完之后能够快速上手。 - python 安装- 如果你还没有安装 Python 环境,那么推荐你安装 Anaconda,对于上手 ...
  • 【入门基础+轻实战演示】【讲授方式轻松幽默、有趣不枯燥、案例与实操结合,与相关课程差异化】利用python进行数据处理、 分析,并结合大量具体的例子,对每个知识进行实战讲解,本课程通过大量练习和案例对各个知识...
  • # 数据处理 import pandas as pd import numpy as np # 绘图 import matplotlib.pyplot as plt # 分词 import jieba # 云图 from wordcloud import WordCloud from imageio import imread 数据处理 # 设置中文字体...
  • 新手python数据预处理练习:1.鸢尾花数据处理2.探索chipotle数据3.探索Apple公司股价数据4.作业招聘数据探索分析
  • 如何用python进行数据处理?(二)

    千次阅读 2020-12-10 17:21:55
    处理缺失值:删除或者填充 DataFrame: DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等),可以看做Series组成的字典(共用一个索引)。 那么,进入正题...
  • 数据的增删改查 NaN数据处理 时间数据的处理 数据的分组与聚合 分组数据 Series对象 DataFrame对象 SeriesGroupBy 对象 DataFrameGroupBy对象 key data a 1 a 2 b 3 c 4 a 5 分组 a 1 a 2 a 5 b 3 c 4 求和 key data...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 261,311
精华内容 104,524
关键字:

python数据处理案例