2019-03-04 13:48:31 xiaojian0907 阅读数 203
  • Python数据挖掘实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据挖掘技术系列视频培训教程基于真实数据集进行案例实战,使用Python数据科学库从数据预处理开始一步步进行数据建模。对于每个案例首先进行流程解读与数据分析,建立特征工程,详细解读其中每一步原理与应用。该课程共有十一大章节,88课时,从泰坦尼克号获救预测进行数据分析作为第一章节,后边依次是用户画像、Xgboost实战、京东用户购买意向预测、Kaggle数据科学调查、房价预测、论文与BenchMark的意义、Python实现音乐推荐系统、fbprophet时间序列预测、用电敏感客户分类、数据特征。

    4683 人正在学习 去看看 唐宇迪

Python处理json数据

在执行脚本的时候出现以下错误
在这里插入图片描述
最终发现是因为我在当前目录下创建了一个json.py文件导致的
在这里插入图片描述

2019-04-08 21:58:55 qq_36369941 阅读数 741
  • Python数据挖掘实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据挖掘技术系列视频培训教程基于真实数据集进行案例实战,使用Python数据科学库从数据预处理开始一步步进行数据建模。对于每个案例首先进行流程解读与数据分析,建立特征工程,详细解读其中每一步原理与应用。该课程共有十一大章节,88课时,从泰坦尼克号获救预测进行数据分析作为第一章节,后边依次是用户画像、Xgboost实战、京东用户购买意向预测、Kaggle数据科学调查、房价预测、论文与BenchMark的意义、Python实现音乐推荐系统、fbprophet时间序列预测、用电敏感客户分类、数据特征。

    4683 人正在学习 去看看 唐宇迪

python 处理 json数据

以下是登录账号后获取的json数据,headers中注意加入cookie值

需要处理的数据如下:
在这里插入图片描述
全部代码如下

#!/usr/bin/env python 
# -*- coding:utf-8 -*- 
import requests  
import json  
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36",
    "Cookie":"cookiesession1=426EF394ULRHIHCOMFONBBXJAGLM1F47;"
}

def get_name():
    url = "http://*.*.*.*/Initialize/GetStaffs?pageIndex=1&pageSize=200&sortField=CreateAt&sortDirection=0&_=1554691249039"
    response = requests.get(url=url,headers = headers)
    dict_str = json.loads(response.text)                #转换成json格式
    dic_data = dict_str["DataList"]
    # dic_data = dict_str["DataList"]["0"]["UserId"]   #取出字典中的字段值
    for dic1 in dic_data: 
        print(dic1)
        with open("name.txt","a+",encoding="utf-8") as f:
            f.write(str(dic1["UserId"])+"\n")  #只取字典中UserId的值,其它字段同理可获取到

if __name__ =="__main__":
    get_name()

最终运行结果如下:
在这里插入图片描述
小结:比之前不太规律的数据处理起来容易多了,后期努力完善学习。

2017-11-01 18:27:38 JackLiu16 阅读数 566
  • Python数据挖掘实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据挖掘技术系列视频培训教程基于真实数据集进行案例实战,使用Python数据科学库从数据预处理开始一步步进行数据建模。对于每个案例首先进行流程解读与数据分析,建立特征工程,详细解读其中每一步原理与应用。该课程共有十一大章节,88课时,从泰坦尼克号获救预测进行数据分析作为第一章节,后边依次是用户画像、Xgboost实战、京东用户购买意向预测、Kaggle数据科学调查、房价预测、论文与BenchMark的意义、Python实现音乐推荐系统、fbprophet时间序列预测、用电敏感客户分类、数据特征。

    4683 人正在学习 去看看 唐宇迪

python  底层数据处理

'0x20' 是一个 multi-character character constant 它对应的值是0x30783230

(注: '0' 'x' '2' 的 ascii 码分别是 0x30 0x78 0x32)

'\x20' 是一个 char 它的值是0x20

(注: '\x[0-9a-fA-F]{1,2}' 用16进制表示一个char 比如 '\xFF'
     '\[0-7]{1,3}' 用8进制表示一个char 比如 '\100' )


十六进制数'\0x'和'\x'有什么区别?

区别不大,都是把数按16进制输出。
\0x:当输出的数转换为16进制只有1位时,在前面补0,如 0a,其它情况按照实际情况输出。 
\x:按照输出数转换为16进制的实际位数输出。
此外,小写x和大写X也有点区别,小写的x输出小写符号的16进制,大写X则输出大写的(主要针对ABCDEF这六位)


0x  十六进制

0o   八进制

0b   二进制



a=0b0101
print a,repr(a),type(a)
a=0o0701
print(a,repr(a),type(a))
a=0x0911
print(a,repr(a),type(a))
a="\x02\x08"
print a,repr(a),type(a)
print(a,repr(a),type(a))
strr="sdfa\dfsd\\W"
print(strr)


5 5 <type 'int'>
(449, '449', <type 'int'>)
(2321, '2321', <type 'int'>)
 '\x02\x08' <type 'str'>
('\x02\x08', "'\\x02\\x08'", <type 'str'>)
sdfa\dfsd\W
[Finished in 0.5s]

2014-12-12 17:15:59 liqiang19910328 阅读数 467
  • Python数据挖掘实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据挖掘技术系列视频培训教程基于真实数据集进行案例实战,使用Python数据科学库从数据预处理开始一步步进行数据建模。对于每个案例首先进行流程解读与数据分析,建立特征工程,详细解读其中每一步原理与应用。该课程共有十一大章节,88课时,从泰坦尼克号获救预测进行数据分析作为第一章节,后边依次是用户画像、Xgboost实战、京东用户购买意向预测、Kaggle数据科学调查、房价预测、论文与BenchMark的意义、Python实现音乐推荐系统、fbprophet时间序列预测、用电敏感客户分类、数据特征。

    4683 人正在学习 去看看 唐宇迪

由于项目需求,需要处理xml的数据,网上找的文章参次不齐,最后还是求助于官方文档,如下:


XML文档的内容为

<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>

当XML文档为文件格式时,可以这样来读取

import xml.etree.ElementTree as ET
tree = ET.parse('country_data.xml')
root = tree.getroot()


当xml为数据流(字符串)时,可以这样读取

root = ET.fromstring(country_data_as_string)

对于xml的元素和内容,可以这样查看

>>> root.tag
'data'
>>> root.attrib
{}


查看节点及节点属性时,可以这样查看

>>> for child in root:
...   print child.tag, child.attrib
...
country {'name': 'Liechtenstein'}
country {'name': 'Singapore'}
country {'name': 'Panama'}


查看节点内容,可以这样

>>> root[0][1].text
'2008'

基本的就这些,更多的可以去查阅python的官方文档





2019-03-08 19:37:33 weixin_41081074 阅读数 952
  • Python数据挖掘实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据挖掘技术系列视频培训教程基于真实数据集进行案例实战,使用Python数据科学库从数据预处理开始一步步进行数据建模。对于每个案例首先进行流程解读与数据分析,建立特征工程,详细解读其中每一步原理与应用。该课程共有十一大章节,88课时,从泰坦尼克号获救预测进行数据分析作为第一章节,后边依次是用户画像、Xgboost实战、京东用户购买意向预测、Kaggle数据科学调查、房价预测、论文与BenchMark的意义、Python实现音乐推荐系统、fbprophet时间序列预测、用电敏感客户分类、数据特征。

    4683 人正在学习 去看看 唐宇迪

 

之前是直接用Excel处理数据,后来觉得实在是繁琐,尤其在数据量过大的情况下,特此去学了用python处理数据。学完之后不禁感叹pandas的强大。

Excel和CSV的处理方式大致相同,以下用csv举例。均为一些基础操作。

1.读取表格

import pandas as pd
new_data=pd.read_csv('/Users/ymhzb1994/Desktop/movie/movielens.csv')
#如果文件没有表头,还可以自己添加表头
new_data=pd.read_csv('/Users/ymhzb1994/Desk/data.csv',header=None,names = ['userId','movieId','rating'] )

2.查看数据

#查看前12行  head()的()中为空为默认前5行
new_data.head(12)
#查看表尾后几行
new_data.tail()

3.去除重复数据

new_data.drop_duplicates(subset=None,keep='first',inplace=True)

(1)subset:按照哪些列重复进行删除

     subset=None时,全部列重复则删除该行;

    若仅userid和movieId重复,就删除该行,则subset=['userid','movieId']

  (2)keep=None  删除所有重复数据;kepp=‘first’保留第一次出现的重复行;keep='last' 保留重复行出现的最后一次

(3)inplace=True 是在原来的datafram上去除;inplace=False是 产生一个副本

如:

data_distinct=new_data.drop_duplicates(subset=None,keep='first',inplace=False)

4.选取其中几列作为新的datafram

data_select=new_data[['userid','movieId']]

5.存成新的表

data_select.to_csv('/user/my/newdata.csv')

 

Python 处理Excel数据

阅读数 241

Python数据处理

阅读数 881

python 处理 txt 数据

博文 来自: zlzl8885
没有更多推荐了,返回首页