精华内容
下载资源
问答
  • 【Python】Pandas读取tsv文件
    万次阅读 多人点赞
    2018-01-19 18:05:19

    TSV文件和CSV的文件的区别是:前者使用\t作为分隔符,后者使用,作为分隔符。

    使用pandas读取tsv文件的代码如下:

    train=pd.read_csv('test.tsv', sep='\t')

    如果已有表头,则可使用header参数:

    train=pd.read_csv('test.tsv', sep='\t', header=0)

    如果已有主键列:

    train=pd.read_csv('test.tsv', sep='\t', header=0, index_col='id')

    原文地址

    更多相关内容
  • Pandas读取tsv文件

    2018-07-19 21:04:00
    使用pandas读取tsv文件的代码如下: train=pd.read_csv('test.tsv', sep='\t') 1 如果已有表头,则可使用header参数: train=pd.read_csv('test.tsv', sep='\t', header=0) 1 如果已有主键列...

    TSV文件和CSV的文件的区别是:前者使用\t作为分隔符,后者使用,作为分隔符。

    使用pandas读取tsv文件的代码如下:

    train=pd.read_csv('test.tsv', sep='\t')
    • 1

    如果已有表头,则可使用header参数:

    train=pd.read_csv('test.tsv', sep='\t', header=0)
    • 1

    如果已有主键列:

    train=pd.read_csv('test.tsv', sep='\t', header=0, index_col='id')

    转载于:https://www.cnblogs.com/sjy18039225956/p/9338397.html

    展开全文
  • 这篇文章,主要是记录我在使用pandas读取tsv文件时遇到的一个问题。 pandas模块“CParserError: Error tokenizing data. C error: Expected 4 fields in line 1250, saw 5”错误 在网上看了一位大佬的文章,发现他...

    这篇文章,主要是记录我在使用pandas读取tsv文件时遇到的一个问题。

    在这里插入图片描述

    pandas模块“CParserError: Error tokenizing data. C error: Expected 4 fields in line 1250, saw 5”错误

    在网上看了一位大佬的文章,发现他给的解决方案就是修改文件格式。可是根据他的解决方案,并没能解决我的问题。而且这个错误的字面意思,似乎是在tsv文件的1250行只需要4个区域,实际上却有五个。

    于是我便使用execl打开了这个tsv文件。
    在这里插入图片描述
    结果发现在1250行,真的有五个区域。似乎是制表符出现了问题。
    在经过添加制表符,依旧没有任何变化的情况下。
    我选择了最简单的删除大法。

    直接将出现的问题的部分删除即可。

    展开全文
  • 配置好了数据分析的基本环境,以及利用pandas模块读写csv文件,在本文开头,我也补充了csv与tsv的基本介绍与区别,意在更好的让大家理解相关知识点,本文将带大家继续学习文件读取。 点击查看第一篇文章:数据分析 ...

    一、写在前面

    本系列学习笔记参考书籍:  《数据分析实战》托马兹·卓巴斯,会将自己学习本书的笔记分享给大家,同样开成一个系列『数据分析从零开始实战』。

    上一篇文章中带大家了解了数据分析基础,配置好了数据分析的基本环境,以及利用pandas模块读写csv文件,在本文开头,我也补充了csv与tsv的基本介绍与区别,意在更好的让大家理解相关知识点,本文将带大家继续学习文件读取。

    点击查看第一篇文章:数据分析 从零开始到实战,Pandas读写CSV数据

    二、上节补充

    CSV

    逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。

    TSV

    TSV 是Tab-separated values的缩写,即制表符分隔值。 Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。

    delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。
    当`delimiter='\t'`时,被处理文件就是TSV。
    复制代码

    三、基本知识概要

    1.利用pandas读写tsv文件

    2.利用pandas读写json文件

    四、开始动手动脑

    1.利用pandas读写tsv文件

    在文章开头我已经说明了csv与tsv的差别,相信部分看过第一篇文章的读者应该知道怎么处理tsv文件了。

    csv与tsv只是内容的分隔符不一样,前者是,,后者是\t,python读取这两类文件都使用csv模块,也可以直接利用pandas,这里我们讲利用pandas读取方式,使用的函数read_csv()to_csv()在上一篇 文章中有详细介绍,这里我直接上案例代码。

    (1) 读取tsv文件代码

    import pandas as pd
    import os
    
    # 获取当前文件父目录路径
    father_path = os.getcwd()
    
    # 原始数据文件路径
    rpath_tsv = father_path+r'\data01\city_station.tsv'
    # 读取数据
    tsv_read = pd.read_csv(rpath_tsv, sep="\t")
    # 显示数据前10条
    print(tsv_read.head(10))
    复制代码

    运行结果

        站点名 代号
    0  北京北 VAP
    1  北京东 BOP
    2  北京  BJP
    3  北京南 VNP
    4  北京西 BXP
    复制代码

    (2) 写tsv文件代码

    import pandas as pd
    import os
    
    # 获取当前文件父目录路径
    father_path = os.getcwd()
    
    # 保存数据文件路径
    path_tsv = father_path+r'\data01\temp_city.tsv'
    
    data = {"站点名": ["北京北", "北京东", "北京", "北京南", "北京西"],
            "代号": ["VAP", "BOP", "BJP", "VNP", "BXP"]}
    df = pd.DataFrame(data)
    df.to_csv(path_tsv, sep="\t", index=False)
    复制代码

    运行结果

    在这里插入图片描述

    (3)号外加餐

    利用csv模块也可以直接读取csv和tsv文件

    csv.reader(csvfile, dialect='excel', **fmtparams)
    csv.writer(csvfile, dialect='excel', **fmtparams)
    复制代码
    • csvfile,必须是支持迭代(Iterator)的对象,可以是文件(file)对象或者列表(list)对象,如果是文件对 象,打开时需要加"b"标志参数。
    • qdialect,编码风格,默认为excel的风格,也就是用逗号(,)分隔,dialect方式也支持自定义
    • fmtparam,格式化参数,用来覆盖之前dialect对象指定的编码风格。

    2.利用pandas读写json文件

    (1)利用pandas读取json文件

    import pandas as pd
    import os
    
    # 获取当前文件父目录路径
    father_path = os.getcwd()
    # 原始数据文件路径
    rpath_json = father_path+r'\data01\realEstate_trans.json'
    json_read = pd.read_json(rpath_json)
    
    # 输出头10行记录
    print(json_read.head(10))
    复制代码

    运行结果

    在这里插入图片描述

    函数解析

    read_json(path_or_buf,orient,encoding,numpy)

    常见参数解析:

    • path_or_buf:字符串,表示文件路径;
    • orient:指示预期的JSON字符串格式。可以to_json()使用相应的方向值生成兼容的JSON字符串。一组可能的方向是:
    'split' : dict like {index -> [index], columns -> [columns], data -> [values]}
    'records' : list like [{column -> value}, ... , {column -> value}]
    'index' : dict like {index -> {column -> value}}
    'columns' : dict like {column -> {index -> value}}
    'values' : just the values array
    复制代码
    • encoding:字符串,默认为'utf-8';
    • numpy:布尔值,默认为False,直接解码为numpy数组。仅支持数字数据,但支持非数字列和索引标签。另请注意,如果numpy = True,则每个术语的JSON顺序必须相同。

    (2)利用pandas写入json文件

    import pandas as pd
    import os
    
    # 获取当前文件父目录路径
    father_path = os.getcwd()
    # 存储数据文件路径
    wpath_json = father_path+r'\data01\temp_trans.json'
    data = [{"city": "SACRAMENTO", "longitude": -121.434879, "street": "3526 HIGH ST", "sq__ft": 836, "latitude": 38.631913, "sale_date": "Wed May 21 00:00:00 EDT 2008", "zip": 95838, "beds": 2, "type": "Residential", "state": "CA", "baths": 1, "price": 59222}, {"city": "SACRAMENTO", "longitude": -121.431028, "street": "51 OMAHA CT", "sq__ft": 1167, "latitude": 38.478902, "sale_date": "Wed May 21 00:00:00 EDT 2008", "zip": 95823, "beds": 3, "type": "Residential", "state": "CA", "baths": 1, "price": 68212}, {"city": "SACRAMENTO", "longitude": -121.443839, "street": "2796 BRANCH ST", "sq__ft": 796, "latitude": 38.618305, "sale_date": "Wed May 21 00:00:00 EDT 2008", "zip": 95815, "beds": 2, "type": "Residential", "state": "CA", "baths": 1, "price": 68880}]
    df = pd.DataFrame(data)
    df.to_json(wpath_json)
    复制代码

    运行结果

    函数解析

    to_json(path_or_buf,orient,encoding,index)

    • 前三个参数和read_json()里的一样
    • index:False则选择不写入索引,默认为True。

    【注】利用json模版的loads()与dumps()方法也可以实现json文件的读写。

    五、送你的话

    我始终觉得,要想学好一门语言,底层是最主要的,所以不要觉得入门的这些基本东西太简单,学好基础,才能成大牛python入门到进阶,爬虫数据分析全套资料分享讲解 

    展开全文
  • pandas读取文件时默认把文件第一行当作列名,但是当文件第一行是有效数据时,不想将第一行作为列名,以下方式可以取消: 给 pands.read_csv() 加上 header=None 参数 例如: data = pandas.read_csv("data/TRAIN.tsv...
  • pandas读取tsv文件(GB)方法

    千次阅读 2020-09-08 21:04:41
    使用pandas读取tsv文件的代码如下: train=pd.read_csv('test.tsv', sep='\t') 如果已有表头,则可使用header参数: train=pd.read_csv('test.tsv', sep='\t', header=0) 如果已有主键列: train=pd.read_csv('...
  • pandas读取文件tsv方法

    千次阅读 2022-01-06 16:52:09
    import pandas as pd df = pd.read_csv("test.tsv", dilimiter = '\t') ...tsv文件与csv文件的区别为前者是以\t为分隔符,后者是以,为分隔符,所以读取tsv文件时,只需要把分隔符dilimiter设置为\t即可
  • 可以直接用pandas 的read_csv函数: 问题代码: data = pd.read_csv(‘dataset.tsv’, sep = ‘\t’) 修改后代码: data = pd.read_csv(‘dataset....header = None为处理首行, sep = '\t’为tsv文件分隔符形式 ...
  • 03_Pandas读取csv/tsv文件(read_csv,read_table) 要将csv和tsv文件读取为pandas.DataFrame格式,可以使用Pandas的函数read_csv()或read_table()。 在此 read_csv()和read_table()之间的区别 读取没有...
  • 在加载tsv格式的文件的时候,报错 ParserError: Error tokenizing data. C error: Expected 2 fields in line 43043, saw 3 train=pd.read_csv("../input/TrainData.tsv",sep="\t",delimiter="\t") 后面检查...
  • TSV文件和CSV的文件的区别是:前者使用\t作为...使用pandas读取tsv文件的代码如下: train=pd.read_csv('test.tsv', sep='\t') 1 如果已有表头,则可使用header参数: train=pd.read_csv('test.tsv', sep='\t'...
  • Python学习——Pandastsv、csv转为xlsx1.tsv与csv数据格式2.格式转换代码 1.tsv与csv数据格式 tsv与csv数据格式不同之处...microwave=pd.read_csv('data_Du/microwave.tsv', sep='\t')#读取tsv数据 microwave.to_exce
  • Python读取tsv文件

    千次阅读 2022-03-27 15:34:47
    import pandas as pd df=pd.read_csv('D:/QQ/chipotle.tsv',sep='\t') df
  • pandas-读取csv,tsv,txt,文件

    千次阅读 2018-12-13 19:59:32
    import pandas as pd #读取CSV文件 # student1 = pd.read_csv('C:/Users/zuxia/Downloads/022/...#pandas读取tsv和txt文件都用read_csv()方法读取,然后设置set参数的形式 student2 = pd.read_csv('C:/Users/zuxia...
  • 如何使用python快速读取tsv文件

    千次阅读 2021-11-22 15:09:48
    import pandas as pd data = pd.read_csv('products.tsv', sep='\t') data 如果对tsv文件不太习惯,可以将读取了的文件保存为csv格式 data.to_csv('test.csv')
  • python读写csv或tsv文件的几种方法

    千次阅读 2021-06-08 14:59:27
    可以直接将处理csv文件的方法应用于tsv。因为两种文件的唯一区别在于分隔符,csv是逗号,tsv是制表符。 说明:将以下代码中的delimiter,sep参数去掉,即可用于处理 csv 文件,逗号是默认分隔符。 写文件 使用 csv ...
  • 使用pandas读取csv文件的指定列方法

    千次阅读 2021-04-26 17:45:50
    根据教程实现了读取csv文件前面的几行数据,一下就想到了是不是可以实现前面几列的数据。经过多番尝试总算试出来了一种方法。之所以想实现读取前面的几列是因为我手头的一个csv文件恰好有后面几列没有可用数据,但是...
  • 【python】用csv包读取tsv文件

    千次阅读 2018-12-22 15:34:13
    但最近自己有个需求,需要读取tsv文件,为此百度了下,发现网上并没有用python基础包直接读入tsv文件的方法,但是可以安装Pandas模块用来读取tsv格式文件。但是csv与tsv在本质上并没有区别,为嘛为了tsv要安装个...
  • 1、csv文件和excel文件: csv文件是纯文本文件,excel不是纯文本,excel包含很多格式化信息;...2、pandas实现数据的读取和变成csv文件文件打包成df文件 df.to_csv将其变成csv文件 pd.r...
  • 我们在读取csv文件的时候,有的时候可能没有表头,或者想换一个表头,该怎么操作? df = pd.read_csv('data.csv', sep='\t',header=None, names=['var_code','var_name','var_desc'])```
  • 一、pandas_csv读取中文乱码 在使用pandas的read_csv的时候,报错,如下,显示读取中文乱码 UnicodeDecodeEror: 'utf-8’codec can’t decode bytes in position 31-32: invalid continuation byte 是因为文件的编码...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,078
精华内容 431
关键字:

pandas读取tsv文件