精华内容
下载资源
问答
  • python去重函数是什么

    2021-02-04 03:11:59
    数据去重可以使用duplicated()和drop_duplicates()两个方法。DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重复行参数:subset:列标签或标签序列,可选仅考虑用于标识重复项的某些...

    1fd9923ab943a83df3860e2aa3cd7028.png

    数据去重可以使用duplicated()和drop_duplicates()两个方法。

    DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重复行

    参数:

    subset:列标签或标签序列,可选

    仅考虑用于标识重复项的某些列,默认情况下使用所有列

    keep:{‘first’,‘last’,False},默认’first’

    first:标记重复,True除了第一次出现。

    last:标记重复,True除了最后一次出现。

    错误:将所有重复项标记为True。

    相关推荐:《Python基础教程》import numpy as np

    import pandas as pd

    from pandas import Series, DataFrame

    df = pd.read_csv('./demo_duplicate.csv')

    print(df)

    print(df['Seqno'].unique()) # [0. 1.]

    # 使用duplicated 查看重复值

    # 参数 keep 可以标记重复值 {'first','last',False}

    print(df['Seqno'].duplicated())

    '''

    0 False

    1 True

    2 True

    3 True

    4 False

    Name: Seqno, dtype: bool

    '''

    # 删除 series 重复数据

    print(df['Seqno'].drop_duplicates())

    '''

    0 0.0

    4 1.0

    Name: Seqno, dtype: float64

    '''

    # 删除 dataframe 重复数据

    print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来去重

    '''

    Price Seqno Symbol time

    0 1623.0 0.0 APPL 1473411962

    4 1649.0 1.0 APPL 1473411963

    '''

    # drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False

    print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个

    '''

    Price Seqno Symbol time

    3 1623.0 0.0 APPL 1473411963

    4 1649.0 1.0 APPL 1473411963

    '''

    展开全文
  • python 去重函数--drop_dumlicate()

    千次阅读 2019-07-18 11:51:32
    drop_duplicate(subset,keep,inplace) #去重函数 subset:子列名 keep:保留第一列或最后一列,first/last inplace:是否在本数据集修改 示例: df.drop(subset=['item_id','buyer_admin_id'],keep='first') #item_...
    drop_duplicate(subset,keep,inplace)    #去重函数
    subset:子列名
    keep:保留第一列或最后一列,first/last
    inplace:是否在本数据集修改

    示例:

    df.drop(subset=['item_id','buyer_admin_id'],keep='first')
    
    #item_id和buyer_admin_id,单看这两列,如果两列元素一样的化就相当于重复(其他列不必看),重复了就要去掉
    #keep参数保证保留的是第一次重复的列还是最后一次重复的列

     

    展开全文
  • 今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数 先看一个小例子 from pandas import Series, DataFrame data = DataFrame({'k': [1, 1, 2, 2]}) print data IsDuplicated = data.duplicated() ...
  • Python去重操作及相关函数

    千次阅读 2020-03-02 16:17:19
    3) L2 = list(L1) L3 = [] for i in L2: if i not in L3: L3.append(i) print(L3) 结果为: [1, 2, 3] 以下来自博客:Python 二维数组元素去重 np.unique()函数的使用 import numpy as np # 4.2.1 一维数组去重 a =...

    栗子1:利用 set

    L1 = (1, 1, 2, 2, 3, 3)
    print(set(L1))
    

    结果为: {1, 2, 3}

    知识点拓展:集合元素的访问

    集合元素可以通过转化为列表来进行访问,对于集合,存在交集、并集、差集等等很多操作。

    L1 = {1, 2, 5}
    L2 = list(L1)[1]
    print(L2)
    

    栗子2:利用 np.unique

    import numpy as np
    L1 = (1, 1, 2, 2, 3, 3)
    print(np.unique(L1))
    

    结果为: [1 2 3]


    栗子3:利用循环

    import numpy as np
    L1 = (1, 1, 2, 2, 3, 3)
    L2 = list(L1)
    L3 = []
    
    for i in L2:
        if i not in L3:
            L3.append(i)
    print(L3)
    

    结果为: [1, 2, 3]


    以下来自博客:Python 二维数组元素去重 np.unique()函数的使用

    import numpy as np
    
    # 4.2.1 一维数组去重
    a = np.array([1, 2, 3, 4, 5, 5, 7, 3, 2, 2, 8, 8])
    print('去重前:', a)  # 去重前: [1 2 3 4 5 5 7 3 2 2 8 8]
    b = np.unique(a)
    print('去重后:', b)  # 去重后: [1 2 3 4 5 7 8]
    
    # 4.2.2 二维数组去重
    c = np.array(((1, 2), (3, 4), (5, 6), (1, 3), (3, 4), (7, 6)))
    print('去重前:', c)
    # 方法一:利用set,set是无序不重复集合(推荐)
    s = set() #创建空集合
    for t in c:
        s.add(tuple(t)) #将数组转为元祖tuple,保证不被修改;再把元祖加入到集合中,完成去重
    g = np.array(list(s)) # 将集合转换为列表,最后转为二维数组
    print('去重后:', g)
    # 合起来写
    print('方法一去重后:', np.array(list(set(tuple(t) for t in c))))
    # 方法二:转换为虚数
    r, i = np.split(c, (1, ), axis=1)
    print(r)
    print(i)
    x = r + i * 1j
    # x = c[:, 0] + c[:, 1] * 1j
    print('转换成虚数:', x)  # 变成一维数组,可使用np.unique()
    print('虚数去重后:', np.unique(x))
    print(np.unique(x, return_index=True, return_counts=True))
    # return_index=True表示返回另一个参数,这个参数也是一个数组,
    # array([0, 3, 1, 2, 5]表示去重后的每个元素在去重前的数组中的位置/下标
    # return_counts=True表示返回各元素出现的频次
    idx = np.unique(x, return_index=True)[1]
    # 第[1]列的数组正是return_index=True返回的内容:在c中的位置/下标
    print('二维数组去重:\n', c[idx]) #提取这些下标所在的元素
    

    字符串去重: python中join函数

    展开全文
  • 数据去重可以使用duplicated()和drop_duplicates()两个方法。DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重复行参数:subset:列标签或标签序列,可选仅考虑用于标识重复项的某些...
    4e511ccf350b6af46b4a2519953b9643.png

    数据去重可以使用duplicated()和drop_duplicates()两个方法。

    DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重复行

    参数:

    subset:列标签或标签序列,可选

    仅考虑用于标识重复项的某些列,默认情况下使用所有列

    keep:{‘first’,‘last’,False},默认’first’

    first:标记重复,True除了第一次出现。

    last:标记重复,True除了最后一次出现。

    错误:将所有重复项标记为True。

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    20

    21

    22

    23

    24

    25

    26

    27

    28

    29

    30

    31

    32

    33

    34

    35

    36

    37

    38

    import numpy as np

    import pandas as pd

    from pandas import Series, DataFrame

    df = pd.read_csv('./demo_duplicate.csv')

    print(df)

    print(df['Seqno'].unique()) # [0. 1.]

    # 使用duplicated 查看重复值

    # 参数 keep 可以标记重复值 {'first','last',False}

    print(df['Seqno'].duplicated())

    '''

    0 False

    1 True

    2 True

    3 True

    4 False

    Name: Seqno, dtype: bool

    '''

    # 删除 series 重复数据

    print(df['Seqno'].drop_duplicates())

    '''

    0 0.0

    4 1.0

    Name: Seqno, dtype: float64

    '''

    # 删除 dataframe 重复数据

    print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来去重

    '''

    Price Seqno Symbol time

    0 1623.0 0.0 APPL 1473411962

    4 1649.0 1.0 APPL 1473411963

    '''

    # drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False

    print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个

    '''

    Price Seqno Symbol time

    3 1623.0 0.0 APPL 1473411963

    4 1649.0 1.0 APPL 1473411963

    '''

    以上就是python去重函数是什么的详细内容

    展开全文
  • a = ['lisan','lisi','wangwu','wangqi','lisi']>>> aset = set(a)>>> aset{'lisi', 'lisan', 'wangqi', 'wangwu'}>>> #经过set()函数处理就可以将重复的元素剔除,set()是python特有的用来处理集合问题的函数022、...
  • Python字符串操作常用函数,包含了检索、统计、分割、替换、大小写转换、对齐,空格删除、字符串判断(头尾+组成)
  • Python列表去重

    2020-11-26 09:05:41
    ?请定义函数,将列表[10, 1, 2, 20, 10, 3, 2, 1, 15, 20, 44, 56, 3, 2.../usr/bin/python3# -*- coding:utf-8 -*-# @Time:2019/12/2 06:00# @微信公众号:ITester软件测试小栈# @Author:coco# @Python交流群:604469...
  • /usr/bin/python #-*- coding:utf-8 -*- import time import random l1 = [] leng = 10L for i in range(0,leng): temp = random.randint(1,10) l1.append(temp) print '测试列表长度为:',leng #first set last =...
  • 今天主要介绍set()这个函数。 set()函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、...使用函数也能实现以上需求,但代码量和执行效率来说,当然是使用python自带函数了。 ...
  • 今天笔者想对pandas中的行进行去重操作,找了好久,才找打相关的函数先看一个小例子from pandas import Series, DataFramedata = DataFrame({'k': [1, 1, 2, 2]})print dataIsDuplicated = data.duplicated()print ...
  • python去重算法

    2020-11-20 22:42:57
    解法一:python的内置特性利用python set数据结构的不重复行,转换为set,然后再转为list,一行代码搞定defuniqlist01(data=none):returnlist(set(data))解法二:遍历搜索去重添加 创建一个新列表,遍历旧的列表,先...
  • 原博文2019-06-26 22:42 −最近面试中出现频率比较高的字符串和列表的去重pstr = 'abcadcf'# 字符串去重# 1、使用集合 --没有保持原来的顺序 print(set(pstr)) # 2、使用字典 -- 没有保持原来的顺序 print({}....
  • python 列表函数

    2020-11-20 22:43:45
    list函数:功能:将字符创转化为列表,例:列表基本函数:1.元素赋值,例:注意:通过list[0]= 'hel',如果原来位置上有值,会覆盖掉原来的。2.分片操作1)显示序列,例:注意:(1)list1[beg:end]将显示列表的从...
  • 您可能感兴趣的文章:Python3删除排序数组中重复项的方法分析Python实现删除排序数组中重复项的两种方法示例python中对list去重的多种方法Python对列表去重的多种方法(四种方法)Python对字符串实现去重
  • python pandas dataframe 的去重函数

    千次阅读 2018-07-26 14:33:44
    转载请声明出处: https://blog.csdn.net/cyzhah/article/details/81219501     以上两个截图是对下面两个运行结果...例如,希望对名字为k2的列进行去重, data.drop_duplicates(['k2'])  
  • Python列表去重的几种方法

    万次阅读 多人点赞 2018-04-07 19:12:48
    工作中,面试中经常会碰到列表去重的问题,有必要总结下:方法一: 使用内置set方法来去重>>> lst1 = [2, 1, 3, 4, 1] >>> lst2 = list(set(lst1)) >>&...
  • 我们在用EXCEL办公的时候,经常会遇到去重和排序的问题,其实无论用哪个软件都经常会遇到去重和排序问题,那么你知道用Python如何实现对字符串的去重排序吗?往下看,就是这么简单!案例s = "ajldjlajfdljfddd",...
  • Python常用的几种去重方式

    万次阅读 多人点赞 2018-08-24 16:53:33
    由于Python去重方式比较多,本人在项目中总结了几种常用方法,欢迎补充。 一、对列表去重 1.用循环查找的方式 li = [1,2,3,3,4,2,3,4,5,6,1] news_li = [] for i in li:  if i not in news_li:  news_li....

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 29,630
精华内容 11,852
关键字:

python去重函数

python 订阅