精华内容
下载资源
问答
  • 现在需要根据A列的数据,汇总A列去重并输出重复次数最多的100行(N行) 原始表类似于这样: A B C FFFEFFFEFFF 71956 1 FFFF7FFF7FF 28994 2 DFF4DFF4DFF 68109 3 1FF807F800...

    今天在工作中遇到一个需求:有一个ABC三列的表,其中A列数据大量重复,且BC列不同。现在需要根据A列的数据,汇总A列去重并输出重复次数最多的100行(N行)

    原始表类似于这样:

    AB
    FFFEFFFEFFF719561
    FFFF7FFF7FF289942
    DFF4DFF4DFF681093
    1FF807F8000631254
    3FFF7FFF7FF270845
    FFFFFFFFFAF900166
    FFBFFFBF078982197
    1FF03EE33FF236298
    CFC0F8FAFCF729869
    8FFFF1F1F1E3326310
    FFFFFFFFFFF9411611

     

    如果用excel,解决办法就是做一个透视表,求出A列各项目重复数据次数,然后在vlookup求出各BC列的值即可

    但是如果元数据超过了1万行,电脑会卡死的。

    现在通过Python即可30秒求出100万行,A列的计数项:

    解决思路

    1、先导入文件  

    pd.read_csv  ,设置表头names,设置分割符号:sep,设置标题行:skiprows

    2、求助A列数据的各项目重复次数

    loc=da['A'].value_counts()

    3、取出前1000行

    loc=loc[:N].keys()#前置前N行,加上key是表示只取值,取出A列的那个数据,不加key()就是输出A列数据+重复次数

    4、取出数据,并根据A列去重

    C=da.loc[da['A'].isin(loc)]#限制A列在 loc的值内
    
    C=C.drop_duplicates(['A'])#根据A列去重

    5、保存

    C.to_csv("22.csv",encoding='utf-8')

    不知道这些思路是否对你有帮助,完整代码可见:

    http://bbs.bigdata.zhaotongzhuo.cn/?p=20

    展开全文
  • 需求:计算每个单词出现次数 原始数据 zhangsan,lisi,wangwu zhaoliu,maqi zhangsan,zhaoliu,wangwu lisi,wangwu 期望的最终 zhangsan 2 lisi 2 wangwu 3 zhaoliu 2 maqi 1 偏移量 每个字符移动到当前文档的最前面...

    MapReduce框架处理数据的基本流程
    在这里插入图片描述

    WordCount计算

    需求:计算每个单词出现的次数

    原始数据
    zhangsan,lisi,wangwu
    zhaoliu,maqi
    zhangsan,zhaoliu,wangwu
    lisi,wangwu

    期望的最终
    zhangsan 2
    lisi 2
    wangwu 3
    zhaoliu 2
    maqi 1

    偏移量

    每个字符移动到当前文档的最前面需要移动的字符个数。

    hadoop数据类型

    java : int long double float boolean string
    hadoop : IntWritable LongWritable DoubleWritable FloatWritable BooleanWritable Text

    WordCount-Map实现

    1、实例一个class 继承Mapper<输入的key的数据类型,输入的value的数据类型,输出的key的数据类型,输出的
    value的数据类型,>

    2、重写map方法 map(LongWritable key, Text value, Context context)
    key: 行首字母的偏移量
    value: 一行数据
    context:上下文对象

    3、根据业务需求进行切分,然后逐一输出

    WordCount-Reduce实现

    1、实例一个class 继承Reducer<输入的key的数据类型,输入的value的数据类型,输出的key的数据类型,输出的
    value的数据类型,>

    2、重写reduce方法 reduce(Text key, Iterable values, Context context)
    key: 去重后单词
    values: 标记的1(好多个1,key出现几次就有几个1)
    context:上下文对象

    3、遍历values 进行汇总计算

    WordCount-Driver实现

    1、实例一个class 继承Configured 实现Tool

    2、重写run方法

    3、在run方法中将自己编写的map和reduce添加到集群

      public class TotalSumRun extends Configured implements Tool {
        @Override
        public int run(String[] strings) throws Exception {
            //实例一个job
            Job job=Job.getInstance(new Configuration());
            //设置读取数据的class
            job.setInputFormatClass(TextInputFormat.class);
            //设置读取数据的路径
            TextInputFormat.addInputPath(job,new Path("F:\\SumData.txt"));
            //设置Map
            job.setMapperClass(TotalSumMap.class);
            //设置Map的输出类型
            job.setMapOutputKeyClass(NullWritable.class);
            job.setMapOutputValueClass(LongWritable.class);
            //设置reduce代码
            job.setReducerClass(TotalSumReduce.class);
            //设置reduce的输出类型
            job.setOutputKeyClass(NullWritable.class);
            job.setOutputValueClass(LongWritable.class);
            //设置输出的数据class
            job.setOutputFormatClass(TextOutputFormat.class);
            //获取HDFS文件
            //FileSystem fileSystem = FileSystem.get(new URI("hdfs://192.168.100.201:8020"), new Configuration());
            //获取本地文件
            LocalFileSystem local = FileSystem.getLocal(new Configuration());
            if (local.exists(new Path("F:\\ddd"))){
                local.delete(new Path("F:\\ddd"));
            }
            //设置输出的数据路径
            TextOutputFormat.setOutputPath(job,new Path("F:\\ddd"));
            //等待代码执行(返回状态码)
            return   job.waitForCompletion(true)?0:1;
        }
    
        public static void main(String[] args) throws Exception {
            ToolRunner.run(new TotalSumRun(),args);
        }
        }
    
    展开全文
  • 统计数据出现次数(count)

    千次阅读 2018-05-30 23:49:54
    统计数据出现次数(count) 描述 某次科研调查时得到了n个自然数,每个数均不超过1500000000(1.5*109)。已知不相同的数不超过10000个,现在需要统计这些自然数各自出现的次数,并按照自然数从小到大的顺序输出...
    题号: 10283
    时限:1000ms
    限制内存:32768KB
    题目:
    统计数据出现次数(count)
    
    
    描述
    
    某次科研调查时得到了n个自然数,每个数均不超过15000000001.5*109)。已知不相同的数不超过10000个,现在需要统计这些自然数各自出现的次数,并按照自然数从小到大的顺序输出统计结果。
    
    40%的数据满足:1<=n<=1000
     80%的数据满足:1<=n<=50000
     100%的数据满足:1<=n<=200000,每个数均不超过1500 000 0001.5*109)
    
    
    
    输入格式
    
    第一行是整数n,表示自然数的个数;
    第2~n+1每行一个自然数。
    输出格式
    
    输出包含m行(mn个自然数中不相同数的个数),按照自然数从小到大的顺序输出。每行输出两个整数,分别是自然数和该数出现的次数,其间用一个空格隔开。
    输入样例
    
    8
    2
    4
    2
    4
    5
    100
    2
    100
    输出样例
    
    2 3
    4 2
    5 1
    100 2
    #include<iostream>
    #include<map>
    using namespace std;
    int main(){
        int n,num;
        cin>>n;
        map<int,int> mmp;//集合不重复 
        for(int i=0;i<n;++i)
        {
            cin>>num;
            mmp[num]++; //key=num,value=mmp[num]++
        }
        //默认增续序 
        for(map<int,int>::iterator it=mmp.begin();it!=mmp.end();++it)  
        cout<<it->first<<" "<<it->second<<endl;
        return 0;
    }
    展开全文
  • pandas统计csv中相同数据出现次数

    千次阅读 2020-04-30 20:53:23
    在处理csv数据的过程中可能会遇到统计重复数据的情况,笔者以自己遇到...目的是计算其中每条数据出现次数,代码如下: import pandas as pd csv = pd.read_csv('../data/all_CE.csv') counted = csv.groupby(['c...

    在处理csv数据的过程中可能会遇到统计重复数据的情况,笔者以自己遇到的问题为例,给出一个可以解决此问题的方法。
    进行操作的csv文件中含有1700多条数据,其中局部如下图所示:
    在这里插入图片描述
    目的是计算其中每条数据出现的次数,代码如下:

    import pandas as pd
    
    
    csv = pd.read_csv('../data/all_CE.csv')
    counted = csv.groupby(['causes', 'effects']).size()
    counted.to_csv("../data/test.csv")	#存入目的地址文件
    

    首先读取csv文件,再对读取数据使用pandas中的数据内部分组函数groupby(),参数为列名或列名的组合,最后通过size()函数得到结果。如果读者有更好的方法,希望可以与笔者进行交流。

    展开全文
  • oracle查询重复数据出现次数

    千次阅读 2018-10-19 16:59:00
     我在Oracle数据库查数据,发现重复数据,于是我想把重复条数以及具体数据查出来:  下面是数据    然后我需要知道重复多少条 (重复十条,也就是有五条数据相同)  SQL: select COUNT(*) from acsprd....
  • 求出集合中每条数据出现次数

    千次阅读 2020-09-27 19:27:19
    计算集合中出现数据次数: public static void main(String[] args) { List<Integer> list = new ArrayList<Integer>();//新建一个集合 list.add(1); list.add(2); list.add(2); list.add(5); ...
  • 主要给大家介绍了关于Python读取Excel一列并计算所有对象出现次数的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  • SQL查询重复数据出现次数

    千次阅读 2020-05-19 14:50:18
    /** * 查询重复数据; * 以下图为例:KEYS-001的数据数据表中重复出现了两次; */ SELECT KEYS , COUNT(1) FROM [TLADDING] GROUP BY [KEYS] HAVING COUNT([KEYS]) > 1
  • 计算数组中某一数字出现次数

    千次阅读 2019-08-26 12:00:29
    一、思路 这个比较简单,思路其实就是遍历数组中所有的数字做一下对比,有的话记录一下即可。.../// 数组比较出现次数(int) /// </summary> /// <param name="arr"></param> /...
  • MySQL统计表的某一列中出现过的所有数据以及该数据出现次数 用于实现需要进行数据统计的接口,统计出的数据可以用来生成图表 需求:对薪资进行统计,统计每种薪资出现的次数。 SQL: SELECT pay,COUNT(*) FROM ...
  • python计算数组元素出现次数

    千次阅读 2020-07-14 13:50:48
    有时候有些业务场景需要计算数组中元素出现的次数,或者找出出现次数最多的三个元素,怎么实现呢?python的collections模块中Counter类就能很好解决这些问题,Counter类中的most_common()方法就能计算元素出现最多...
  • 出现次数小于三次的都算作其他 然后画饼图,但出来的结果很奇怪,莫名其妙多一条线 ![实际结果](https://img-ask.csdn.net/upload/202003/23/1584959879_149708.png) 求大神指导下怎么去掉这条线? 网上还看到...
  • stream 计算字符出现次数

    千次阅读 2018-03-17 17:13:21
    第一种方式:import org.apache.commons.lang.StringUtils;int is = StringUtils.countMatches("Hello my is Joeseph. It is very nice to meet you. What a wonderful day it is!", "...
  • 题目描述 《铃儿响叮当》是一首...在整首歌词中,jingle出现多次,请编写程序,统计给定一段的jingle的数量(不分大小写)。 输入 输入为多行数据,代表歌词的一段 输出 输出该段歌词中jingle的数量 样例输...
  • Python3 Counter类计算list中元素出现次数
  • 最近也遇到了查询集合中出现重复数据,并且要知道出现重复数据次数,所以就记录一下,代码是一个方法,直接传入集合就可以进行测试: /** * 查询list集合中出现重复的数据次数 */ private void RepeatDate...
  • 打开需要统计数据的Excel表格。 点开菜单栏的“插入”;再点击一下“数据透视表”。 操作完上一步后,可以看到“请选择单元格区域”下有一个闪动的光标;...在新的工作表的右侧出现数据透视表相
  • mysql 统计某一列数据出现次数

    万次阅读 2019-09-19 14:38:16
    SELECT user_phone, count( * ) AS COUNT FROM customer GROUP BY user_phone ORDER BY COUNT DESC
  • 编写程序,读取1到100之间的整数,然后计算每个数出现次数。假定输入0表示结束。 import java.util.Scanner; public class T2 { // TODO Auto-generated method stub public static void main(String[] args...
  • MapReduce计算每个单词出现次数

    万次阅读 2019-11-13 08:50:32
    文章目录准备工作WordCount计算原始数据期望的结果偏移量WordCount-Map实现WordCount-Reduce实现WordCount-Driver实现最终结果 准备工作 pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns...
  • *读入一个16位的长整型,利用switch语句计算0—9这十个数字中,每个字出现次数 **/ import java.util.Scanner; class number{ public static void main(String args[]){ Scanner s=new Scanner(System.in); ...
  • Excel用公式找出出现次数最多的数据

    千次阅读 2014-01-10 12:24:26
    数据源描述,在A列有1000行数据数据有很多重复项,需要找出A列中重复出现次数最多的数据,使用以下公式=INDEX($A:$A,MODE(MATCH($A$1:$A$1000,$A$1:$A$1000,0)))MATCH是找出每个数据第一次出现的行数...
  • 统计列表中所有数据出现次数 ' lists = ['A','C','Z','D','C','C','A','B','A','B','B',2,'3',1,3] def countchar(var):  #设置用于存储字符和次数的字典  result = {}  #遍历容器中的所有数据...
  • javascript计算数组中某值的出现次数

    万次阅读 2018-01-30 17:41:36
    返回一个数组某值出现次数 输入:一个数组 输出:需要计数的元素 代码 /* 传入一个数组 返回一个数组某值出现次数 */ const countOccurences = (arr, value) => arr.reduce((a, v) => v === value ? a +...
  • 本文演示如何使用Collections.frequency和Map来计算重复项出现次数。(Collections.frequency在JDK 1.5版本以后支持) package com.qiyadeng.core; import java.util.ArrayList; import java.util.Collections; ...
  • mysql中,我们可以用distinct求不重复的数据有多少,也可以用group by。 这里有个例子,如下表sheet1,共有5411条数据 查询语句 ... 共有3446条不重复数据,每条不重复数据出现次数在第二列显示:
  • dax 计算某一列重复出现次数

    千次阅读 2018-09-21 15:05:00
    关键字数 = VAR KeyWord = "jpg" VAR TextLine = [内容] -- 执行: VAR KeyWordLen = LEN( KeyWord ) VAR Positions = GENERATESERIES( 1 , LEN( TextLine ) , 1 ) VAR Result = ADDCOLUMNS( Positions , "Is...
  • 字典计算列表中的数字出现次数

    千次阅读 2018-08-10 17:35:43
    a = [1, 2, 3, 1, 1, 3, 6, 9, 6, 9, 9, 1, 2, 2, 2, 6, 6, 6] b = {} for j in c: if j in b.keys(): b[j] = b[j] + 1 else: b[j] = 1 for k in b.keys(): print(“值”, k, "&", “出现次数”, b[k])

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 361,983
精华内容 144,793
关键字:

如何计算数据出现的次数