精华内容
下载资源
问答
  • 对数据进行分类和汇总
    千次阅读
    2021-02-03 23:33:31

    对于pandas,这似乎是一个非常好的工作:from __future__ import print_function

    import pandas as pd

    import numpy as np

    raw_data = [['OCT 27, 2015',2,4,6,8],['NOV 03, 2015',1,5,9,2],['NOV 05, 2015',2,4,6,8]]

    pandas_data = pd.DataFrame(raw_data, columns=['Date', 'A', 'B', 'C', 'D'])

    pandas_data["Date"] = pd.to_datetime(pandas_data["Date"])

    print(pandas_data)

    print(pandas_data.mean())

    输出:

    ^{pr2}$

    这为我们提供了所有列的汇总统计信息,但对于一周中的特定日期,我将执行以下操作(按照上面的代码):pandas_data["Day of the Week"] = pandas_data["Date"].dt.dayofweek

    grouped_data = pandas_data.groupby('Day of the Week').aggregate(np.mean)

    print(grouped_data)

    输出:A B C D

    Day of the Week

    1 1.5 4.5 7.5 5

    3 2.0 4.0 6.0 8

    pandas'星期一的惯例是星期一=0,星期日=6

    pandas'groupby函数按照tin上的说明进行操作:它根据一些标准对数据进行分组,在本例中是“星期几”。然后,aggregate函数在这些组上运行给定的函数并给出结果。在

    更多相关内容
  • Excel中如何对数据进行分类汇总.doc
  • 用SPSS对数据进行分类汇总

    千次阅读 2021-05-11 17:21:21
    在日常办公学习研究中,经常需要对数据进行分类汇总。比如在统计公司员工的工资年龄的时候,要求根据员工的性别求出员工的平均工资平均年龄。就会用到分类汇总的功能,本文我会用IBM SPSS Statistics进行数据...

    在日常办公和学习研究中,经常需要对数据进行分类汇总。比如在统计公司员工的工资和年龄的时候,要求根据员工的性别求出员工的平均工资和平均年龄。就会用到分类汇总的功能,本文我会用IBM SPSS Statistics进行数据的分类汇总的演示。

    1、数据展示

    如图所示,是一个公司的员工信息数据集。我将在此基础上,展示如何用IBM SPSS Statistics中的分类汇总功能求男女员工的平均工资和平均年龄。

    84bdc3cbda34b425e44a5a63f7f7b1b

    图1:数据界面

    2、菜单位置

    第一步点击菜单栏的“数据”按钮,第二步点击下级菜单的“汇总”选项。

    065fa4396d1618bc577c75eb72c86ac

    图2:菜单位置

    3、选择分界变量和变量摘要

    数据分类汇总的定义是:按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量。根据定义我们不难发现,选择分界变量就是分类的过程,选择变量摘要就是汇总的过程。

    如图所示,我们先选中性别将性别加入到分界变量中,这一步的目的是用性别作为分类标准。然后我们将工资和年龄选中依次加入到变量摘要中,这样我们在接下来的步骤中就可以用函数对工资和年龄进行操作。

    3eb249f87dd0f26540c673fd401933d

    图3:选择分界变量和变量摘要

    4、选择合适的函数

    如图所示,已经将变量加入到相应的位置,我们点击下方的“函数”按钮。

    33f0077f670bf88fce955ed38af895e

    图4:函数

    进入汇总函数界面之后,我们可以根据自己的需要选择函数。

    23ea5bf4225482d4f073dfe151bc1bf

    图5:选择函数

    5、结果展示

    如图所示,这里有三个选项。选择第一个我们会将数据直接生成到原先的数据集中,选择第二个会生成一个新的数据集去存储结果,选择第三个会在指定文件下保存结果。这里我们选择第一个,如果有其他需求可以根据自身情况去选择。

    d0b1088aa36350f5b0b82f71aba00aa

    图6:选择结果生成位置

    如图所示,在原先的数据基础上,已经成功生成了男女员工的平均工资和平均年龄。

    6fde0a8bc1cbd69b0373dde3c69f08a

    图7:结果展示

    数据的分类汇总是常用功能,核心思想就是要选对分界变量和函数。本文只是展示了IBM SPSS中平均值函数,其中还有很多的内置函数,大家可以去中文官网下载正版软件,自己动手尝试。

    展开全文
  • 使用深度学习文本数据进行分类

    千次阅读 2021-04-22 17:57:44
    导入数据导入工厂报告数据。该数据包含已标注的工厂事件文本描述。要将文本数据作为字符串导入,请将文本类型指定为 'string'。filename = "factoryReports.csv";data = readtable(filename,'TextType','string');...

    导入数据

    导入工厂报告数据。该数据包含已标注的工厂事件文本描述。要将文本数据作为字符串导入,请将文本类型指定为 'string'。

    filename = "factoryReports.csv";

    data = readtable(filename,'TextType','string');

    head(data)

    ans=8×5 table

    Description Category Urgency Resolution Cost

    _____________________________________________________________________ ____________________ ________ ____________________ _____

    "Items are occasionally getting stuck in the scanner spools." "Mechanical Failure" "Medium" "Readjust Machine" 45

    "Loud rattling and banging sounds are coming from assembler pistons." "Mechanical Failure" "Medium" "Readjust Machine" 35

    "There are cuts to the power when starting the plant." "Electronic Failure" "High" "Full Replacement" 16200

    "Fried capacitors in the assembler." "Electronic Failure" "High" "Replace Components" 352

    "Mixer tripped the fuses." "Electronic Failure" "Low" "Add to Watch List" 55

    "Burst pipe in the constructing agent is spraying coolant." "Leak" "High" "Replace Components" 371

    "A fuse is blown in the mixer." "Electronic Failure" "Low" "Replace Components" 441

    "Things continue to tumble off of the belt." "Mechanical Failure" "Low" "Readjust Machine" 38

    此示例的目标是按 Category 列中的标签对事件进行分类。要将数据划分到各个类,请将这些标签转换为分类。

    data.Category = categorical(data.Category);

    使用直方图查看数据中类的分布。

    figure

    histogram(data.Category);

    xlabel("Class")

    ylabel("Frequency")

    title("Class Distribution")

    c441367bdc734583435609d948f37e19.png

    下一步是将其划分为训练集和验证集。将数据划分为训练分区和用于验证和测试的保留分区。将保留百分比指定为 20%。

    cvp = cvpartition(data.Category,'Holdout',0.2);

    dataTrain = data(training(cvp),:);

    dataValidation = data(test(cvp),:);

    从分区后的表中提取文本数据和标签。

    textDataTrain = dataTrain.Description;

    textDataValidation = dataValidation.Description;

    YTrain = dataTrain.Category;

    YValidation = dataValidation.Category;

    要检查是否已正确导入数据,请使用文字云将训练文本数据可视化。

    figure

    wordcloud(textDataTrain);

    title("Training Data")

    b85e69a77a37314752093477b4073a7a.png

    预处理文本数据

    创建一个对文本数据进行分词和预处理的函数。在示例末尾列出的函数 preprocessText 执行以下步骤:

    使用 tokenizedDocument 对文本进行分词。

    使用 lower 将文本转换为小写。

    使用 erasePunctuation 删除标点符号。

    使用 preprocessText 函数预处理训练数据和验证数据。

    documentsTrain = preprocessText(textDataTrain);

    documentsValidation = preprocessText(textDataValidation);

    查看前几个预处理的训练文档。

    documentsTrain(1:5)

    ans =

    5×1 tokenizedDocument:

    9 tokens: items are occasionally getting stuck in the scanner spools

    10 tokens: loud rattling and banging sounds are coming from assembler pistons

    10 tokens: there are cuts to the power when starting the plant

    5 tokens: fried capacitors in the assembler

    4 tokens: mixer tripped the fuses

    将文档转换为序列

    要将文档输入到 LSTM 网络中,请使用单词编码将文档转换为数值索引序列。

    要创建单词编码,请使用 wordEncoding 函数。

    enc = wordEncoding(documentsTrain);

    下一个转换步骤是填充和截断文档,使全部文档的长度相同。trainingOptions 函数提供了自动填充和截断输入序列的选项。但是,这些选项不太适合单词向量序列。请改为手动填充和截断序列。如果对单词向量序列进行左填充和截断,训练效果可能会得到改善。

    要填充和截断文档,请先选择目标长度,然后对长于它的文档进行截断,并对短于它的文档进行左填充。为获得最佳结果,目标长度应该较短,但又不至于丢弃大量数据。要找到合适的目标长度,请查看训练文档长度的直方图。

    documentLengths = doclength(documentsTrain);

    figure

    histogram(documentLengths)

    title("Document Lengths")

    xlabel("Length")

    ylabel("Number of Documents")

    aa43d340ee5a6b13a6c02508247ce4a3.png

    大多数训练文档的词数少于 10 个。将此数字用作截断和填充的目标长度。

    使用 doc2sequence 将文档转换为数值索引序列。要对长度为 10 的序列进行截断或左填充,请将 'Length' 选项设置为 10。

    sequenceLength = 10;

    XTrain = doc2sequence(enc,documentsTrain,'Length',sequenceLength);

    XTrain(1:5)

    ans=5×1 cell array

    {1×10 double}

    {1×10 double}

    {1×10 double}

    {1×10 double}

    {1×10 double}

    使用相同选项将验证文档转换为序列。

    XValidation = doc2sequence(enc,documentsValidation,'Length',sequenceLength);

    创建和训练 LSTM 网络

    定义 LSTM 网络架构。要将序列数据输入到网络中,请包含一个序列输入层并将输入大小设置为 1。接下来,包含一个维度为 50 且与单词编码具有相同单词数的单词嵌入层。然后,包含一个 LSTM 层并将隐含单元个数设置为 80。要将该 LSTM 层用于“序列到标签”分类问题,请将输出模式设置为 'last'。最后,添加一个大小与类数相同的全连接层、一个 softmax 层和一个分类层。

    inputSize = 1;

    embeddingDimension = 50;

    numHiddenUnits = 80;

    numWords = enc.NumWords;

    numClasses = numel(categories(YTrain));

    layers = [ ...

    sequenceInputLayer(inputSize)

    wordEmbeddingLayer(embeddingDimension,numWords)

    lstmLayer(numHiddenUnits,'OutputMode','last')

    fullyConnectedLayer(numClasses)

    softmaxLayer

    classificationLayer]

    layers =

    6x1 Layer array with layers:

    1 '' Sequence Input Sequence input with 1 dimensions

    2 '' Word Embedding Layer Word embedding layer with 50 dimensions and 423 unique words

    3 '' LSTM LSTM with 80 hidden units

    4 '' Fully Connected 4 fully connected layer

    5 '' Softmax softmax

    6 '' Classification Output crossentropyex

    指定训练选项

    指定训练选项:

    使用 Adam 求解器进行训练。

    指定小批量大小为 16。

    每轮训练都会打乱数据。

    通过将 'Plots' 选项设置为 'training-progress',监控训练进度。

    使用 'ValidationData' 选项指定验证数据。

    通过将 'Verbose' 选项设置为 false,隐藏详细输出。

    默认情况下,如果有 GPU 可用,trainNetwork 就会使用 GPU(需要 Parallel Computing Toolbox™ 和具有 3.0 或更高计算能力的支持 CUDA® 的 GPU)。否则将使用 CPU。要手动指定执行环境,请使用 trainingOptions 的 'ExecutionEnvironment' 名称-值对组参数。在 CPU 上进行训练所需的时间要明显长于在 GPU 上进行训练所需的时间。

    options = trainingOptions('adam', ...

    'MiniBatchSize',16, ...

    'GradientThreshold',2, ...

    'Shuffle','every-epoch', ...

    'ValidationData',{XValidation,YValidation}, ...

    'Plots','training-progress', ...

    'Verbose',false);

    使用 trainNetwork 函数训练 LSTM 网络。

    net = trainNetwork(XTrain,YTrain,layers,options);

    21611c3ac391f372c3b1f54542db9860.png

    使用新数据进行预测

    对三个新报告的事件类型进行分类。创建包含新报告的字符串数组。

    reportsNew = [ ...

    "Coolant is pooling underneath sorter."

    "Sorter blows fuses at start up."

    "There are some very loud rattling sounds coming from the assembler."];

    使用与预处理训练文档相同的步骤来预处理文本数据。

    documentsNew = preprocessText(reportsNew);

    使用 doc2sequence 将文本数据转换为序列,所用选项与创建训练序列时的选项相同。

    XNew = doc2sequence(enc,documentsNew,'Length',sequenceLength);

    使用经过训练的 LSTM 网络对新序列进行分类。

    labelsNew = classify(net,XNew)

    labelsNew = 3×1 categorical

    Leak

    Electronic Failure

    Mechanical Failure

    预处理函数

    函数 preprocessText 执行以下步骤:

    使用 tokenizedDocument 对文本进行分词。

    使用 lower 将文本转换为小写。

    使用 erasePunctuation 删除标点符号。

    function documents = preprocessText(textData)

    % Tokenize the text.

    documents = tokenizedDocument(textData);

    % Convert to lowercase.

    documents = lower(documents);

    % Erase punctuation.

    documents = erasePunctuation(documents);

    end

    展开全文
  • 数据分类汇总.ipynb

    2021-11-29 13:03:25
    该资源针对基本数据集、交叉数据集、太极数据集、圆环数据集、异或数据集、多分类数据集分别用KNN、贝叶斯、决策树、随机森林、扩展树、Adaboost、梯度boost、Linearsvc、高斯核svc、多项式核svc算法通过图片显示...
  • 在Excel中对数据进行分类汇总的实用方法。
  • 首先,62616964757a686964616fe58685e5aeb931333337626166来看看要进行分类汇总的表格数据,如图1所示。2.先对数据以“产品名称”为关键字进行一次排序,如图2所示,为排序后的效果。3.然后在数据区域选中任何一个...

    展开全部

    1.首先,62616964757a686964616fe58685e5aeb931333337626166来看看要进行分类汇总的表格数据,如图1所示。

    36d55c9d308097fca781cc0b9c39037b.png

    2.先对数据以“产品名称”为关键字进行一次排序,如图2所示,为排序后的效果。

    35a44904ef887cc80ce70b45138bdf6d.png

    3.然后在数据区域选中任何一个单元格,单击“数据”---“分级显示”组中的“分类汇总”,如图3所示。

    64f5505acd1796d4eecaa831f30347f4.png

    4.在弹出的“分类汇总”对话框中,在“分类字段”框中选择进行分类汇总的列标题,选择“产品名称”;在“汇总方式”框中选择要进行汇总的方式,这里选择“求和”;在“选定汇总项”中可以选择一个或者多个要进行分类汇总的字段,这里选择了一项“销售金额”,如图4所示,然后单击确定。

    fee5d637c25f5f6f36a2214a24dbfb0b.png

    5.如图5所示为点击确定后产生的分类汇总结果,我们可以发现,钨棒,钨板,钼板的总销售金额已经分别统计出来了。

    1695b297ce71084d5be78583753cb012.png

    6.如果只对汇总信息感兴趣,左边,有类似减号的按钮,点击一下看看能发生什么结果,如图7所示为最终点击以后的结果,怎么样,目标明确多了.

    e3fd54dde3647ce4a8ed2b81c8c81485.png

    7.在以上分类汇总的基础之上,还可以再进行分类汇总,比如在销售地区进行汇总,由于这个表只有一个月的数据,只是演示一下就OK了哈。和上边一样,点击“分类汇总”在分类汇总中注意看到有一个“替换当前分类汇总”复选框,把它取消就OK了,如图8所示。然后点击确定,结果如图9所示。

    e56657f51729f535db3f17aa7371f993.png

    展开全文
  • SQL --- 对数据进行分类汇总

    千次阅读 2021-03-13 21:25:10
    例如:商品销售数据进行分类汇总: SELECT 商品名 , COUNT(销售量) FROM 表名 GROUP BY 商品名; 注意:SELECT GROUP BY 后面的列名是相同的。 这个语句的执行顺序为:FROM->WHERE->GROUP BY->...
  • 下面就以分类汇总做一个专题讲解:为尽量表述全面,下面以一个实例表格中的商品名称进行数量金额的汇总一、排序在分类汇总前,我们必须先要对数据进行排序,否则无法进行分类汇总,或汇总出错。1、ALT+D+S,打开...
  • 如何部门每个区域进行数据统计,此公式可以一劳永逸。
  • 资源介绍:。源码将数据导入到数据库之后,再利用SQL语句进行处理,提高了很多效率。资源作者:。资源界面:。资源下载:。
  • 数据分级分类资料汇总,包含2份标准、1份指南、1个模板。 ...2021公共数据分类分级指南 2020金融数据安全数据安全分级指南 指南:大数据安全管控分类分级实施指南 模板:企业数据分类分级模板
  • 易语言分类汇总数据

    2020-07-18 09:02:41
    易语言分类汇总数据源码,分类汇总数据,粘贴EXCEL内容,粘贴EXCEL内容2
  • SPSS怎么进行分类汇总数据?许多用户在工作或者学习的时候都需要使用数据分析,而数据分析中就有一个分类汇总操作,那么我们只用spss怎么进行分类汇总数据呢?下面小编就带着大家一起学习一下吧!操作方法:一、打开...
  • 分类汇总是Excel的一项重要功能,它能快速以某一个字段为分类项,对数据列表中其他字段的数值进行统计计算。本文以在表格中按照部门来统计数据总和为例介绍Excel表格中数据进行分类汇总的方法的操作方法。1、启动...
  • 数据分类汇总PPT课件.pptx
  • 当需要在Excel中对数据进行分类计算时,除了使用数据透视表,还可以使用分类汇总命令。与数据透视表不同的是,它可以直接在数据区域中插入汇总行,从而可以同时看到数据明细汇总。下面是分类汇总的使用方法:在...
  • 排序与筛选一、排序二、筛选三、分类汇总 一、排序 1.按单个条件排序 操作: 选择待排序列的任意单元格,单击“开始”选型卡的“排序筛选”按钮,选择需要的排序方式 或者在“数据”选项卡中进行类似操作。 注意:...
  • 用各种工具对数据进行分类汇总

    千次阅读 2018-06-04 15:10:19
    数据分类汇总的方法有很多种,工具也有很多,这次为大家一一介绍,各种工具如何进行分类汇总,大家自行判断,觉得哪种最好用,就用哪种,毕竟工具不重要,高效出结果才最重要。为了方便举例,所用的数据集就是鸾尾花...
  • 今天接到一个新的任务,要一个140多M的csv文件进行数据处理,总共有170多万行,尝试了导入本地的MySQL数据库进行查询,结果用Navicat导入直接卡死….估计是XAMPP套装里面全默认配置的MySQL性能不给力,又尝试用R搞一下...
  • 从278张表中获取物料编号、物料描述以及批号批数量三个数据,将物料号一样的产品的数量进行相加,得到此物料号总的数量,然后按降序排列存入一个新表中 2、展示 ①原图 ②效果图 二、分析 1、创建工作簿对象...
  • CIFAR-10数据集的所有图像已全部保存至压缩包内
  • 分类汇总前必须先进行什么操作

    千次阅读 2021-07-19 00:09:02
    分类汇总前,必须先按分类字段进行“排序”操作,以确保分类依据的类别处于连续的位置,之间不出现间隔。排序方法:选中所有数据,点击“数据”-“排序”;然后设置“主要关键字”、“排序依据”、“次序”;最后...
  • Excel排序筛选分类汇总和数据透视表PPT课件.pptx
  • 销售数据分类汇总
  • pythonExcel分类汇总

    2020-11-29 12:03:39
    python的分类方法有pivot_table, groupby,合并方法有pd.merge,pd.concat等import pandas as pdimport numpy as npframe=pd.read_excel(r'/Users/fangluping/现金流套表.xlsx',skipfooter=1)#生成透视表area_frame=...
  • 易语言分类汇总数据.zip易语言项目例子源码下载易语言分类汇总数据.zip易语言项目例子源码下载 1.合个人学习技术做项目参考 2.适合学生做毕业设计参考 3.适合小团队开发项目参考
  • excel如何根据表格中的数据自动在单元格中画图方法/步骤1,在excel中输入制图表所需要的数据。2,选择数据(选择不连续的数据可以按住“ctrl”在选择就可以了。还有选择时要连表头一起选择)。3,在“插入”菜单“图表...
  • 数据筛选,使用与,或,非三个条件配合大于,小于等于对数据进行筛选,并进行计数求和。与 excel 中的筛选功能 countifs sumifs 功能相似。 Excel 数据目录下提供了“筛选”功能,用于对数据表按不同的...
  • R语言数据框实现分类汇总

    千次阅读 2019-03-21 15:00:24
    我们经常需要数据分类统计功能,如下图中方案执行情况的统计: 然而R语言没有直接的数据框方法来统计每种情况出现的次数。可以用table方法先统计数据框的因子(factor)水平数(levels),然后再将其转为数据框即可...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 92,051
精华内容 36,820
热门标签
关键字:

对数据进行分类和汇总