精华内容
下载资源
问答
  • 凯斯西储大学轴承数据具体处理过程 本文阐述处理类似凯斯西储大学的轴承数据(一维时间序列信号)的一种方法(结合CNN使用)。 原信号在数据文件中是以mat文件呈现,如果想具体查看文件里面放的什么数据,可以用...

    凯斯西储大学轴承数据具体处理过程

    本文阐述处理类似凯斯西储大学的轴承数据(一维时间序列信号)的一种方法(结合CNN使用)。

    原信号在数据文件中是以mat文件呈现,如果想具体查看文件里面放的什么数据,可以用MATLAB打开来看一下。

    如何将原始数据文件处理成可用的数据格式呢?

    1、先用MATLAB将读出数据文件的内容
    Y=load(‘E:\电脑桌面\实验资料\轴承数据\12kF_0hp\ball_014.mat’);
    此时可以在工作区中查看数据到底长什么样子。
    然后可以将数据保存为TXT格式的文件。
    save(‘E:\MATLAB_Code\1.txt’,‘Y’)

    2、再用python中的函数处理(其实第一步有点脱裤子那啥了,直接在python中处理也是可以的)
    此时只需从文件中读出数据(这里的np是numpy模块的缩写哦!)
    data0 = np.loadtxt(“E:\MATLAB_Code\1.txt”,dtype=‘float32’) (注意需要两个反斜杠)
    然后将数据变个形就可以了
    data0 = data0.reshape(len(data0)//50,50) (这里是将原时间序列的数据处理成每50个一组,共有len(data0)/50组,注意这里是整除哦)
    此时数据文件算是处理好了,那怎么打上标签呢?

    3、数据标签处理
    为了后续方便标签的使用,这里通过one-hot编码方式输出对应标签(具体什么是one-hot百度下就好了)

    label0 = np.ones((len(data0),1)) * 0   #这里是打上数据类别 0 的标签,后续类别1,2,3也是类似的,把0替换成1,2,3即可
    label0 = label0.astype(int)  
    label0 = np.eye(4)[label0]   # 这里的4是指你准备打4类标签
    label0 = label0.reshape(len(label0),4)  
    

    到现在为止,数据和标签就搞定了,你保存后就可以尽情的玩耍了!
    嗯?保存?怎么保存??
    好吧

    np.savetxt("data0.txt", data0)
    np.savetxt("label0.txt", label0)
    

    因为此时是TXT文件,你直接打开文件来看处理过后的数据。也可以在python里面打印数据的shape看一看。
    现在差不多大功告成了吧!
    等等。。。
    谁会只用1类数据呢??怎么也得4类吧!
    很明显,其他类的数据也是类似处理,当你想将所有的数据文件拼接在一起时,可以使用函数
    data0_3 = np.vstack((data0,data1,data2,data3))
    这样,针对凯斯西储大学的轴承数据就处理完毕啦,去耍吧!

    总结代码:

    data0 = np.loadtxt("E:\\MATLAB_Code\\1.txt",dtype='float32')  #(注意需要两个反斜杠,打开的文件就是前文MATLAB输出的)
    data0 = data0.reshape(len(data0)//50,50)   #(这里是将原时间序列的数据处理成每50个一组,共有len(data0)/50组,注意这里是整除哦)
    label0 = np.ones((len(data0),1)) * 0   #这里是打上数据类别 0 的标签,后续类别1,2,3也是类似的,把0替换成1,2,3即可
    label0 = label0.astype(int)  
    label0 = np.eye(4)[label0]   # 这里的4是指你准备打4类标签
    label0 = label0.reshape(len(label0),4)  
    np.savetxt("data0.txt", data0)
    np.savetxt("label0.txt", label0)
    
    展开全文
  • 普林斯顿Stata教程 - Stata数据处理

    万次阅读 2018-06-04 11:46:41
    译者:谢作翰 | 连玉君 | (知乎 | 简书 | 码云)   原文链接:Princeton Stata 在线课程 (Princeton University - Stata Tutorial ) ...普林斯顿Stata教程 - Stata数据管理 普林斯顿Stata教程 ...

    译者:谢作翰 | 连玉君 | (知乎 | 简书 | 码云)

    原文链接:Princeton Stata 在线课程 (Princeton University - Stata Tutorial )

    连享会计量方法专题……

    专题链接

    目录

    1.1 数据读取

    • 1.1.1 自由格式数据
    • 1.1.2 固定格式数据

    1.2 数据文档

    • 1.2.1 数据标签与注释
    • 1.2.2 变量标签和注释
    • 1.2.3 值标签
    • 1.2.4 多语言标签

    1.3 创建新变量

    • 1.3.1 生成和替换
    • 1.3.2 运算符,表达式及函数
      1.4 变量重编码

    1.1 数据读取

    在本节中,我们将讨论如何读取原始数据文件。如果您的数据来自其他统计软件包(如SAS或SPSS),请考虑使用诸如Stat/Transfer
    www.stattransfer.com)或DBMSCopy(www.dataflux.com)之类的工具。Stata可以使用fdause命令来读取SAS文件help fdause。Stata还可以导入和导出Excel电子表格,输入help import excel以了解更多信息,并且可以从关系数据库读取数据,输入help odbc简介。

    1.1.1 自由格式数据

    如果数据是自由格式——变量由空格,逗号或制表符分隔,则可以使用infile命令。有关自由格式文件的示例,请参阅http://data.princeton.edu/wws509/datasets上提供的计划生育工作数据(请阅读说明并单击effort.raw)。这实质上是一个包含四列的文本文件,其中一列带有国家名称,另一列带有数字变量,由空格分隔。我们可以使用该命令将数据读入Stata

    infile str14 country setting effort change using http://data.princeton.edu/wws509/datasets/effort.raw
    

    infile命令后面跟着变量的名称。由于国家名称是一个字符串而不是数字变量,因此我们在名称前加上str14,它将变量的类型设置为最多14个字符的字符串。所有其他变量都是数字。

    using后面跟着文件的名称,该文件可以是计算机,本地网络或互联网上的文件。在这个例子中,我们直接从互联网上读取文件。更多信息help infile1
    还可以选择webuse命令读取该数据库:

    webuse set http://data.princeton.edu/wws509/datasets
    webuse effort
    

    首先将默认网址设置为普林斯顿数据库,然后直接用webuse命令读取相关文件。webuse 在stata小白系列中有更多介绍。
    可用list查看所读入数据:

     list in 1/3
    
         ┌─────────────────────────────────────┐
         │ country   setting   effort   change │
         ├─────────────────────────────────────┤
      1. │ Bolivia        46        0        1 │
      2. │  Brazil        74        0       10 │
      3. │   Chile        89       16       29 │
         └─────────────────────────────────────┘
    

    1.1.2 固定格式数据

    调查数据通常采用固定格式,每个案例有一个或多个记录,每个记录中的每个变量都处于固定位置。

    读取固定格式数据的最简单方法是使用该infix命令指定每个变量所在的列。正如它发生的那样,努力数据整齐排列在列中,所以我们可以阅读它们如下:

    infix str country 4-17 setting 23-24 effort 31-32 change 40-41 using 
         http://data.princeton.edu/wws509/datasets/effort.raw, clear
    

    这表示country要从第4-17列读取名称, setting从第23-24 列读取名称。str指定该country是一个字符串变量,但不必指定宽度,因为宽度从列数限定中可以看出。

    如果有大量的变量,应该考虑在一个单独的文件上输入名字和位置,这个文件又被称为字典,然后可以用infix命令中调用字典。下面尝试将以下字典内容输入到名为effort.dct的文件中:

    infix dictionary using http://data.princeton.edu/wws509/datasets/effort.raw {
      str country  4-17
          setting 23-24
          effort  31-32
          change  40-41
    }
    

    字典只接受*注释,但必须出现在第一行之后。保存此文件后,可以使用以下命令读取数据:

    infix using effort.dct, clear
    

    请注意,您现在“使用”字典,它反过来“使用”数据文件。您可以使用表单指定它作为infix命令的选项,而不是在字典中指定数据文件的名称。infix using dictionaryfile, using(datafile).第一个’using’指定字典,第二个’using’是指定数据文件的选项。如果要使用一个字典来读取以相同格式存储的多个数据文件,这一点尤其有用。更多信息,请参阅help infix。如果您的观测值跨越多个记录或线条,infix只要所有观测记录的记录数量相同(不一定全部相同),仍然可以使用它们来读取它们。欲了解更多信息,请参阅help infix。

    infile命令也可以用于固定格式的数据和字典。这是一个非常强大的命令,它提供了许多不适用的选项infix; 例如它可以让你在字典中定义变量标签,但是语法有点复杂。看help infile2

    1.2 数据文档

    在将数据读入Stata之后,准备一些文档很重要。在本节中,我们将看到如何创建数据集,变量和值标签,以及如何为数据或变量创建注释。

    1.2.1 数据标签与注释

    Stata允许您使用label data命令标记您的数据集,然后标记最多80个字符(Stata SE中为244)。您还可以使用notes命令,然后使用冒号和文本添加最多约64K字符的注释:

    label data "Family Planning Effort Data"
    . notes:  Source P.W. Mauldin and B. Berelson (1978). 
       Conditions of fertility decline in developing countries, 1965-75. 
       Studies in Family Planning, 9:89-147
    

    数据用户可以键入notes以查看您的注释。仔细记录您的数据总是会带来回报。

    1.2.2 变量标签和注释

    您可以(也应该)使用label variable 命令来标记变量。命令后跟变量名称和标签(引号包围,最多80k字符)。使用infile命令,您可以将这些标签添加到字典中。否则,你应该准备一个带有所有标签的do文件。以下是如何为我们的数据集中的三个变量定义标签:

    label variable setting "Social Setting"
    label variable effort  "Family Planning Effort"
    label variable change  "Fertility Change"
    

    Stata还允许您使用该命令将注释添加到特定变量notes varname: text。请注意,该命令后面跟着一个变量名,然后是一个冒号:

    . notes change: Percent decline in the crude birth rate (CBR) 
      the number of births per thousand population between 1965 and 1975.
    

    键入describe,然后notes检查我们到目前为止的工作。

    1.2.3 值标签

    您还可以标记分类变量的值。我们的数据集没有任何分类变量,但我们创建一个。我们将复制effort变量,然后将其分为三类,0-4,5-14和15+,它们分别代表弱,中等和强壮三个程度(前两行中使用的generaterecode在下一节介绍,我们还展示了如何用一个命令完成所有这些步骤):

     generate effortg = effort 
     recode effortg 0/4=1 5/14=2 15/max=3
     (effortg: 20 changes made)
     label define effortg 1 "Weak" 2 "Moderate" 3 "Strong", replace
     label values effortg effortg
     label variable effortg "Family Planning Effort (Grouped)"
    

    Stata采用两步法来定义标签。首先定义一个标签集,使用label define命令将整数代码与标签(最多80k)相关联。然后,使用label values命令将该组标签与变量相关联。通常,标签集和变量使用相同的名称,就像我们在示例中所做的那样。

    这种方法的一个优点是可以为多个变量使用同一组标签。规范的例子是label define yesno 1 “yes” 0 “no”,它可以与数据集中的所有0-1变量相关联,使用每个变量的形式命令label values variablename yesno。定义标签时,如果标签是单个单词,则可以省略引号,但为了清晰起见,我更愿意使用它们。

    可以使用add或者modify选项修改标签集,使用label dir(仅列出名称)或label list(列出名称和标签)列出标签集,并使用label save将它们保存到一个do文件。输入help label以了解更多信息。您也可以使用不同语言的标签,如下所述。

    1.2.4 多语言标签

    一个Stata文件可以用多种语言存储标签,并且您可以从一组到另一组自由移动。我将通过为我们的数据集创建西班牙语标签来说明。遵循Stata建议,我们将使用ISO标准的双字母语言代码,en代表英文,es代表西班牙语。

    首先我们使用label language用来重命名当前语言为en,并创建一个新的语言集es

     label language en, rename
    (language default renamed en)
     label language es, new
    (language es now current language)
    

    西班牙语标签定义不会覆盖相应的英文标签,而是并行存在。值标签命名时需小心些,不能直接将标签集取名effortg.因为effortg仅表示变量和标签之间的关联。你需要定义一个新的标签集; 我们在此取名ffortg_es,结合旧名称和新语言代码,然后将其与变量effortg相关联:

    label define effortg_es 1 "Débil" 2 "Moderado" 3 "Fuerte"
    label values effortg effortg_es
    

    您可能想要尝试命令describe现在。可以尝试用表格输出:

    table effortg
    

    接下来,我们将语言改回英文并再次运行表格:

    label language en
    table effortg
    

    更多信息,请键入 help label_language.

    1.3 创建新变量

    Stata创建新变量最重要的命令是generate/replacerecode,他们经常一起使用。

    1.3.1 生成和替换

    generate命令使用可以结合常量,变量,函数,算术和逻辑运算符的表达式创建新变量.

    gen settingsq = setting^2.
    

    如果你打算在回归中使用这个项,而且知道线性和二次项是高度相关的。那么在平方之前将变量中心化可能是个好主意。这里我们运行summarize,并使用quietly来抑制输出,从存储结果中检索均值r(mean):

    quietly summarize setting
    gen settingcsq = (setting - r(mean))^2
    

    请注意,我为此变量使用了不同的名称。Stata不会让你用generate来覆盖现有的变量。如果你真的想替换旧变量的值使用replace。您也可以使用drop var_names从数据集中删除一个或多个变量。

    1.3.2 运算符,表达式及函数

    下表显示了您可以在表达式中使用的标准算术,逻辑和关系运算符:

    运算符及表达式

    Stata有大量的函数,这里有一些常用的数学函数,输入help mathfun可以查看完整列表:

    函数

    当参数是数据集中的变量时,这些函数会自动应用于所有观察值。

    Stata还具有生成随机数的功能(在模拟中很有用),即uniform()。它还有一套广泛的函数来计算概率分布(p值所需的)和它们的反函数(临界值所需的),请参阅help density functions以获取更多信息。
    还有一些专门的函数用于处理字符串,请参阅help string functions,处理日期函数,请参阅help date functions

    1.4 变量重编码

    recode命令作用是将数字变量转化为类别变量。例如,假设一项生育率调查中对年龄在15岁至49岁的女性进行单身年龄分析.您想以5年为一个区间对样本分组。可以使用命令:

    gen age5 = int((age-15)/5)+1 if !missing(age)
    

    但这只适用于间隔规则的情况。也可以其实用如下方法:

    recode age (15/19=1) (20/24=2) (25/29=3) (30/34=4)
               (35/39=5) (40/44=6) (45/49=7), gen(age5)
    

    括号中的每个表达式都是一个重新编码规则,由值的列表或范围组成,后跟等号和新值。使用斜线指定的范围包括两个边界,因此15/19是15到19,其也可以被指定为15 16 17 18 19或甚至15 16 17/19。您可以使用min参考最小值并max参考最大值,如在min/19和中44/max。当规则的形式为range = value时,括号可以省略,但它们通常有助于使命令更具可读性。

    值被分配到它们落在的第一个类别。从未分配给某个类别的值将保持原样。您可以使用else(或*)作为最后一个子句来引用尚未分配的任何值。或者,您可以使用missingnonmissing引用未分配的缺失值和非缺失值; 这些必须是最后两个语句,不能与其他语句相结合。

    在我们的例子中,我们还使用了gen()选项生成一个新的变量age5,在这种情况下,新变量默认替换现有变量的值。我强烈建议您在重新编码之前制作原始变量副本。
    您也可以在重编码时指定值标签。选项label(label_name)允许您为创建的标签分配一个名称(默认与变量名称相同)。下面是一个示例,显示如何在一步进行重编码和做值标签。(上文中需使用四个命令)。

    recode effort (0/4=1 Weak) (5/14=2 Moderate) (15/max=3 Strong)
         , generate(efffortg) label(effortg)
    

    对原始和重新编码的变量进行交叉制表以检查转换是否按预期工作通常是一个好主意。

    关于我们

    • 「Stata 连享会」 由中山大学连玉君老师团队创办,定期分享实证分析经验, 公众号:StataChina
    • 公众号推文同步发布于 CSDN简书知乎Stata专栏。可在百度中搜索关键词 「Stata连享会」查看往期推文。
    • 点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
    • 欢迎赐稿: 欢迎赐稿。录用稿件达 三篇 以上,即可 免费 获得一期 Stata 现场培训资格。
    • E-mail: StataChina@163.com
    • 往期推文:计量专题 || 精品课程 || 简书推文 || 公众号合集

    点击此处-查看完整推文列表

    连享会计量方法专题……


    欢迎加入Stata连享会(公众号: StataChina)

    原文

    原文链接:Princeton Stata 在线课程 (Princeton University - Stata Tutorial )

    展开全文
  • 凯斯西储大学轴承数据处理+自制CNN数据

    万次阅读 热门讨论 2019-05-29 11:25:34
    在下载数据的时候,发现里面分了正常数据、驱动端、风扇端等类别,然后在具体的某一类,比如驱动端里面又区分了不同类别的故障数据。具体可以参见相关说明,或者参见其他帖子。 然后下载其中某一个类别的某一个故障...

    对于凯斯西储大学轴承数据的下载,现在网上随便一个帖子都可以下载到。
    在下载数据的时候,发现里面分了正常数据、驱动端、风扇端等类别,然后在具体的某一类,比如驱动端里面又区分了不同类别的故障数据。具体可以参见相关说明,或者参见其他帖子。
    然后下载其中某一个类别的某一个故障数据文件后,文件类型是.mat格式,可以使用MATLAB打开,打开后发现里面又区分了三种类型的数据,在这里插入图片描述
    如上图,这里不太清楚为什么在已经区分了正常、驱动端、风扇端数据类别的情况下,文件里面还要再分成这几类????难道又分了不同位置的故障数据?有点搞不清
    当然,如果需要进行处理这些数据,用来机器学习、CNN的话,并不是需要网站中的所有数据,自然可以只选择我们需要的,比如选择驱动端+0HP的故障数据
    处理数据步骤为:
    ①对于数据的处理,由于轴承信号数据是时间序列的数据,但是在训练使用的时候有些不方便,这里我是把同一类别的数据随机分组,将一维的序列分成二维,具体一组多少数据,看自己分类吧。下载的文件每一个都进行如此操作(可以使用程序在调用数据的时候处理)。
    ②然后将每个类别的数据文件对应建立标签文件。
    ③这样处理之后,每一类故障数据都对应着一个数据文件和一个标签文件,然后将所有类别的数据文件整合到一起组合成训练网络需要的数据集,再将数据集按比例分成训练集和测试集即可。
    以上为使用凯斯西储大学自制数据集的过程,如有错误,还请大佬指点,欢迎交流!!

    展开全文
  • 利用Python处理excel表格数据

    万次阅读 多人点赞 2019-06-06 14:59:44
    利用pandas高效处理数据。 pandas依赖xlrd模块来处理Excel。安装这个模块:pip install xlrd 安装pandas,安装命令:pip install pandas pandas处理Excel表单 提前准备一个Excel文件:dataFall2018.xlsx,有...

    利用pandas高效处理数据。

    1. pandas依赖xlrd模块来处理Excel。安装这个模块:pip install xlrd
    2. 安装pandas,安装命令:pip install pandas

    pandas处理Excel表单
    提前准备一个Excel文件:dataFall2018.xlsx,有一个表单,表单名为Sheet1;
    Sheet1的数据展示如下:
    在这里插入图片描述
    引入pandas模块:

    import  pandas  as pd
    

    读取Excel的两种方式:

    1. 默认读取第一个表单:
    import  pandas  as pd
    
    df = pd.read_excel('dataFall2018.xlsx')
    #默认读取前五行的数据
    data = df.head()
    print("获取到的数据:\n",data)
    

    结果如下
    在这里插入图片描述

    2.通过指定表单名来读取:

    import  pandas  as pd
    
    df = pd.read_excel('dataFall2018.xlsx',sheet_name='Sheet1')
    data = df.head()
    print("获取到的数据:\n",data)
    

    结果和第一次一样。

    3.通过表单索引来指定要访问的表单,0表示第一个表单;也可以采用表单名加索引的方式来定位表单;也可以同时定位多个表单。

    df=pd.read_excel('dataFall2018.xlsx',sheet_name=['Sheet1','Sheet2'])#可以通过表单名同时指定多个
    # df=pd.read_excel(''dataFall2018.xlsx',sheet_name=0)#可以通过表单索引来指定读取的表单
    # df=pd.read_excel(''dataFall2018.xlsx',sheet_name=['Sheet1',1])#可以混合的方式来指定
    # df=pd.read_excel(''dataFall2018.xlsx',sheet_name=[1,2])#可以通过索引 同时指定多个
    data=df.values#获取所有的数据,注意这里不能用head()方法哦~
    print("获取到所有的值:".data)
    

    pandas操作Excel的行列

    1. 读取指定的行,数据会保存在列表里面
    import  pandas  as pd
    
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx')
    #0表示第一行 这里读取数据并不包含表头,要注意哦!
    data = df.ix[0].values
    print("获取到的数据:\n",data)
    

    结果如下
    在这里插入图片描述

    2.读取指定的多行,结果会保存在嵌套列表里面

    import  pandas  as pd
    
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx')
    #0表示第一行 这里读取数据并不包含表头,要注意哦!
    data = df.ix[[0,1]].values
    print("获取到的数据:\n",data)
    

    结果如下(空数据会被nan代替):
    在这里插入图片描述

    1. 读取指定的行列:
    import  pandas  as pd
    
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx')
    #读取第0行第1列的值
    data = df.ix[0,1]
    print("获取到的数据:\n",data)
    
    1. 读取指定的多行多列值
    import  pandas  as pd
    
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx')
    data=df.ix[[0,2],['喂料秤','窑速']].values#读取第一行第三行的喂料秤以及窑速列的值,这里需要嵌套列表
    print("读取指定行的数据:\n{0}",data)
    
    1. 获取所有行的指定列
    import  pandas  as pd
    
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx')
    data=df.ix[:,['喂料秤','窑速']].values#读所有行的喂料秤以及窑速列的值,这里需要嵌套列表
    print("读取指定行的数据:\n",data)
    
    1. 获取行号并打印输出
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx')
    print("输出行号列表",df.index.values)
    

    结果显示如下:
    在这里插入图片描述

    1. 获取列名并打印输出
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx')
    print("输出列标题",df.columns.values)
    
    1. 获取随机输出指定行数的值:
    import  pandas  as pd
    
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx' )
    print("输出值",df.sample(1).values)    #这个方法类似于head()方法以及df.values方法
    
    1. 获取指定列的值
    import  pandas  as pd
    
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx' )
    print("输出值\n",df['喂料秤'].values)
    

    pandas处理Excel数据成为字典

    import  pandas  as pd
    
    #这个会直接默认读取到这个Excel的第一个表单
    df = pd.read_excel('dataFall2018.xlsx')
    for i in df.index.values:  #获取行号的索引,并对其进行遍历
        # 根据i来获取每一行指定的数据,并利用to_dict方法转成字典
        row_data = df.ix[i].to_dict()
        print(row_data)
    

    参考 https://www.cnblogs.com/liulinghua90/p/9935642.html

    展开全文
  • vue后台带html标签的文章数据处理

    千次阅读 2018-12-04 09:10:26
    1.后台爬到的数据带有html标签,可以用v-html直接解析 <p v-html="hotTodayListArticle"></p>
  • Python文件处理数据标签修改

    千次阅读 2017-03-14 14:53:19
    今天在做眼底图像识别的时候,发现0级别和1,2,3,4级别的数量严重不等,所以想到了设计一个分级的卷积神经网络,先进行二分类,即0为一类,2,3,4为一类,这也就涉及到了训练集标签的修改了,所以用python写了一...
  • 为了方便使用,博文中附上了包括数据集整理及数据预处理在内的所有代码及处理好的数据集,同时对代码进行了解释,其要点如下:UCI数据集介绍、不同数据集的整理程序、148个整理好的数据集与对应程序。
  • excel数据处理

    千次阅读 多人点赞 2019-01-12 21:08:25
    3.1.3 处理数据表中的重复数据 3.1.4 处理日期 3.1.5 处理文本型数据 3.2 数据抽取与构建 3.2.1 分列抽取新字段 3.2.2 文本函数抽取新字段 3.2.3 分列巧妙批量删除数据的多余的单位 3.2.4 合并两列数据构建新数据 ...
  • Dicom 医学图像与 nii 标签数据处理

    千次阅读 2020-01-10 09:48:16
    Dicom 医学图像与 nii 标签数据处理Dicom医学图像处理nii标记数据处理综合数据处理code1需要说明code2 Dicom医学图像处理 reference: https://blog.csdn.net/u011764992/article/details/84501300 dicom 图像就长...
  • 使用matlab处理分类数据标签问题

    千次阅读 2019-01-20 22:33:40
    在使用matlab处理数据标签时, 1,首先要判断这张图片标签是否是符合规则的,对于不符合要舍去。在某些情况下,可能不能完全舍去。那么就需要,根据保留标签的特点,来存储数据。比如 使用case 语句。 2,标签可以...
  • 论文笔记:https://cloud.tencent.com/developer/news/43321 Semi-supervised Learning with Deep Generative Models-------2014 NIPS ... 1.对于有标签数据 先求重构损失,再加分类损失,要...
  • 干货,如何建立数据标签体系

    千次阅读 2021-01-15 07:03:00
    公众号推文规则变了,点击上方"数据社"关注,设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥,今天给大家分享一篇标签体系如何建设的干货文章,欢迎转发收...
  • 在后台处理文章摘要的时候,涉及到怎么处理带HTML标签数据本人一共找到了两种解决方法:1、调用插件HtmlParser 简介htmlparser是一个纯的java写的html解析的库,主要用于改造或提取html。用来分析抓取到的网页信息是...
  • 王兴说过,我们已经进入到互联网的下半场。在上半场,也就是早期的...这两年引领下半场发展的是那些在讲 “大数据”“赋能”的企业,他们有数据,有用户。 通过大数据告诉政府该如何智慧地管理交通,做城市规划。 通...
  • 这一系列博文将介绍一下机器学习中的数据预处理问题,以UCI数据集为例详细介绍缺失值处理、连续特征离散化,特征归一化及离散特征的编码等问题,同时会附上处理的Matlab程序代码,这篇博文先介绍缺失值的处理,要点...
  • vue后端含有标签数据显示在前端

    千次阅读 2019-05-23 18:57:17
    要想在前端显示后端含有标签数据,则需要使用v-html 后端数据:https://www.easy-mock.com/mock/5ce57090f2fc446b5d8ffe18/blog/html 前端显示: 完整代码如下:(主要看加粗的代码) < template> < ...
  • 一段本文中既有文字,又有很多html标签,很乱,需要进行清洗,下面是用python 进行过滤辣鸡html的脚本。 # -*- coding:utf-8 -*- import pandas as pd import re import jieba def filter_tags(htmlstr): &...
  • 在本文中,作者将会展示一个名为伪标签的简单的半监督学习方法,它可以通过使用无标签数据来提高机器学习模型的性能。 伪标签 为了训练机器学习模型,在监督学习中,数据必须是有标签的。那这是否意味着无标签的...
  • 深度学习数据标签处理的两种常见方式:LabelEncoder 和 OneHotEncoderOne-Hot 编码即独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,...
  • matlab批量处理excel数据,绘图并保存

    千次阅读 2019-10-02 08:58:18
    近期做实验需要处理大量的.dat格式数据,文件内容格式相同,生成折线图并保存图片。 思路: 1. 新建文件夹dat_in,存放待处理数据文件 2. 循环读取文件名,放入元胞数组 3. 按文件名循环处理数据,每个文件...
  • 1 football数据集的文件格式 根据如图所示football数据集和的文件格式如下所示: 下图表示football数据集节点部分信息 下图表示football数据集边的部分信息 根据上述两个图中的格式对football数据集的格式...
  • 脑电数据的实验范式及EEGLAB分析预处理

    万次阅读 多人点赞 2019-09-04 22:06:37
    脑电数据的实验范式及EEGLAB分析预处理一、脑电数据采集处理过程1.1 脑电数据采集过程1.2 实验范式标签说明二、EEGLAB分析预处理2.1 导入数据2.2 选择通道数据,删除无用电极2.3 重参考2.4 滤波2.5 分波与基线矫正...
  • 数据挖掘:数据清洗——数据噪声处理

    万次阅读 多人点赞 2020-02-19 14:43:42
    数据挖掘:数据预处理——数据噪声处理 一、什么是数据噪声? 数据噪声(Noise):数据集中的干扰数据(对场景描述不准确的数据),即测量变量中的随机误差或方差。 二、噪声数据与离群点的区别 观测量(Measurement) ...
  • 对不连续的标签编码成向量表示。 这个方法,用在神经网络实现分类任务时比较常见,对于神经网络输出层,输出一个向量,可以定义哪个维度是1,就代表是哪个类别。 #导包 from sklearn.preprocessing ...
  • 传统的fine-tuning都是在一个固定的数据集上继续训练一个预训练的模型,但是本文的fine-tuning从一个空的带标签数据集开始,然后不断将部分未标注数据进行标注并填充到带标签数据集中并继续训练模型。这种算法主要...
  • 深度学习数据集预处理之打标签

    千次阅读 多人点赞 2020-02-14 22:41:52
    在有监督深度学习中,数据集和标签集是缺一不可的,标签是啥呢,就是用来区分数据之间的分类命名,那么咱们开门见山,走起。 首先,确定数据集的维数,以m行1列的电机轴承数据集为例 需要做啥呢? 均值+归一化处理,...
  • 本文介绍在日常工作中,对于数据离群值的可视化和处理套路。 区分真假异常 根据业务经验来判断离群值 伪异常: 这些异常是由特定的业务操作引起的。它们实际上正常地反映了业务状态,而不是数据本身的异常规律。 真...
  • pandas数据处理标签列字符转数字

    千次阅读 2019-09-27 14:24:28
    机器学习中,当我们在进行数据预处理的时候,对于标签列非字符的数据,我们往往需要将其转换成字符,因为有的算法可能不支持非数字类型来做特征。 那么怎么快捷地来着这个转换呢,请看我的示例: 1.构建测试数据 ...
  • 我们也可以使用监督式学习技术对无标签数据进行标签的预测,把这些数据传递给监督式学习算法作为训练数据,然后使用这个模型在新的数据上进行预测。 总结 从本文你可以了解到监督式,非监督式和半监督式学习的...
  • 深度学习——数据处理

    千次阅读 2019-06-19 19:33:11
    本文简单介绍一下如何初步处理数据,给数据分类,打标签。 例: 现在有几万张照片,每张照片的文件名中包含了年龄、性别等信息,假如我们现在需要训练一个识别年龄的模型; 首先需要进行图片预处理,第一步就是把...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 708,844
精华内容 283,537
关键字:

发现处理标签数据