精华内容
下载资源
问答
  • 包含了200条语音文件,格式为wav,有四个年龄段分别是,20-29,30-39,40-49,每个年龄段50条语音,可用来语音识别年龄训练。
  • 亚洲人脸年龄预估数据集,其中训练集40000张,测试集3950张,年龄范围在0-69岁
  • IMDB 的人脸数据集 共100个文件夹以及一份标签数据 文件集非常大(6.5G),故分成10份传,本部分为10~19部分
  • 线性回归数值型预测:预测鲍鱼的年龄 压缩文件中包含源码以及训练数据、测试数据
  • 基于兴趣自学Python有5个月了,最近全球流行新冠病毒,想做一个用python写的数据可视化各年龄段的新冠病毒的人数(这其实是我们Data mining课大作业)。 由于初学python,代码显得十分青涩,本人想多多改进此代码。...
  • 2020年3月快手用户年龄分布.xls
  • 人脸跨年龄数据

    千次阅读 2019-11-08 11:27:27
    命名规则:078A11.JPG,078人物ID,A为Age简写,11为岁数。...此数据集包含了82个人在不同年龄的照片,同时提供了每张图中68个人脸关键点信息。鉴于本数据集跨年龄的特色,FG-Net可用于年龄估计...

    1.FG-NET (2002)
    下载:http://yanweifu.github.io/FG_NET_data/FGNET.zip
    命名规则:078A11.JPG,078人物ID,A为Age简写,11为岁数。
    FG-Net训练集有818张图片,测试集有170张图片。此数据集包含了82个人在不同年龄的照片,同时提供了每张图中68个人脸关键点信息。鉴于本数据集跨年龄的特色,FG-Net可用于年龄估计、跨年龄人脸识别、年龄变化推演(age progression)等方向的研究。FG-Net曾是年龄方面最流行的数据集之一【9】,但由于此数据集公布时间较早(2002年)、人脸个数较少,且观察其人脸均为白种人,而且一些早期图片为黑白图片,【9】指出该数据的准确率已趋近饱和。所以近期的论文很少用FG-net做Benchmark。

    2. MORPH2 (2006)
    下载:http://www.faceaginggroup.com/morph/
    论文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1613043
    根据论文引用情况,MORPH2数据集是目前最流行的年龄估计数据集之一,【2】【4】【5】等论文均在数据集基础上进行了评测,但【9】指出该数据集的准确率近年也已趋近饱和。MORPH2也是一个跨时间的数据集,收录了同一个人在不同年龄段的图片。该数据集分为商用和学术用版本,学术用版本包括了13000个人的55134张图片,照片收集时间跨度2003-2007年,人物年龄为16-77岁,平均年龄为33岁。MORPH2数据集除年龄外还记录了人物的其他信息,如性别、种族、是否戴眼镜等。

    3. Adience (2014)
    下载:https://talhassner.github.io/home/projects/Adience/Adience-data.html
    论文:https://www.openu.ac.il/home/hassner/Adience/EidingerEnbarHassner_tifs.pdf
    Adience数据集包括2284个人的26580张图片。其特点为均为真实场景下拍摄(in the wild),照片受到噪声、姿态、光照等影响很大,旨在解决真实世界中的年龄和性别检测问题,网站上同时提供了原始数据和矫正后的人脸。该数据集使用了区间标注的方法,分为了8个区间:(0-2, 4-6, 8-13, 15-20, 25-32, 38-43, 48-53, 60-)。

    4. CACD (2014)
    下载:http://bcsiriuschen.github.io/CARC/
    论文:http://cmlab.csie.ntu.edu.tw/~sirius42/papers/chen14eccv.pdf
    CACD收集了2000个名人的163,446张图片,年龄跨度为16 到 62。截止论文发表时间,是当时最大规模的跨年龄数据集。收集照片的时间跨度为2004-2013年。数据集同时也提供了16个人脸关键点的标注信息。CACD数据集提供者明确指出,虽然该数据集包含人物年龄信息,但只建议使用此数据集做跨年龄人物检索,不建议使用该数据集来做年龄预估。、

    5.ChaLearn LAP Dataset (2015 / 2016)
    下载:http://chalearnlap.cvc.uab.es/dataset/19/description/
    论文:http://www.cbsr.ia.ac.cn/users/jwan/papers/CVPRW2016_JunWan.pdf
    LAP(Look At People)竞赛于2015和2016举办了两年,两年数据集规模分别为5000和8000(基于官网)。与其他数据集的标签为真实年龄不同,LAP数据集的标签是外观显示年龄(apparent age),标签制定平均了至少10个人的标注结果,所以每张图片的年龄标签都是一个正态分布。比赛排名中使用的是结合均值和方差的综合误差E-error【3】。LAP数据集在20-40岁的分布相对均匀,在0-15和65-100区间数据集较少。

    6. IMDB-WIKI(2015)
    下载:https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
    论文:https://www.vision.ee.ethz.ch/en/publications/papers/proceedings/eth_biwi_01229.pdf
    IMDB-WIKI数据集是目前规模最大的年龄数据集之一,【3】的作者提出了本数据集并在其基础上finetune网络,赢得了LAP2015年的冠军。本数据集来源包括IMDB(一个明星网站)和Wikipedia中的两万个人,图片数量分别为460723和 62328。标注方法是找到某个名人的照片,然后通过照片拍摄年份减其出生年份得到其年龄标签。经过观察和及【5】指出,由于数据集标注过程是自动处理的,故标注质量不高,有很多错误内容。在【3】、【5】中,主要使用该数据集进行网络初始训练。下图是提取了几张与笔者同生日名人的图片,可以看到有些图片甚至没有人脸。

    7. AFAD (2016)
    下载:https://github.com/afad-dataset/tarball
    论文:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Niu_Ordinal_Regression_With_CVPR_2016_paper.pdf
    数据集【4】规模为164432张脸,其中63680张女性、100752男性。年龄段为15-40岁。该数据集的特点是数据几乎全是中国人。该数据的数据来源为人人网,首先爬取人人网上的图片数据并获取相册所有者的年龄,然后使用人力对错误图片进行过滤。本数据年龄分布也不是很均衡,在最年轻和年纪较大的年龄段数据较少(也好理解,因为该年龄使用人人网的人少)。
    根据观察,感觉数据集整体标注效果比较准确,但有一些小图片(22*22)看不清楚,且有很多同一个人的图片几乎完全一样。数据集还有一个特点就是图片截取的较小,只留了较少的脸部,发型和颈部都去除了。其实年龄估计和人的发型、身体等也有一定联系,截取太小将无法使用到这些信息。

    8. MegaAge/MegaAge-Asian (2017)
    下载:http://mmlab.ie.cuhk.edu.hk/projects/MegaAge/
    论文:http://personal.ie.cuhk.edu.hk/~ccloy/files/bmvc_2017_megaage.pdf
    MegaAge数据集由商汤发布【2】,总数有41941张图片,同一论文提出的MegaAge-Asian包含40000张亚洲人(绝大部分是东亚人)的图片,两个数据集年龄段都是0-70。数据集人脸的原始来源是MegaFace和YFCC。论文中提到,由于MegaAge-Asian的种族相对单一,故同一年龄估计算法MegaAge-Asian上的表现一般要优于MegaAge数据集上的表现。
    经观察,MegaAge-Asian标注结果比较精准,提供的图片大小统一为178*218,在保持比例前提下进行了补边操作,数据集包含了明星和普通人的图片。

    9.AGE-DB(2017)
    下载:https://ibug.doc.ic.ac.uk/resources/agedb/
    论文:https://core.ac.uk/download/pdf/83949017.pdf
    AgeDB包含16,488个各种名人的图像,如演员,作家,科学家,政治家,每个图像都注明了身份,年龄和性别属性。 共存在568个不同的科目。 每个科目的平均图像数为29。最低和最高年龄分别为1和101。每个科目的平均年龄范围是50.3岁。

    10.UTKFace (2017)
    下载:https://susanqq.github.io/UTKFace/
    论文:https://arxiv.org/pdf/1702.08423.pdf
    UTKFace数据集是一个具有较长年龄跨度(范围从0到116岁)的大型人脸数据集。该数据集包含20,000多张面部图像,其中包含年龄,性别和种族的注释。图像覆盖了姿势,面部表情,光照,遮挡,分辨率等的大变化。该数据集可用于各种任务,例如,面部检测,年龄估计,年龄进展/回归,地标定位等。

    11.CAF(2018)
    下载:腾讯未公开
    论文:https://arxiv.org/pdf/1810.07599.pdf
    CAF是腾讯收集的,其包括来自4,668个身份的大约313,986张脸部图像。每个身份都有80面部图像。所有这些图像都经过仔细和手动注释。考虑到缺乏确切的年龄信息,他们利用了公共预训练年龄估计模型DEX [12]预测每个面部图像的粗糙年龄标签。

    12.CAFR(2019)
    下载:腾讯未公开
    论文:https://arxiv.org/pdf/1809.00338.pdf
    CAFR总共有来自25,000的1,446,500张面部图像 ,CAFR数据集中的主题。 每个人平均有57.86图像。 应该是目前最大的跨年龄数据库。

    13.AGFW-v2(2019)
    下载:https://dcnhan.github.io/RL-VAP/
    论文:https://arxiv.org/pdf/1606.02254.pdf https://arxiv.org/pdf/1811.11082.pdf
    得到的数据集包含36,299个具有年龄的图像10至64年不等。 然后将其分解为11年龄跨度为5岁的年龄组。

    14、CAS-PEAL

    数据集地址:http://www.jdl.ac.cn/peal/

    发布于2008年,CAS-PEAL数据集是中国科学院收集建立的,它主要是为了提供一个大规模的中国人脸数据集用于训练和评估对应东方人的算法,有灰度图和彩色图两个版本。

    目前,CAS-PEAL人脸数据库由1040个人(595名男性和445名女性)的99594张图像组成,在特定环境下具有不同的姿势、表情、照明条件、表情以及是否佩戴眼镜等信息。对于每个被拍摄的人,通过9个相机来同时捕获不同姿态的图像,平均每一个人采集了约900张图像。

    15.Pubfig(2010)

    下载地址:http://www.cs.columbia.edu/CAVE/databases/pubfig/

    发布于2010年,这是哥伦比亚大学的公众人物脸部数据集,包含有200个人的58797张人脸图像,主要用于非限制场景下的人脸识别。与LFW相比,这个数据集更大,但是人更少,每个人的图片更多。

    16.CASIA WebFace

    数据集地址:http://classif.ai/dataset/casia-webface/

    发布于2014年,这是李子青实验室开放的国内非常有名的数据集,包含10575个人494414张图。

    17.Celeba

    数据集地址:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

    发布于2015年,这是由香港中文大学汤晓鸥教授实验室发布的大型人脸识别数据集。该数据集包含10,177个名人的202,599张人脸图片,人脸属性有40多种,包括是否戴眼镜,是否微笑等,主要用于人脸属性的识别。

    18.FaceScrub

    数据集地址:http://vintage.winklerbros.net/facescrub.html

    发布于2016年,总共包含了530个人的106863张图片,其中男性女性各占265,每个人大概200张图。

    19.UMDFaces

    数据集地址:http://www.umdfaces.io/

    发布于2016年,这个数据集有静态图和视频两部分,其中静态图包含8277个人的367,888张脸,视频包含22,075个视频中的3,107个人的3,735,476张图。同时标注了21个关键点,性别信息,以及人的3个姿态。

    20.MegaFace

    数据集地址:http://megaface.cs.washington.edu/dataset/download.html

    发布于2016年,MegaFace数据集包含一百万张图片,共 690000个不同的人,所有数据都是华盛顿大学从Flickr组织收集。

    这是第一个在一百万规模级别的面部识别算法测试基准。现有脸部识别系统仍难以准确识别超过百万的数据量。为了比较现有公开脸部识别算法的准确度,华盛顿大学在2017年底开展了一个名为“MegaFace Challenge”的公开竞赛。这个项目旨在研究当数据库规模提升数个量级时,现有的脸部识别系统能否维持可靠的准确率。

    21.MS-Celeb-1M

    数据集地址:https://www.msceleb.org/

    发布于2016年,这是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)发起,每年定期举办。参赛队伍被要求基于微软云服务,搭建包括人脸检测、对齐、识别的完整人脸识别系统,而且识别系统必须先通过远程实验评估。

    训练集合包含10M 图片,具体的操作是从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共得到100K*100=10M个图片。测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选,每个名人大概有20张图片。

    22.VGG Face

    数据集地址:

    http://www.robots.ox.ac.uk/~vgg/data/vgg_face/

    http://www.robots.ox.ac.uk/~vgg/data/vgg_face2/

    VGG Face发布于2015年,包括2622个对象,每个对象拥有约1000副静态图像;

    VGG Face2发布于2017年,包含了9131个人的3.31百万张图片,平均每一个人有362.6张图。这个数据集人物ID较多,且每个ID包含的图片个数也较多。数据集覆盖了大范围的姿态、年龄和种族,其中约有59.7%的男性。除了身份信息之外,数据集还包括人脸框,5个关键点、以及估计的年龄和姿态。

    23.IMDB-Face

    数据集地址:https://github.com/fwang91/IMDb-Face#data-download

    发布于2018年,包含590000个人,17000000张图,是现在人脸最多的数据集了。

    24.Fer2013

    数据集地址:https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/data

    发布于2013年,该数据集包含共26190张48*48灰度图,图片的分辨率比较低,共6种表情。分别为0 anger生气、1 disgust 厌恶、2 fear 恐惧、3 happy 开心、4 sad 伤心、5 surprised 惊讶、6 normal 中性。

    25、RAF

    数据集地址:http://www.whdeng.cn/RAF/model1.html

    发布于2017年,包含总共29672 张图片,其中7个基本表情和12 个复合表情,而且每张图还提供了5个精确的人脸关键点,年龄范围和性别标注。

    26、EmotionNet

    数据集地址:http://cbcsl.ece.ohio-state.edu/EmotionNetChallenge/

    发布于2017年,共950,000张图,其中包含基本表情,复合表情,以及表情单元的标注。

    另外还有一些需要申请的数据集如SCFace等就不再介绍,表情识别目前的关注点已经从实验室环境下转移到具有挑战性的真实场景条件下,研究者们开始利用深度学习技术来解决如光照变化、遮挡、非正面头部姿势等问题,仍然有很多的问题需要解决。

    另一方面,尽管目前表情识别技术被广泛研究,但是我们所定义的表情只涵盖了特定种类的一小部分,尤其是面部表情,而实际上人类还有很多其他的表情。表情的研究相对于颜值年龄等要难得多,应用也要广泛的多,相信这几年会不断出现有意思的应用。

    27、MORPH

    数据集地址:http://www.faceaginggroup.com/morph/

    发布于2017年,包括13,000多个人的55,000张图,年龄范围是16到77。

     

     

    展开全文
  • 2020年7月抖音短视频用户年龄分布.xls
  • 2018年中国慢性病患者年龄结构.xls
  • 2020年7月快手应用用户年龄分布.xls
  • 全国在第六次人口普查的数据,各身份分年龄、性别,格式为Excel。可用于数据分析。
  • 利用线性回归和局部加权线性回归分别来预测鲍鱼年龄,充分感知两种方法的优劣点。
  • 医疗CT影像、年龄和对比标注数据医疗CT影像、年龄和对比标注数据医疗CT影像、年龄和对比标注数据医疗CT影像、年龄和对比标注数据
  • 山猪QQ年龄急速查询是一款可以极速查询QQ年龄(不需要登录,不需要打码)。可以按照年龄段过滤出数据。使用说明:登录软件后,点击“导入数据”导入账号,再点击“开始工作”即
  • 定义构造方法用来初始化数据成员。再定义显示display方法将姓名和年龄打印出来。 在main方法中创建人类的实例然后将信息显示。 代码如下: /* * 编写Java程序用于显示人的姓名和年龄。 * 定义一个人类Person该类中...

    编写Java程序用于显示人的姓名和年龄。 定义一个人类Person该类中应该有两个私有属性姓名name和年龄age。定义构造方法用来初始化数据成员。再定义显示display方法将姓名和年龄打印出来。 在main方法中创建人类的实例然后将信息显示。

    代码如下:

    /*
     * 编写Java程序用于显示人的姓名和年龄。
     * 定义一个人类Person该类中应该有两个私有属性姓名name和年龄age。
     * 定义构造方法用来初始化数据成员。再定义显示display方法将姓名和年龄打印出来。
     * 在main方法中创建人类的实例然后将信息显示。
     */
    
    public class Person {
    	public static void main(String[] args) {
    		Person person = new Person("abc", 12);
    		System.out.println(person.display());
    	}
    
    	private String name;
    	private int age;
    
    	public Person() {
    		super();
    	}
    
    	public Person(String name, int age) {
    		super();
    		this.name = name;
    		this.age = age;
    	}
    
    	public String getName() {
    		return name;
    	}
    
    	public void setName(String name) {
    		this.name = name;
    	}
    
    	public int getAge() {
    		return age;
    	}
    
    	public void setAge(int age) {
    		this.age = age;
    	}
    
    	public String display() {
    		return "Person [name=" + name + ", age=" + age + "]";
    	}
    
    }
    
    展开全文
  • 数据集介绍1.鲍鱼数据集的读取与分析3.变量关系可视化4.属性对相关性可视化 0.数据集介绍 鲍鱼数据集可以从 UC Irvine 数据仓库中获得,其 URL 是 ...

    0.数据集介绍

    鲍鱼数据集可以从 UC Irvine 数据仓库中获得,其 URL 是 http://archive.ics.uci.edu/ml/machine-earning-database/abalone/abalone.data。此数据集数据以逗号分隔,没有列头。每个列的名字存在另外一个文件中。建立预测模型所需的数据包括性别、长度、直径、高度、整体重量、去壳后重量、脏器重量、壳的重量、环数。最后一列“环数”是十分耗时采获得的,需要锯开壳,然后在显微镜下观察得到。这是一个有监督机器学习方法通常需要的准备工作。基于一个已知答案的数据集构建预测模型,然后用这个预测模型预测不知道答案的数据。

    1.鲍鱼数据集的读取与分析

    import pandas as pd
    from pandas import DataFrame
    from pylab import *
    import matplotlib.pyplot as plot
    
    target_url =  ("http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data")
    ## 数据集读取
    abalone = pd.read_csv(target_url,header=None,prefix="V")
    abalone.columns= ['Sex', 'Length', 'Diameter', 'Height', 'Whole weight','Shucked weight', 'Viscera weight', 'Shell weight', 'Rings']
    print(abalone.head())
    print(abalone.tail())
    
    ## 统计信息
    summary = abalone.describe()
    print(summary)
    
    ## 实值属性的箱线图
    array = abalone.iloc[:,1:9].values
    boxplot(array)
    plot.xlabel("Attribute Index")
    plot.ylabel("Quartile Ranges")
    show()
    
    ## 最后一列与其他不成比例,remove然后replot
    array2 = abalone.iloc[:,1:8].values
    boxplot(array2)
    plot.xlabel("Attribute Index")
    plot.ylabel("Quartile Ranges")
    show()
    
    ## 所有列归一化
    abaloneNormalized = abalone.iloc[:,1:9]
    
    for i in range(8):
        mean = summary.iloc[1,i]
        sd = summary.iloc[2,i]
        abaloneNormalized.iloc[:,i:(i+1)] = (abaloneNormalized.iloc[:,i:(i + 1)] - mean) / sd
    
    array3 = abaloneNormalized.values
    boxplot(array3)
    plot.xlabel("Attribute Index")
    plot.ylabel("Quartile Ranges - Normalized ")
    show()
    
      Sex  Length  Diameter  Height  Whole weight  Shucked weight  Viscera weight  \
    0   M   0.455     0.365   0.095        0.5140          0.2245          0.1010   
    1   M   0.350     0.265   0.090        0.2255          0.0995          0.0485   
    2   F   0.530     0.420   0.135        0.6770          0.2565          0.1415   
    3   M   0.440     0.365   0.125        0.5160          0.2155          0.1140   
    4   I   0.330     0.255   0.080        0.2050          0.0895          0.0395   
    
       Shell weight  Rings  
    0         0.150     15  
    1         0.070      7  
    2         0.210      9  
    3         0.155     10  
    4         0.055      7  
         Sex  Length  Diameter  Height  Whole weight  Shucked weight  \
    4172   F   0.565     0.450   0.165        0.8870          0.3700   
    4173   M   0.590     0.440   0.135        0.9660          0.4390   
    4174   M   0.600     0.475   0.205        1.1760          0.5255   
    4175   F   0.625     0.485   0.150        1.0945          0.5310   
    4176   M   0.710     0.555   0.195        1.9485          0.9455   
    
          Viscera weight  Shell weight  Rings  
    4172          0.2390        0.2490     11  
    4173          0.2145        0.2605     10  
    4174          0.2875        0.3080      9  
    4175          0.2610        0.2960     10  
    4176          0.3765        0.4950     12  
                Length     Diameter       Height  Whole weight  Shucked weight  \
    count  4177.000000  4177.000000  4177.000000   4177.000000     4177.000000   
    mean      0.523992     0.407881     0.139516      0.828742        0.359367   
    std       0.120093     0.099240     0.041827      0.490389        0.221963   
    min       0.075000     0.055000     0.000000      0.002000        0.001000   
    25%       0.450000     0.350000     0.115000      0.441500        0.186000   
    50%       0.545000     0.425000     0.140000      0.799500        0.336000   
    75%       0.615000     0.480000     0.165000      1.153000        0.502000   
    max       0.815000     0.650000     1.130000      2.825500        1.488000   
    
           Viscera weight  Shell weight        Rings  
    count     4177.000000   4177.000000  4177.000000  
    mean         0.180594      0.238831     9.933684  
    std          0.109614      0.139203     3.224169  
    min          0.000500      0.001500     1.000000  
    25%          0.093500      0.130000     8.000000  
    50%          0.171000      0.234000     9.000000  
    75%          0.253000      0.329000    11.000000  
    max          0.760000      1.005000    29.000000  
    

    在这里插入图片描述

    在这里插入图片描述
    2-3
    图1所示的箱线图是一种比打印出数据更快、更直接的发现异常点的方法,但是最后一个环数属性(最右边的盒子)的取值范围导致其他属性都被“压缩”了(导致很难看清楚)。一种简单的解决方法就是把取值范围最大的那个属性删除。结果如图2所示。这个方法并不令人满意,因为没有实现根据取值范围自动缩放(自适应)。更好的方法是在画箱线图之前将属性值归一化(normalization)。此处的归一化指确定每列数据的中心,然后对数值进行缩放,使属性1的一个单位值与属性2的一个单位值相同。在数据科学中有相当数量的算法需要这种归一化。例如,K-means聚类方法是根据行数据之间的向量距离来进行聚类的。距离是对应坐标上的点相减然后取平方和。单位不同,算出来的距离也会不同。到一个杂货店的距离以英里为单位是1英里,以英尺为单位就是5280英尺。本例的归一化是把属性数值都转换为均值为0、标准差为1的分布,归一化计算用到了函数summary()的结果。归一化后的效果如图3所示。注意:注意归一化到标准差1并不意味着所有的数据都在-1和+1之间。盒子的顶边和底边多少都会在-1和+1附近,但是还有很多数据在这个边界外。

    3.变量关系可视化

    下一步是看属性之间、属性与标签之间的关系。对于分类问题,折线代表了一行数据,折线的颜色表明了其所属的类别。这有利于可视化属性和所属类别之间的关系。鲍鱼问题是一个回归问题,应该用不同的颜色来对应标签值的高低。也就是实现由标签的实数值到颜色值的映射,需要将标签的实数值压缩到[-1,1]区间。

    import pandas as pd
    from pandas import DataFrame
    from pylab import *
    import matplotlib.pyplot as plot
    from math import exp
    
    target_url =  ("http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data")
    ## 数据集读取
    abalone = pd.read_csv(target_url,header=None,prefix="V")
    abalone.columns= ['Sex', 'Length', 'Diameter', 'Height', 'Whole weight','Shucked weight', 'Viscera weight', 'Shell weight', 'Rings']
    
    ## 统计信息
    summary = abalone.describe()
    minRings = summary.iloc[3,7]
    maxRings = summary.iloc[7,7]
    nrows = len(abalone.index)
    print(nrows)
    
    for i in range(nrows):
        #plot rows of data as if they were series data
        dataRow = abalone.iloc[i,1:8]
        labelColor = (abalone.iloc[i,8] - minRings) / (maxRings - minRings) ## min-max归一化
        dataRow.plot(color=plot.cm.RdYlBu(labelColor), alpha=0.5)
        
    plot.xlabel("Attribute Index")
    plot.ylabel(("Attribute Values"))
    plot.show()
    
    #均值-方差归一化
    meanRings = summary.iloc[1,7]
    sdRings = summary.iloc[2,7]
    for i in range(nrows):
        #plot rows of data as if they were series data
        dataRow = abalone.iloc[i,1:8]
        normTarget = (abalone.iloc[i,8] - meanRings)/sdRings
        labelColor = 1.0/(1.0 + exp(-normTarget))
        dataRow.plot(color=plot.cm.RdYlBu(labelColor), alpha=0.5)
    plot.xlabel("Attribute Index")
    plot.ylabel(("Attribute Values"))
    plot.show()
    
    4177
    

    在这里插入图片描述
    在这里插入图片描述
    上图1显示每个属性和目标环数的相关性。在属性值相近的地方,折线的颜色也比较接近,则会集中在一起。这些相关性都暗示可以构建相当准确的预测模型。相对于那些体现了良好相关性的属性和目标环数,有些微弱的蓝色折线与深橘色的区域混合在一起,说明这些实例可能很难正确预测。图2为均值方差归一化之后的结果。转换后可以更充分地利用颜色标尺中的各种颜色。注意到针对整体重量和去壳后的重量这两个属性,有些深蓝的线(对应具有大环数的品种)混入了浅蓝线的区域,甚至是黄色、亮红的区域。这意味着,当鲍鱼的年龄较大时,仅仅这些属性不足以准确地预测出鲍鱼的年龄(环数)。好在其他属性(如直径、壳的重量)可以很好地把深蓝线区分出来。这些观察都有助于分析预测错误的原因。

    4.属性对相关性可视化

    最后一步是看不同属性之间的相关性和属性与目标之间的相关性。遵循的方法与“岩石 vs. 水雷”数据集相应章节里的方法一样,只有一个重要差异:因为鲍鱼问题是进行实数值预测,所以在计算关系矩阵时可以包括目标值。

    import pandas as pd
    from pandas import DataFrame
    from pylab import *
    import matplotlib.pyplot as plot
    
    target_url =  ("http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data")
    ## 数据集读取
    abalone = pd.read_csv(target_url,header=None,prefix="V")
    abalone.columns= ['Sex', 'Length', 'Diameter', 'Height', 'Whole weight','Shucked weight', 'Viscera weight', 'Shell weight', 'Rings']
    
    ## 计算所有实值列(包括目标)的相关矩阵
    corMat = DataFrame(abalone.iloc[:,1:9].corr())
    print(corMat)
    
    ## 使用热图可视化相关矩阵
    plot.pcolor(corMat)
    plot.show()
    
                      Length  Diameter    Height  Whole weight  Shucked weight  \
    Length          1.000000  0.986812  0.827554      0.925261        0.897914   
    Diameter        0.986812  1.000000  0.833684      0.925452        0.893162   
    Height          0.827554  0.833684  1.000000      0.819221        0.774972   
    Whole weight    0.925261  0.925452  0.819221      1.000000        0.969405   
    Shucked weight  0.897914  0.893162  0.774972      0.969405        1.000000   
    Viscera weight  0.903018  0.899724  0.798319      0.966375        0.931961   
    Shell weight    0.897706  0.905330  0.817338      0.955355        0.882617   
    Rings           0.556720  0.574660  0.557467      0.540390        0.420884   
    
                    Viscera weight  Shell weight     Rings  
    Length                0.903018      0.897706  0.556720  
    Diameter              0.899724      0.905330  0.574660  
    Height                0.798319      0.817338  0.557467  
    Whole weight          0.966375      0.955355  0.540390  
    Shucked weight        0.931961      0.882617  0.420884  
    Viscera weight        1.000000      0.907656  0.503819  
    Shell weight          0.907656      1.000000  0.627574  
    Rings                 0.503819      0.627574  1.000000  
    

    在这里插入图片描述
    上面的关联热图中,黄色代表强相关,蓝色代表弱相关。目标(壳上环数)是最后一项,即关联热图的第一行和最右列。蓝色说明这些属性与目标弱相关。浅蓝对应目标(壳上环数)与壳的重量的相关性。这个结果与在平行坐标图看到的一致。

    展开全文
  • 源代码
  • 基于关联规则对不同年龄段强直性脊柱炎患者血小板参数及免疫炎症代谢指标的数据挖掘.pdf
  • 数据分组--按照年龄分组

    千次阅读 2021-01-02 14:59:07
    使用if或者vlookup函数,进行对员工年龄分组。 if嵌套有层数限制。 VLOOKUP (查找值、包含查找值的范围、区域中包含返回值的列号、近似匹配 (TRUE) 或完全匹配 (FALSE) ) 。 IF(内容为 True,则执行某些操作,否则...

    使用if或者vlookup函数,进行对员工年龄分组。
    if嵌套有层数限制。

    VLOOKUP (查找值、包含查找值的范围、区域中包含返回值的列号、近似匹配 (TRUE) 或完全匹配 (FALSE) ) 。
    
    IF(内容为 True,则执行某些操作,否则就执行其他操作)
    
    • 使用if进行分组,按照30,50进行分组:
      =IF(D2<30,"(0,30)",IF(D2<50,"[30,50)","[50,∞)"))
      在这里插入图片描述
    1. 使用vlookup进行分组
    • 首先建立另外一个范围表,如下图,分为4个年龄段:
      在这里插入图片描述

    • 将员工对年龄列和新建对范围表中匹配的单元格进行模糊匹配,得到结果如下:
      =VLOOKUP(D2,$J 2 : 2: 2:L$5,2,2)
      在这里插入图片描述

    展开全文
  • 编写程序,新建一个雇员类,它的数据成员有雇员代号,年龄,工资,性别, 姓名,输入雇员资料方法,打印雇员资料方法。以此雇员类为基类,从中派生出教师类,其中要求在教师类中加入一个计算教师工资的方法,教师...
  • Access数据库常用函数如图所示,可根据实际计算...例如:SELECT用户 ID,年龄,IIF(年龄<=20,"20岁及其以下",IIF(年龄<=30,"21-30岁",IIF(年龄<=40,"31-40岁","40岁以上"))) AS年龄分组FROM用户明细;2、CHO...
  • 论文研究-农村分性别户籍人口年龄结构统计数据修正------以陕西省宝鸡市陈仓区为例.pdf, 农村分性别户籍人口年龄结构统计数据是研究农村问题的基础数据, 文章以农村分...
  • 其实我想说,只要你想学、你肯学,不管什么时候都是可以的。 一、学习大数据的最佳年龄: 学习大数据的黄金年龄在20-33岁之间,但这并不代表40或者50岁就学不会大数据。只要你想学,也肯学,绝对会学有所成。因为...
  • 根据生日获取年龄年龄单位的oracle存储过程, 输入参数为生日,传出参数年龄年龄单位
  • GC分代年龄什么是15?

    万次阅读 多人点赞 2019-12-26 19:27:20
    幸存者区内部又分为“From区”和“To区”,在幸存者区,对象仍然要面临GC,每经历一次GC,对象就要在From区和To区之间来回移动,每移动一次对象的GC年龄就加1,当年龄加到15时(不绝对),JVM会将对象移动到老年区。...
  • 通过pso(粒子群算法)优化支持向量机回归模型中的惩罚系数和gamma系数,用于预测鲍鱼的年龄数据集也在文件中,模型还不够完善,下次改进再发出来,不过能够运行,准确度还是有所提高,只是计算时间稍长,大概2个...
  • 最近参见了第二届易观算法大赛——性别年龄预测比赛,基于不懈的努力还是名落孙山,成绩虽然算不得满意,不过比赛过程中收获还是挺多的。目前比赛还没结束,有兴趣的可以参加一下。 本次主要是对比赛中的训练数据...
  • 鲍鱼年龄预测

    千次阅读 2020-10-14 15:48:59
    经典的线性回归模型主要用来预测一些存在着线性关系的数据集。回归模型可以理解为:存在一个点集,用一条曲线去拟合它分布的过程。如果拟合曲线是一条直线,则称为线性回归。如果是一条二次曲线,则被称为二次回归。...
  • 2001-2019英国人口年龄结构数据

    千次阅读 2020-06-29 11:06:57
    2001-2019英国人口年龄结构数据 2001-2019年,各年中英国人口年龄结构数据数据极其详细,详细到可以查看每个地区每个年龄的具体人数。 —— 数据由英国统计局(Office for National Statistics)统计,数客转载并...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 406,263
精华内容 162,505
关键字:

年龄属于什么数据