精华内容
下载资源
问答
  • This is a fictional data set created by IBM data scientists. WA_Fn-UseC_-HR-Employee-Attrition.csv
  • 员工离职数据-数据集

    2021-03-12 22:12:44
    数据集包含14999个样本以及10个特征, 通过现有员工是否离职的数据, 建立模型预测有可能离职的员工. HR_comma_sep.csv
  • 员工离职因素数据集

    2019-07-17 08:20:14
    这是员工离职因素数据集,包含了员工工作时长,KPI打分等等影响离职的因素,是博主博客决策树与随机森林所应用到的数据集
  • msyql 员工员工样本数据库, 由于官方得下载路径速度太慢, 本人做了一次搬运 有关法律信息,请参阅《法律声明》。 有关使用MySQL的帮助,请访问 MySQL论坛,您可以在此与其他MySQL用户讨论您的问题。 本资源仅供个人...
  • 员工离职预测-数据集

    2021-03-30 20:18:41
    员工离职预测-数据集
  • 员工每月工资数据集可视化分析

    千次阅读 2020-11-15 14:46:59
    最近在学习《从零开始学Python数据分析》这本书,第六章的综合实例——巴尔的摩公务员工资数据集,原网站上数据集被清除,于是在Kaggle上寻找了相似的数据“Employee_monthly_salary.csv”进行可视化数据分析。...

    前言

    最近在学习《从零开始学Python数据分析》这本书,第六章的综合实例——巴尔的摩公务员工资数据集,原网站上数据集被清除,于是在Kaggle上寻找了相似的数据“Employee_monthly_salary.csv”进行可视化数据分析。

    工作环境

    系统: windows10

    工具: pycharm2019.2.6

    第三方包:
    pandas1.1.4
    numpy
    1.19.4
    matplotlib==3.3.2


    文件(Employee_monthly_salary.csv)

    在这里插入图片描述


    完整代码

    # import numpy as np
    import pandas as pd
    # from pandas import DataFrame
    import matplotlib.pyplot as plt
    # import matplotlib as mlb
    
    pd.set_option('mode.chained_assignment', None)  # 消除链接操作时警示(治标不治本)
    
    
    """
    EmpID 职工ID
    Name 姓名
    Gender 性别
    Date_of_Birth 出生日期 
    Age 年龄
    Join_Date 入职日期
    Tenure_in_org_in_months 工作总月份 
    GROSS 总工资
    Net_Pay 实际工资
    Deduction 扣除部分
    Deduction_percentage 扣除百分比 
    Designation 职位
    Department 部门
    """
    
    """
    我们即将实现的功能:
    	1.男女平均工资对比;
    	2.男性和女性最高工资和最低工资对比;
    	3.月薪的分布状况 
    	4.人数最多的职位Top5的平均工资;
    	5.不同月份入职人员数量;
    	6.任职时间和工资的关系
    	"""
    
    # 主菜单
    def menu():
        print('*' * 10, '请选择功能', '*' * 10, '\n')
        print('请输入对应功能的序号:')
        print("1.男女工资平均对比")
        print('2.最高工资和最低工资对比')
        print('3.月薪分布状况')
        print('4.人数最多的职位Top5的平均工资')
        print('5. 不同月份入职人员数量')
        print('6. 入职时间和工资的关系')
        print("输入0字符退出")
        print('*' * 10, '退出程序', '*' * 10, '\n')
    
    
    # 男女平均工资对比
    def sex_salary(salary):
        avg_salary = salary.groupby('Gender')['Net_Pay'].mean()  # 求平均数
        avg_salary.plot.bar(color='orange')   # 设置柱的颜色
        plt.show() #  画布
    
    
    # 男性和女性最高工资和最低工资对比
    def salary_contrast(salary):
        max_salary = salary.groupby('Gender', as_index=False)['Net_Pay'].max()  # 求最大值
        print(max_salary)
        min_salary = salary.groupby('Gender', as_index=False)['Net_Pay'].min()  # 求最小值
        print(min_salary)
        salary_s = pd.merge(max_salary, min_salary, on='Gender', suffixes=['_max_salary', '_min_salary'])  # 数据合并,suffixes设置区分两个数据同名列
        # 由于最低工资过低,我们这里将它扩大100倍来进行比较
        salary_s['Net_Pay_min_salary'] = salary_s.loc[:, 'Net_Pay_min_salary'] * 100
        salary_s.plot(kind='bar')  # bar代表柱形图
        plt.show()
    
    
    # 工资的分布状况
    def salary_distribution(salary):
        salary['Net_Pay'].hist(bins=20)  # bins将值分段,不设置默认为10, hist绘制直方图
        plt.show()
    
    
    # 人数最多的职位Top5的平均工资
    def designation_top(salary):
        avg_salary = salary.groupby('Designation')['Net_Pay'].agg(['mean', 'count'])  # 数据分组,mean求不同职位工资平均值,count计算不同职位人数
        sort_salary = avg_salary.sort_values(by='count', ascending=False)[:5]  # by指定排序列名,ascending=False设置降序,默认升序
        sort_salary['mean'].plot(kind='bar')  # 这里的mean是自动创建的平均值列名,绘制柱形图
        plt.show()
    
    # conversion函数用于将数据里类似“01”,“02”等转化为12,类型为str
    def conversion(x):
        data = {
            '01': 1,
            '02': 2,
            '03': 3,
            '04': 4,
            '05': 5,
            '06': 6,
            '07': 7,
            '08': 8,
            '09': 9,
        }
        list_data = ['01', '02', '03', '04', '05', '06', '07', '08', '09']
    
        if x in list_data:
            x = data[x]
            return str(x)
        else:
            return x
    
    
    # 不同月份入职人员数量
    def month_count(salary):
        salary['month'] = salary['month'].map(conversion)  # 使用map函数将month列传入conversion实现数据修改
        month_counts = salary['month'].value_counts()  # value_counts统计每个月份入职人员数
        month_counts.plot(kind='bar')
        plt.show()
    
    
    # 工作时间和工资的关系
    def work_months(salary):
        salary.plot(kind='scatter', x='Tenure_in_org_in_months', y='Net_Pay')  # 绘制散点图,展示工作时间和工资的关系
        plt.show()
    
    
    # 主函数
    def main():
        df = pd.read_csv('Employee_salary.csv')  # 读取数据集
        # print(df.info())  # 打印信息
        # print(df.shape)  # DataFrame维度
        # print(df.isnull().sum())  # 统计缺失值总数
        df = df.dropna()  # 删除有缺失值的行
        salary = df[['EmpID', 'Name', 'Gender', 'Age', 'Join_Date', 'Tenure_in_org_in_months', 'Net_Pay',
                     'Designation']]  # 选择部分字段使用
        # df.to_csv('employee.csv')  # 将新DataFrame对象数据写入csv文件中
        salary['month'] = salary['Join_Date'].str.split('/').str[1]  # 将Join_Date入职日期分离,获取入职月份,添加新列到salary中
        menu()
    
        n = eval(input("请输入编号:(1/2/3/4/5/6/0):"))  # 输入对应整数选择功能
        print("\n")
        if n == 1:
            sex_salary(salary)
        elif n == 2:
            salary_contrast(salary)
        elif n == 3:
            salary_distribution(salary)
        elif n == 4:
            designation_top(salary)
        elif n == 5:
            month_count(salary)
        elif n == 6:
            work_months(salary)
        else:
            exit(0)
    
    
    if __name__ == "__main__":  # 当程序因为自身调动是才启动程序
        main()
    
    

    功能效果展示


    男女平均工资对比

    男女平均工资对比
    分析:M(male)代表男性,F(female)代表女性,女性平均工资低于男性,大致接近(可能存在样本量不足因素)


    男性和女性最高工资和最低工资对比

    在这里插入图片描述
    分析:0为女性,1为男性(忘了改了,问题不大),无论男性还是女性最低和最高工资差距极大(注意这里最低工资已经乘了100倍);最高工资男性较高,最低工资男女接近。


    工资的分布状况

    在这里插入图片描述
    分析:满足正太分布,工资在100000左右的居大多数。


    人数最多的职位Top5的平均工资

    在这里插入图片描述


    不同月份入职人员数量

    在这里插入图片描述
    分析:没有按照顺序排列月份(自己搞去),默认从高到低排列,7月入职的人最多,2月最少。


    工作时间和工资的关系

    在这里插入图片描述
    分析:数据可见,工作时间长工资不一定就高啊。

    数据集

    最最重要的来了,拿走不用谢

    码云(gitee)

    注意:
    我在项目文件里修改了文件名称,切莫忘记修改

    展开全文
  • 员工离职预测---ZhouYi
  • 员工离职预测数据集 https://dongfangyou.blog.csdn.net/article/details/109398904
  • 找出导致员工流失的因素,并探讨一些重要问题,例如“按工作角色和流失率显示离家距离的细分”或“按教育程度和流失率比较平均月收入...这是由IBM数据科学家创建的虚构数据集。 WA_Fn-UseC_-HR-Employee-Attrition.csv
  • Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息,由美国联邦能源管理委员会进行调查期间发布。
  • The data consists of real historical data collected from 2010 & 2011. 该数据包含从2010年和2011年收集的真实历史数据。 sampleSubmission.csv test.csv train.csv
  • 大数据文摘出品来源:medium编译:张大笔茹、夏雅薇对于那些对数据数据分析或数据科学感兴趣的人,提供一份可以利用业余时间完成的数据科学项目清单,一共14个!项目分为三种类型:可视化...

    大数据文摘出品 来源:medium

    编译:张大笔茹、夏雅薇

    对于那些对数据,数据分析或数据科学感兴趣的人,提供一份可以利用业余时间完成的数据科学项目清单,一共14个!

    项目分为三种类型:

    • 可视化项目

    • 探索性数据分析(EDA)项目

    • 预测建模

    可视化项目

    最容易上手的就是数据可视化, 以下三个数据集可以用于创建一些有意思的的可视化效果并加到你的简历中。

    新冠病毒可视化

    学习如何使用Plotly构建动态可视化数据,展示冠状病毒是如何在全球范围内传播的。Plotly很好用,它可以做动态可视化,好看且操作简单。

    难易程度:简单

    数据集:

    https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

    教程:

    https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5

    澳洲大火数据可视化

    2019-2020年的丛林大火季,也称为黑色夏天,由2019年6月开始的几场极端野火组成的。据维基百科统计,这场大火烧毁了约1,860万公顷的土地和5,900多座建筑物。

    这是一个有趣的项目,可以利用Plotly或Matplotlib数据可视化工具来可视化野火的规模和对地理的影响。

    难易程度:简单

    数据集:

    https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

    地表温度可视化

    你是否怀疑过全球变暖的观点?创建一些数据可视化效果,显示地球表面温度如何随时间变化,并可以通过创建折线图或其他动画的Choropleth贴图来实现!也可以创建一个预测模型来预测未来五十年内地球的温度。

    难易程度:介于简单到中等之间

    数据集:

    https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

    探索性数据分析项目

    探索性数据分析(EDA),也称为数据挖掘,意思是数据分析过程中使用了多种技术来更好理解数据。

    纽约Airbnb数据挖掘

    自2008年以来,Airbnb使游客和房东出行更方便,提出更多个性化的体验世界的方式。该数据集包含有关2019年纽约出租的信息以及包含其地理信息,价格,评论数量等。

    可以分析的一些角度如下:

    • 哪些区域生意最好,为什么?

    • 哪些区域的流量比其他区域大,为什么?

    • 价格,评论数量和预订天数之间是否存在一些关系?

    难易程度:中等

    数据集:

    https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

    哪些因素与员工离职和绩效有关

    IBM公开了一个综合数据集,可以使用它来了解各种因素如何影响员工的流失率和满意度。一些变量包括教育程度,工作相关性,绩效评估和工作生活平衡程度等。

    分析此数据集,找到任何确实影响员工满意度的变量,另外,还可以看看是否可以对变量进行重要程度排名。

    难易程度:简单

    数据集:

    https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

    世界大学排名

    你认为你的国家拥有世界上最好的大学吗?成为“最好”大学的衡量标准是什么?该数据集包含三个全球大学排名方式。使用此数据,你是否可以回答以下问题:

    顶尖的大学都在哪些国家?

    决定世界排名的主要因素是什么?

    难易程度:简单

    数据集:

    https://www.kaggle.com/mylesoneill/world-university-rankings

    饮酒与在校表现

    喝酒会影响学生的成绩吗?如果不会,那有什么别的影响吗?这个数据是从中学数学和葡萄牙语课程的学生进行的一项调查中获得的。它包含几个变量,例如饮酒量,家庭人数,参与课外活动。

    利用这些数据,挖掘学校成绩与各种因素之间的关系。另外,看看是否可以根据其他变量来预测学生的成绩!

    难易程度:简单

    数据集:

    https://www.kaggle.com/uciml/student-alcohol-consumption

    宠物小精灵数据挖掘

    对所有游戏玩家来说,这是一个包含来自七代802个 Pokemon的信息数据集。试着回答以下几个问题!

    • 哪一代宠物小精灵最强?哪代最弱?

    • 哪种类型神奇宝贝最强?哪种最弱?

    • 能否建立分类器来识别神奇宝贝?

    • 身体特征与力量状态(进攻,防守,速度等)之间是否有相关性?

    难易程度:简单

    数据集:

    https://www.kaggle.com/rounakbanik/pokemon

    探索影响预期寿命的因素

    世卫组织建立了一段时间内所有国家健康状况的数据集,其中包括预期寿命,成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系,预测对预期寿命的最大影响因素是什么?

    请尝试回答以下问题:

    • 最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量有哪些?

    • 预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?

    • 婴儿和成人死亡率如何影响预期寿命?

    • 预期寿命与饮食习惯,生活方式,运动,吸烟,饮酒等是正相关还是负相关?

    • 是否接受教育对人类寿命有何影响?

    • 预期寿命与饮酒是正相关还是负相关?

    • 人口稠密的国家的预期寿命是否有降低的趋势?

    • 免疫覆盖率对预期寿命有什么影响?

    难易程度:简单

    数据集:

    https://www.kaggle.com/kumarajarshi/life-expectancy-who

    预测模型

    能源消耗的时间序列预测

    该数据集由美国区域传输组织PJM网站上的功耗数据组成,使用此数据集,查看是否可以构建时间序列模型来预测能耗。除此之外,还可以查看是否可以找到一天中每个小时的趋势,假日用电量以及长期趋势!

    难度:中高级

    数据集:

    https://www.kaggle.com/robikscube/hourly-energy-consumption

    贷款预测

    该数据集取自Analytics Vidhya,包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。

    难易程度:简单

    数据集:

    https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

    二手车价格计算器

    Craigslist是全球最大的二手车经销商,该数据集由Craigslist的抓取数据组成,每隔几个月更新一次。使用此数据集,查看是否可以创建一个数据集来预测一辆汽车价格是否被高估或低估了。

    难易程度:中等

    数据集:

    https://www.kaggle.com/austinreese/craigslist-carstrucks-data

    信用卡欺诈检测

      

    该数据集显示了两天内发生的交易,其中284,807笔交易中有492笔欺诈。数据高度正态分布,欺诈占所有交易的0.172%。学习如何使用不正太的数据集并建立信用卡欺诈检测模型。

    难易程度:中高级

    数据集:

    https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

    皮肤癌图像检测

    通过10,000多张图像来构建神经网络来检测皮肤癌。这绝对是最难的项目,需要有关神经网络和图像识别的储备知识。

    难易程度:难

    数据集:

    https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000

    展开全文
  • 预测分析·员工满意度预测 train.csv test.csv
  • 数据为人力资源绩效相关数据,属性包括:员工等级、工作时间、参与项目数、所属部门、薪资、是否有过失误等。
  • aug_train-数据集

    2021-03-28 13:32:10
    您可使用数据集对离开组织岗位的员工/人员进行必要培训的预测。简要分析导致员工在培训后改变组织的原因。
  • 员工减员数据分析:对公司进行减员数据集的多个分类(KNN,朴素贝叶斯,随机森林,决策树,ANN,SVM),以预测公司对减员的主要贡献从而提高生产率
  • 数据集包含2017年中期被捕时在芝加哥市薪资册上的每位员工的姓名,职务,部门和薪水。 Current_Employee_Names__Salaries__and_Position_Titles.csv
  • SGD_SVM_RF_Classifier_Employee_Turnover:在“员工流失”数据集上应用预测模型
  • 数据集由在具有不同功能的公司中工作的员工的损耗数据组成。 Attrition_data Fix location.csv Attrition_data.csv data_cleaned_location.csv data_complete_location.csv location_clean.csv location_...
  • 人力资源数据集名称:IBM HR Analytics员工流失与绩效目的:预测有价值员工的流失描述:发现导致员工流失的因素,并探讨重要问题,例如“按工作角色和距离显示离家距离的细分减员”或“按教育程度和减员率比较平均...
  • 很多人都在讨论硅谷科技公司的员工与美国整体...此数据集可以使您自己调查23家硅谷科技公司的人口统计信息。 Tech_sector_diversity_demographics_2016.csv Reveal_EEO1_for_2016.csv Distributions_data_2016.csv
  • Mnist数据集 简单介绍

    万次阅读 2019-10-28 20:42:27
    可从此页面获得的MNIST手写数字数据库的训练为60,000个示例,而测试为10,000个示例。它是NIST可提供的更大集合的子集。这些数字已进行尺寸规格化,并在固定尺寸的图像中居中。 对于那些想在实际数据上尝试学习...

    MNIST数据库

    可从此页面获得的MNIST手写数字数据库的训练集为60,000个示例,而测试集为10,000个示例。它是NIST可提供的更大集合的子集。这些数字已进行尺寸规格化,并在固定尺寸的图像中居中。

    对于那些想在实际数据上尝试学习技术和模式识别方法而又花最少的精力进行预处理和格式化的人来说,这是一个很好的数据库。

    该站点上有四个文件:

    train-images-idx3-ubyte.gz:训练集图像(9912422字节) 
    train-labels-idx1-ubyte.gz:训练集标签( 28881字节)

    t10k-images-idx3-ubyte.gz:测试集图像(1648877字节) )
    t10k-labels-idx1-ubyte.gz:测试集标签(4542字节)

     

    也可以去我的csdn资源上下载:<

    展开全文
  • 数据集查找器Google Dataset Search:与Google Scholar的工作方式类似,Dataset Search 可以让你在任何托管的地方找到数据集,无论是出版商的网站...

    数据集查找器

    Google Dataset Search:与Google Scholar的工作方式类似,Dataset Search 可以让你在任何托管的地方找到数据集,无论是出版商的网站,还是数字图书馆,又或者是一个作者的网页。它是一个非凡的数据集查找器,包含了超过2500万个数据集。

    • https://toolbox.google.com/datasetsearch

    Kaggle:Kaggle提供了一个庞大的数据集容器,对于热衷于Kaggle的专家来说,数据集是足够了的。

    • https://www.kaggle.com/

    UCI机器学习库:UCI的机器学习库为开源数据集提供了最新的资源。

    • http://mlr.cs.umass.edu/ml/

    VisualData:按类别搜索计算机视觉数据集;它允许搜索查询。

    • https://www.visualdata.io/

    CMU库:通过CMU收集的Wang Huajin Wang可以用来发现高质量的数据集。

    • https://guides.library.cmu.edu/machine-learning/datasets

    一般数据集

    住房数据集

    波士顿住房数据集:包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的,在许多文献中被广泛用于对算法进行基准测试。

    • https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

    地理数据集

    Google-Landmarks-v2:用于地标识别和检索的数据集。该个数据集包含了来自世界各地的5百万张,包含20万多个地标的图片,这些图片由Wiki Commons社区提供和注释。

    • https://www.kaggle.com/xiuchengwang/python-dataset-download

    机器学习数据集:

    购物中心客户数据集: 购物中心客户数据集包含了特定城市中访问购物中心的客户信息。数据集由不同的列组成,包括性别、客户id、年龄、年收入和支出分数。它通常用于根据年龄、收入和兴趣对客户进行细分。

    • https://www.kaggle.com/shwetabh123/mall-customers

    IRIS数据集:IRIS数据集是一个简单的和适合初学者的数据集,包含了有关花瓣和萼片宽度的信息。数据分为三个类,每个类有50行,它通常用于分类和回归建模。

    • https://archive.ics.uci.edu/ml/datasets/Iris

    MNIST数据集:这是一个手写数字的数据集,它包含60000个训练图像和10000个测试图像,是一个适合新手用于实现图像分类的数据集,你可以从0到9对数字进行分类。

    • http://yann.lecun.com/exdb/mnist/

    波士顿住房数据集:包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的,在许多文献中被广泛用于对算法进行基准测试。

    • https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

    假新闻检测数据集:它是一个CSV文件,有7796行和4列。4列分别是:新闻、标题、新闻文本、结果。

    • https://www.kaggle.com/c/fake-news/data

    葡萄酒质量数据集:该数据集包含有关葡萄酒的不同化学信息。数据集适用于分类和回归任务。

    • https://archive.ics.uci.edu/ml/datasets/wine+quality

    SOCR 数据 - 身高和重量数据集:这是初学者的基本数据集。它包含25000个18岁的不同人类的身高和体重。该数据集可以用来建立一个模型去预测一个人的身高或体重。

    • http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

    Titanic数据集:该数据集包含诸如姓名、年龄、性别、船上兄弟姐妹人数等信息,训练集有891名乘客信息,测试集有418名乘客信息。

    • https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html

    信用卡欺诈检测数据集:该数据集包含由信用卡进行的交易信息,且交易信息被标记为欺诈性或真实性,这对于拥有交易系统的公司来说,建立一个检测欺诈活动的模型是非常有用。

    • https://www.kaggle.com/mlg-ulb/creditcardfraud

    计算机视觉数据集

    xView:xView是最庞大的空中影像公开数据集之一,它包含来自世界各地复杂场景的图像,并使用边界框进行注释。

    • http://xviewdataset.org/#dataset

    ImageNet:最大的计算机视觉图像数据集。根据WordNet的说法,它提供了一个可访问的图像数据库,而且它是按层次进行组织的。

    • http://image-net.org/

    Kinetics-700:Youtube视频url的大规模数据集,包含以人为中心的行动信息。它包含超过70万个视频。

    • https://deepmind.com/research/open-source/open-source-datasets/kinetics/

    谷歌的开放图像:来自谷歌人工智能的一个巨大的数据集,包含超过1000万张图片。

    • https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

    城市景观数据集:这是一个用于计算机视觉项目的开源数据集,它包含在50个不同城市街道拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深层神经网络来了解城市场景。

    • https://www.cityscapes-dataset.com/

    imdbwiki数据集:imdbwiki数据集是带有性别和年龄标签的人脸图像数据,是最广泛的开源数据集之一。图片数据来自IMDB和Wikipedia,有五百万多个标签图像。

    • https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/

    颜色检测数据集:该数据集包含一个CSV文件,其中有865个颜色名称及其相应的RGB(红色、绿色和蓝色)值。

    • https://github.com/codebrainz/color-names/blob/master/output/colors.csv

    斯坦福狗数据集:它包含20580张图片,120个不同品种的狗。

    • http://vision.stanford.edu/aditya86/ImageNetDogs/

    情绪分析数据集

    词典编纂者情绪词典:这个数据集是专门用于情绪分析的。数据集包含3000多个负面词汇和2000多个积极情绪词。

    • http://www.lexicoder.com/

    IMDB评论:一个有趣的数据集,包含来自Kaggle的50000多个电影评论。

    • https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

    斯坦福情绪树库:带情绪注释的标准情绪数据集。

    • http://nlp.stanford.edu/sentiment/code.html

    Twitter美国航空公司情绪:2015年2月美国航空公司的Twitter数据,数据分为正面、负面和中性推文

    • https://www.kaggle.com/crowdflower/twitter-airline-sentiment

    自然语言处理(NLP)数据集

    HotspotQA数据集:问答数据集,包含了大量的自然且多转折陈述的问题,而且对事实进行严格监督,以实现更易于解释的问答系统。

    • https://hotpotqa.github.io/

    亚马逊评论:来自亚马逊的庞大数据集,包含超过4500万条亚马逊评论。

    • https://snap.stanford.edu/data/web-Amazon.html

    烂番茄评论:超过48万的评论档案(新鲜或腐烂)。

    • https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view

    英语短信垃圾收集:一个由5574条英语短信垃圾信息组成的数据集。

    • http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

    安然电子邮件数据集:它包含超过150个用户的大约50万封电子邮件。

    • https://www.cs.cmu.edu/~enron/

    推荐系统数据集:它包含来自流行网站的各种数据集,如Goodreads书评、亚马逊产品评论、调酒数据、社交媒体数据以及其他用于构建推荐系统的数据集。

    • https://cseweb.ucsd.edu/~jmcauley/datasets.html

    UCI Spambase数据集:将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍而有用的任务。该数据集包含4601封电子邮件和57封有关电子邮件的元信息,你通过该数据集建立模型来过滤垃圾邮件。

    • https://archive.ics.uci.edu/ml/datasets/Spambase

    IMDB评论:大型电影评论数据集,包括了来自IMDB网站的电影评论,其中超过25000条评论为训练集,25000条评论为测试集。

    • http://ai.stanford.edu/~amaas/data/sentiment/

    自动驾驶(自动驾驶)数据集

    Waymo开放数据集:这是来自Waymo员工的一个很棒的数据集资源,包括大量的自动驾驶数据集,足以从零开始训练深度网络。

    • https://waymo.com/open/

    Berkeley DeepDrive BDD100k:最大的自动驾驶汽车数据集之一,包含纽约和加利福尼亚州超过2000小时的驾驶体验。

    • http://bdd-data.berkeley.edu/

    博世小交通灯数据集:小交通灯数据集。

    • https://hci.iwr.uni-heidelberg.de/node/6132

    LaRa红绿灯识别:红绿灯数据集。这个数据集是从巴黎收集的。

    • http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

    WPI数据集:用于交通灯、行人和车道检测的数据集。

    • http://computing.wpi.edu/dataset.html

    Comma.ai:它包含诸如车速、加速度、转向角和GPS坐标等详细信息。

    • https://archive.org/details/comma-dataset

    MIT AGE Lab:MIT AGE实验室收集的1000多小时的多传感器驾驶数据集的样本。

    • http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

    LISA:加州大学圣地亚哥的智能与安全汽车实验室的数据集:该数据集包括交通标志、车辆检测、交通灯和轨迹模式的数据。

    • http://cvrr.ucsd.edu/LISA/datasets.html

    城市景观数据集:这是一个广泛的数据集,包含50个不同城市的街道场景。

    • https://www.cityscapes-dataset.com/

    临床数据集

    COVID-19数据集:艾伦人工智能研究所(Allen Institute of AI research)发布的一个庞大的研究数据集,包含了45000多篇关于COVID-19的学术文章。

    • https://www.semanticscholar.org/cord19

    MIC-III:由麻省理工学院计算生理学实验室开发的公开可用数据集,包括与约40000名危重病人相关的未识别健康数据。它包括人口统计、生命体征、实验室检查、药物治疗等。

    • https://mimic.physionet.org/

    推荐系统的数据集

    MovieLens:它包含来自MovieLens网站的分级数据集。

    • https://grouplens.org/datasets/movielens/

    Jester:它包含了来自73421个用户中100个笑话的410万个连续评级(-10.00到+10.00)。它主要用于协同过滤。

    • http://www.ieor.berkeley.edu/~goldberg/jester-data/

    百万歌曲数据集:它可以用于协作和基于内容的过滤。

    • https://www.kaggle.com/c/msdchallenge#description

    参考和来源

    [1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/

    [2] Google Cloud Public Datasets, Google, https://cloud.google.com/public-datasets/

    [3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library.cmu.edu/c.php?g=844845&p=6191907

    [4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec

    [5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

    [6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

    [7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www.dataquest.io/blog/free-datasets-for-projects/

    [8] The Best Datasets for Natural Language Processing, Gengo AI, https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

    [9] Awesome Public Datasets, Github, https://github.com/awesomedata/awesome-public-datasets#machinelearning

    [10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat.cmu.edu/datasets/

    [11] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html

    [12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html

    [13] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

    [14] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets

    [15] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/

    [16] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/

    [17] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab

    [18] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/

    [19] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

    [20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://data-flair.training/blogs/machine-learning-datasets/

    参考链接:https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f

    ☆ END ☆

    如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。

    扫描二维码添加小编↓

    展开全文
  • 在计划结束时,基于各种因素,例如培训绩效,KPI完成(仅考虑KPI大于60%的员工)等,员工才能晋升 他们提供了有关员工过去和当前表现以及人口统计的多个属性。 现在,任务是预测在评估过程之后是否会提升测试集中...
  • 机器学习-员工离职预测训练赛

    千次阅读 2019-02-18 12:46:37
    数据来源】DC竞赛的员工离职预测训练赛 一共两个csv表格,pfm_train.csv训练(1100行,31个字段),pfm_test.csv测试(350行,30个字段) 【字段说明】 Age:员工年龄 Attrition:员工是否已经离职,1表示...
  • hr员工数据分析(实战)

    千次阅读 2019-07-04 10:47:00
    hr员工数据分析项目实战 (数据已脱敏) 背景说明 某公司最近公司发生多起重要员工意外离职、部分员工工作缺乏积极性等问题,受hr部门委托,开展数据分析工作。 经与hr部门沟通,确定以下需求: 制定数据仪表...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 64,100
精华内容 25,640
关键字:

员工数据集