-
泰坦尼克数据集kaggle Titanic下载
2020-08-22 10:47:56泰坦尼克号乘客数据集和鸢尾花数据集一样, 是机器学习中最常用的样例数据集之一。为了下次查找方便,故分享...文件不大,可以直接下载。 百度网盘链接: https://pan.baidu.com/s/1UQwKboBHFx5BpPe1cwkzfA 提取码: ss3v泰坦尼克号乘客数据集和鸢尾花数据集一样, 是机器学习中最常用的样例数据集之一。为了下次查找方便,故分享一下。文件不大,可以直接下载。
百度网盘链接: https://pan.baidu.com/s/1UQwKboBHFx5BpPe1cwkzfA 提取码: ss3v -
-
titanic数据集下载
2018-04-21 20:21:39titanic数据集,分为训练集和测试集,训练集有12列特征 -
-
-
-
-
kaggle Titanic 数据集下载
2020-04-29 11:25:45链接:https://pan.baidu.com/s/1kEcyx7lwAdMNYTvM4WhhFw 提取码:3gog链接:https://pan.baidu.com/s/1kEcyx7lwAdMNYTvM4WhhFw
提取码:3gog -
Titanic数据集百度云盘下载
2020-10-16 19:42:52 -
flyinging_titanic:只是一个回购库,可下载titanic数据集,但有一些(突然)概念漂移-源码
2021-02-13 04:03:26漂流的 只是一个仓库,下载泰坦尼克号数据集,但有一些(突然的)概念漂移 正在下载 培训集和测试集应可通过以下...curl -LJO https://github.com/remiadon/drifting_titanic/tree/main/drifted/train.csv 测试集相同 -
titanic_train,titanic_test,gender_submission
2018-03-15 13:54:14机器学习用的titanic数据,分训练用和测试用。https://www.kaggle.com/c/titanic/data这个网站注册了无法验证通过,导致没法登陆下载数据。好不容找到的齐全的数据,供大家分享 -
-
titanic数据集_Kaggle-Titanic生存率预测
2020-12-10 15:19:032 理解数据2.1 采集数据从Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanicwww.kaggle.com2.2 导入数据2.3 查看数据集信息从结果来看,数据总共有1309行。其中数据类型列:年龄(Age)、船舱...Titanic生存率预测
1 提出问题
什么样的人在泰坦尼克号中更容易存活?
2 理解数据
2.1 采集数据
从Kaggle泰坦尼克号项目页面下载数据:
https://www.kaggle.com/c/titanicwww.kaggle.com2.2 导入数据
2.3 查看数据集信息
从结果来看,数据总共有1309行。
其中数据类型列:年龄(Age)、船舱号(Cabin)里面有缺失数据:
- 1)年龄(Age)里面数据总数是1046条,缺失了1309-1046=263,缺失率263/1309=20%;
- 2)船票价格(Fare)里面数据总数是1308条,缺失了1条数据。
字符串列:
- 1)登船港口(Embarked)里面数据总数是1307,只缺失了2条数据,缺失比较少;
- 2)船舱号(Cabin)里面数据总数是295,缺失了1309-295=1014,缺失率=1014/1309=77.5%,缺失比较大。
3 数据清洗
在本案例中,只需对数据进行缺失值处理和异常值处理
常见的缺失值处理方法有:
- 如果是数值类型,用平均值取代
- 如果是分类数据,用最常见的类别取代
- 使用模型预测缺失值,例如:KNN
3.1 数据预处理
对年龄、登船港口和船票价格用平均值来填充缺失值数据,用fillna方法实现数据填充。
3.2 特征提取
1.数据分类
本案例包含两种数据类型
- (1)数值类型:乘客编号(PassengerId),年龄(Age),船票价格(Fare),同代直系亲属人数(SibSp),不同代直系亲属人数(Parch)
- (2)分类数据:用数值代替类别,并进行One-hot编码
1)有直接类别的
乘客性别(Sex):男性male,女性female;登船港口(Embarked):出发地点S=英国南安普顿Southampton,途径地点1:C=法国 瑟堡市Cherbourg,出发地点2:Q=爱尔兰 昆士敦Queenstown;客舱等级(Pclass):1=1等舱,2=2等舱,3=3等舱
2)字符串类型:可从中提取出特征
乘客姓名(Name),客舱号(Cabin),船票编号(Ticket)
2.对直接类别的列提取特征
(1)性别
(2)登船港口
使用get_dummies进行one-hot编码,产生虚拟变量(dummy variables),列名前缀是Embarked
其中drop方法删除某一列代码:因为drop(name,axis=1)里面指定了name是哪一列,比如指定的是A这一列,axis=1表示按行操作。那么结合起来就是把A列里面每一行删除,最终结果是删除了A这一列.简单来说,使用drop删除某几列的语法:drop([列名1,列名2],axis=1)
(3)客舱等级
3.字符串类型的特征提取
(1)乘客姓名
由于乘客名字当中都包含了具体的称谓或头衔,将这部分信息提取出来后可以作为一个新变量,帮助我们进行预测。
(2)客舱号
使用 lambda 来创建匿名函数,即不再使用 def 语句这样标准的形式定义一个函数,语法如下:lambda 参数1,参数2:函数体或者表达式
(3)家庭类别
家庭类别定义:
- 小家庭Family_Single:家庭人数=1;
- 中等家庭Family_Small: 2<=家庭人数<=4;
- 大家庭Family_Large: 家庭人数>=5
家庭人数=同代直系亲属数(Parch)+不同代直系亲属数(SibSp)+乘客自己(因为乘客自己也是家庭成员的一个,所以这里加1)
3.2 特征选择
根据各个特征的与生存情况(Survived)相关系数的大小,选择以下几个特征作为模型的输入:头衔(前面所在的数据集titleDf)、客舱等级(pclassDf)、家庭大小(familyDf)、船票价格(Fare)、船舱号(cabinDf)、登船港口(embarkedDf)、性别(Sex)
4 构建模型
4.1建立训练数据集和测试数据集
1.测试数据集
将Kaggle泰坦尼克号项目的测试数据(test.csv文件),作为预测数据集(记为pred)。后续使用机器学习模型来对其生存情况进行预测。
2.训练数据集
使用Kaggle泰坦尼克号项目训练数据集(train.csv文件),作为原始数据集(记为source),从这个原始数据集中拆分出训练数据集(记为train:用于模型训练)和测试数据集(记为test:用于模型评估)。
4.2 建立机器学习模型
5 模型评估
6 方案实施
-
titanic3.xls
2021-02-01 11:52:40http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls, 有的电脑下载报错,网址打不开 -
titanic_kaggle
2020-03-10 12:17:30利用逻辑回归预测泰坦尼克号生存率 目录 提出问题 理解数据 采集数据 导入数据 查看数据集信息 数据清洗 数据预处理 ...从Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic 2... -
Titanic数据集.zip
2020-12-31 18:20:48kaggle大赛Titanic数据集,之前去kaggle里下载太麻烦了,现在已经打包好了 -
Kaggle: Titanic
2017-05-19 20:06:45所需数据下载地址:https://www.kaggle.com/c/titanic/data# -*- coding:utf-8 -*- import pandas as pd import numpy as np from sklearn import preprocessing -
将kaggle的competition中的Titanic数据集直接下载到Colab
2019-06-19 17:00:40!pip install -U -q kaggle !mkdir -p ~/.kaggle !echo '{"username":"bruce374","key":"43313de75c23e8c5a1b9713cc04183c0"}' > ~/.kaggle/kaggle....kaggle competitions download -c titanic -p titanic_data -
kaggle泰坦尼克数据titanic
2019-06-17 10:22:12平台下载的原始三个数据train.csv test.csv gender_submission.csv (本来想0积分 分享给大家 无奈最低是1分了)