精华内容
下载资源
问答
  • 泰坦尼克号乘客数据集和鸢尾花数据集一样, 是机器学习中最常用的样例数据集之一。为了下次查找方便,故分享...文件不大,可以直接下载。 百度网盘链接: https://pan.baidu.com/s/1UQwKboBHFx5BpPe1cwkzfA 提取码: ss3v

    泰坦尼克号乘客数据集和鸢尾花数据集一样, 是机器学习中最常用的样例数据集之一。为了下次查找方便,故分享一下。文件不大,可以直接下载。
    百度网盘链接: https://pan.baidu.com/s/1UQwKboBHFx5BpPe1cwkzfA 提取码: ss3v

    展开全文
  • titanic数据集下载

    2018-04-21 20:21:39
    titanic数据集,分为训练集和测试集,训练集有12列特征
  • kaggle Titanic 数据集下载

    千次阅读 多人点赞 2020-04-29 11:25:45
    链接:https://pan.baidu.com/s/1kEcyx7lwAdMNYTvM4WhhFw 提取码:3gog

    链接:https://pan.baidu.com/s/1kEcyx7lwAdMNYTvM4WhhFw
    提取码:3gog

    展开全文
  • Titanic数据集百度云盘下载

    千次阅读 2020-10-16 19:42:52
    百度云盘下载 链接:https://pan.baidu.com/s/1jF99BjxeRXxSUDhCcZ5RjQ 提取码:8gx6

    百度云盘下载
    链接:https://pan.baidu.com/s/1jF99BjxeRXxSUDhCcZ5RjQ
    提取码:8gx6

    展开全文
  • 漂流的 只是一个仓库,下载泰坦尼克号数据集,但有一些(突然的)概念漂移 正在下载 培训集和测试集应可通过以下...curl -LJO https://github.com/remiadon/drifting_titanic/tree/main/drifted/train.csv 测试集相同
  • 机器学习用的titanic数据,分训练用和测试用。https://www.kaggle.com/c/titanic/data这个网站注册了无法验证通过,导致没法登陆下载数据。好不容找到的齐全的数据,供大家分享
  • 2 理解数据2.1 采集数据从Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic​www.kaggle.com2.2 导入数据2.3 查看数据集信息从结果来看,数据总共有1309行。其中数据类型列:年龄(Age)、船舱...

    4a10243f5e0fd94fab9796fbf9845e07.png

    Titanic生存率预测

    c94e73516a2d47310b3d03da7799316f.png

    1 提出问题

    什么样的人在泰坦尼克号中更容易存活?

    2 理解数据

    2.1 采集数据

    从Kaggle泰坦尼克号项目页面下载数据:

    https://www.kaggle.com/c/titanicwww.kaggle.com

    532e74e10f74b6b10d5b3ec80b49cdf8.png

    2.2 导入数据

    29a6a2c07139c72b7b363645ab21ec23.png

    2.3 查看数据集信息

    62927ef5fe39fe5c109cf97d103fd27b.png

    6590285cfbe0da999dfc54cf42b8fac1.png

    3d17e168ff25847bfeea0c39e26ac15e.png

    d69f0bb800167942c67cce74b323d537.png

    从结果来看,数据总共有1309行。

    其中数据类型列:年龄(Age)、船舱号(Cabin)里面有缺失数据:

    • 1)年龄(Age)里面数据总数是1046条,缺失了1309-1046=263,缺失率263/1309=20%;
    • 2)船票价格(Fare)里面数据总数是1308条,缺失了1条数据。

    字符串列:

    • 1)登船港口(Embarked)里面数据总数是1307,只缺失了2条数据,缺失比较少;
    • 2)船舱号(Cabin)里面数据总数是295,缺失了1309-295=1014,缺失率=1014/1309=77.5%,缺失比较大。

    3 数据清洗

    在本案例中,只需对数据进行缺失值处理和异常值处理

    常见的缺失值处理方法有:

    • 如果是数值类型,用平均值取代
    • 如果是分类数据,用最常见的类别取代
    • 使用模型预测缺失值,例如:KNN

    3.1 数据预处理

    对年龄、登船港口和船票价格用平均值来填充缺失值数据,用fillna方法实现数据填充。

    11f59993ffe79e65e0e0aff5d7f83d95.png

    5bb0a786790a65e6f2d4380a1dc08299.png

    e8126e6edc60809271151202c389fcd7.png

    1e26d3219bc48f1482de3dcf4fadb475.png

    e9a6b1c29efc81e0f0525d007682c227.png

    3.2 特征提取

    1.数据分类

    本案例包含两种数据类型

    • (1)数值类型:乘客编号(PassengerId),年龄(Age),船票价格(Fare),同代直系亲属人数(SibSp),不同代直系亲属人数(Parch)
    • (2)分类数据:用数值代替类别,并进行One-hot编码

    1)有直接类别的

    乘客性别(Sex):男性male,女性female;登船港口(Embarked):出发地点S=英国南安普顿Southampton,途径地点1:C=法国 瑟堡市Cherbourg,出发地点2:Q=爱尔兰 昆士敦Queenstown;客舱等级(Pclass):1=1等舱,2=2等舱,3=3等舱

    2)字符串类型:可从中提取出特征

    乘客姓名(Name),客舱号(Cabin),船票编号(Ticket)

    2.对直接类别的列提取特征

    (1)性别

    5840bdc5a7fb9f05e8274524984b2358.png

    4978724fbf05757b2ec8e62d80f648aa.png

    (2)登船港口

    4cca268dcb36c426127b8c6270038172.png

    使用get_dummies进行one-hot编码,产生虚拟变量(dummy variables),列名前缀是Embarked

    b6486813dfaccb7e786dbb4fa7673b53.png

    9ff15c522a71eba98e0bc058214cd7f0.png

    其中drop方法删除某一列代码:因为drop(name,axis=1)里面指定了name是哪一列,比如指定的是A这一列,axis=1表示按行操作。那么结合起来就是把A列里面每一行删除,最终结果是删除了A这一列.简单来说,使用drop删除某几列的语法:drop([列名1,列名2],axis=1)

    (3)客舱等级

    88119c483e864124ef68b4809678fee9.png

    738ee33ebeb92615664b3ae8290f20f7.png

    3.字符串类型的特征提取

    (1)乘客姓名

    由于乘客名字当中都包含了具体的称谓或头衔,将这部分信息提取出来后可以作为一个新变量,帮助我们进行预测。

    e73f1664f5a83d3757db1359692962e9.png

    a0e98c08f3f53959e17302a705f5b5b9.png

    0d85af3455c4ae76c1e7b9f992cc4920.png

    03aa71927e0312452adc4db4190b3791.png

    88fc55955e023fcb76698529e92c8a10.png

    (2)客舱号

    1a489ab2c99655d0184b0684971eb1a5.png

    使用 lambda 来创建匿名函数,即不再使用 def 语句这样标准的形式定义一个函数,语法如下:lambda 参数1,参数2:函数体或者表达式

    8681ad4778a155c664fbb1565e9c298a.png

    daf31fe5bfcd39c3a8b1bd57a5dd9e5a.png

    (3)家庭类别

    家庭类别定义:

    • 小家庭Family_Single:家庭人数=1;
    • 中等家庭Family_Small: 2<=家庭人数<=4;
    • 大家庭Family_Large: 家庭人数>=5

    家庭人数=同代直系亲属数(Parch)+不同代直系亲属数(SibSp)+乘客自己(因为乘客自己也是家庭成员的一个,所以这里加1)

    c9c630aae166e146797c986f96b5a68e.png

    6059a557640673fd369dc8686552197c.png

    12327f82ee2f2a105e54f133defae7c6.png

    3.2 特征选择

    fa85e02cad8cbf00aa683b06296c6670.png

    5bf18ab95bfd74fdd8004aba185a3473.png

    0930e9f8677c230e5bbddf08e752407a.png

    根据各个特征的与生存情况(Survived)相关系数的大小,选择以下几个特征作为模型的输入:头衔(前面所在的数据集titleDf)、客舱等级(pclassDf)、家庭大小(familyDf)、船票价格(Fare)、船舱号(cabinDf)、登船港口(embarkedDf)、性别(Sex)

    cda1ca9360efb8feb0772b337776e856.png

    4 构建模型

    4.1建立训练数据集和测试数据集

    1.测试数据集

    将Kaggle泰坦尼克号项目的测试数据(test.csv文件),作为预测数据集(记为pred)。后续使用机器学习模型来对其生存情况进行预测。

    2.训练数据集

    使用Kaggle泰坦尼克号项目训练数据集(train.csv文件),作为原始数据集(记为source),从这个原始数据集中拆分出训练数据集(记为train:用于模型训练)和测试数据集(记为test:用于模型评估)。

    685607486d45c3a2a5134a077e3b240d.png

    4.2 建立机器学习模型

    e4e1b6ed5a32913ed006a0b2a675a287.png

    5 模型评估

    2101b037290e596c9d6266a04996f6f8.png

    6 方案实施

    5d337ec5672fdb96b3cf0dac2c80998c.png
    展开全文
  • titanic3.xls

    2021-02-01 11:52:40
    http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls, 有的电脑下载报错,网址打不开
  • titanic_kaggle

    2020-03-10 12:17:30
    利用逻辑回归预测泰坦尼克号生存率 目录 提出问题 理解数据 采集数据 导入数据 查看数据集信息 数据清洗 数据预处理 ...从Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic 2...
  • Titanic数据集.zip

    2020-12-31 18:20:48
    kaggle大赛Titanic数据集,之前去kaggle里下载太麻烦了,现在已经打包好了
  • Kaggle: Titanic

    2017-05-19 20:06:45
    所需数据下载地址:https://www.kaggle.com/c/titanic/data# -*- coding:utf-8 -*- import pandas as pd import numpy as np from sklearn import preprocessing
  • !pip install -U -q kaggle !mkdir -p ~/.kaggle !echo '{"username":"bruce374","key":"43313de75c23e8c5a1b9713cc04183c0"}' > ~/.kaggle/kaggle....kaggle competitions download -c titanic -p titanic_data
  • 平台下载的原始三个数据train.csv test.csv gender_submission.csv (本来想0积分 分享给大家 无奈最低是1分了)

空空如也

空空如也

1 2 3 4 5 ... 13
收藏数 255
精华内容 102
关键字:

titanic下载