精华内容
下载资源
问答
  • 题目提供的训练数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活 Pclass:乘客所持票类,有三种值(1,2,3) Name:乘客姓名 Sex:乘客性别 Age:乘客年龄(有缺失) SibSp:乘客兄弟姐妹/配偶的个数(整数值) ...
  • 暂无描述
  • 来自Kaggle泰坦尼克号数据集,包括测试集和训练集。用于决策树算法。
  • 友情提示,kaggle注册帐号发送验证邮件时验证码貌似是使用了谷歌的服务,如果没有梯子是刷不出验证码无法验证账号的,...不过有时一些数据的下载好像也会用到谷歌。这个数据本来想0分的,不过现在好像最低要求是2分。
  • 卡格格尔·泰坦尼克号 具有Kaggle泰坦尼克号数据集的受监督ML项目 零-R准确性:62.201%决策树准确性:77.511%
  • kaggle_titanic数据集

    2018-03-23 20:14:24
    kaggle上下载资源太麻烦了,每次下载还要登录邮箱,没有的话基本等不上去,也就没法下载,所以就发到这里共享,里面有训练集,测试集。是最全的数据集了。
  • kaggle比赛titanic数据集

    2018-07-26 16:07:10
    这是从KAGGLE竞赛官方网站上下载下来的数据集,本人之前也一直在寻找类似的数据,却一直需要大量积分,所以我就上传上来供大家使用。
  • KAGGLE竞赛官方网站上下载下来的数据集,最全kaggle泰坦尼克数据集。欢迎下载。
  • 平台下载的原始三个数据train.csv test.csv gender_submission.csv (本来想0积分 分享给大家 无奈最低是1分了)
  • kaggle泰坦尼克号生存预测(附代码、数据集和答案) 之前总结的数据预处理方法:https://blog.csdn.net/qq_43012160/article/details/98462307 先看一下数据集: 这次需要分类的标签被存储在了训练集的Survived列里...

    kaggle泰坦尼克号生存预测(附代码、数据集和答案)

    之前总结的数据预处理方法:https://blog.csdn.net/qq_43012160/article/details/98462307
    先看一下数据集:
    在这里插入图片描述
    这次需要分类的标签被存储在了训练集的Survived列里,1表示生还,0表示遇难。

    显然这次的特征是有缺失值的,读入数据集,看一下训练集和测试集的长度及各特征的缺失情况:
    在这里插入图片描述
    在这里插入图片描述

    #看一下训练集和测试集的各特征的缺失情况:
    for column in test_data.columns:
        print(column,':',train_data[column].count()/len(train_data),'  ',train_data[column].count())
        print(column,':',test_data[column].count()/len(test_data),'  ',test_data[column].count())
    

    发现最后有一个空白的特征列,多半是数据集存储的时候格式出了问题,把数据集的目录打出来看一下,果然,换行符\r被当作一个单独的列读了进来,后面要删掉:
    在这里插入图片描述

    特征工程

    观察数据,首先船舱号Cabin的缺失值太多了,缺失80%左右,这样有两种选择:
    一是给所有的缺失值补上记号UNKOWN作为缺失标记,
    二是直接删掉这一列。
    出于船舱号本身较为复杂、难以分析且考虑到降维的需要,这里选择直接删掉Cabin.
    在这里插入图片描述
    PassengerId肯定是和结果没关系的,删掉
    Ticket票号和Cabin一样情况复杂难以分析,删掉
    Name比较特殊,他其中是有一些有用的信息的,比如Mr和Mrs就蕴含了性别信息,而诸如master之类的尊称又可以反映社会地位(一定程度上和船舱号、消费等有关),因而其实是可以保留的。但是以来分析起来比较复杂,二来其携带的性别、社会地位、消费能力等信息可以从Sex、Fare等特征中得到反映,所以这里选择直接删掉。

    train_data=train_data.drop(['\r'],axis=1)
    test_data=test_data.drop(['\r'],axis=1)
    train_data=train_data.drop(['PassengerId'],axis=1)
    test_data=test_data.drop(['PassengerId'],axis=1)
    train_data=train_data.drop(['Name'],axis=1)
    test_data=test_data.drop(['Name'],axis=1)
    train_data=train_data.drop(['Cabin'],axis=1)
    test_data=test_data.drop(['Cabin'],axis=1)
    train_data=train_data.drop(['Ticket'],axis=1)
    test_data=test_data.drop(['Ticket'],axis=1)
    

    训练集缺失值的处理

    训练集有两个特征会有缺失值,一个是登船地点Embarked,另一个是年龄Age。总共占训练集的20%左右,
    对于训练集可以认为,在缺失数据不很多的情况下,存在缺失值的样本即坏样本,可以直接抛弃:

    #训练集有缺失的都是坏数据,删了:
    train_data.dropna(axis=0,inplace=True)
    trainLen=len(train_data)
    testLen=len(test_data)
    

    测试集缺失值的处理

    测试集因为需要预测,有缺失值就不能删了,对于确实不多的Fare列,我看了一下测试集和训练集数据的分布,在8左右有一个很明显的众数,所以就用测试集的众数来填补Fare的缺失值:

    #处理一下测试集里的缺失值,测试集的缺失数据不能删
    #处理Fare,先看一下分布,发现明显有个众数非常突出,且训练集和测试集众数接近:
    test_data['Fare']=test_data['Fare'].fillna(test_data['Fare'].dropna().mode()[0])
    

    由于Age是比较重要的数据(从后面的相关系数也可以看出),我们利用训练集和测试集中的其他特征对缺失的Age进行预测,然后补全。
    在预测Age之前,先对数据进行编码和归一化。

    编码和归一化

    考虑到数据间的量纲问题,对数据进行编码和归一化:

    #把训练集和测试集合起来编码:
    combineData=train_data.append(test_data)
    #先编码后拆分:
    def getReview(data,changeColumns):
        ResultReview=[]
        listReview=data
        le = LabelEncoder()
        for column in changeColumns:
            listData=[]
            for review in data[column]:
                listData.append(review)
            listReview[column]=le.fit_transform(listData)
        #向量化(需要一个个的append):
        for i in range(len(data)):
            rowVec=[]
            for j in range(0,len(data.columns)):
                rowVec.append(listReview.iloc[i,j])
            ResultReview.append(rowVec)
        return ResultReview
    
    changeColumns=['Sex','Embarked']
    combine_Review=np.array(getReview(combineData,changeColumns))
    scl = MinMaxScaler()
    combineReview=scl.fit_transform(combine_Review)
    trainReview=combineReview[0:trainLen]
    testReview=combineReview[trainLen:trainLen+testLen]
    

    之前一直有一个误区,就是会把训练集和测试集分开编码,其实这样是不对的,至少对于fit过程测试集和训练集是一定要在一起fit的,不然可能会出现这种情况;
    训练集:[2,2,3]->编码:2为0;3为1
    测试集:[3,3,2]->编码:3为0;2为1
    即两者可能会采取不同的编码方式,导致正确率下降。
    所以应该把测试集和训练集合在一起作为“词袋”一起训练编码器,然后在分开编码,或者先合在一起编码之后再拆开。

    预测Age

    由于是预测Age,所以我们可以将训练集和测试集中所有Age不为空的样本作为训练集,来预测Age为空的样本。Age的预测不是一个分类问题,而是一个回归问题,所以要用回归器而不是分类器进行预测,这里选择GradientBoostingRegressor和MLPRegressor进行预测之后取平均,重复三次之后再取平均作为最终Age的预测结果。

    #处理Age缺失值:
    #获取空元素下标:
    isNull=test_data['Age'].isnull().get_values()
    listAgeTrain=[]
    listAgeTest=[]
    for elem in trainReview:listAgeTrain.append(elem)
    for i in range(0,len(isNull)):
        if isNull[i]==False:listAgeTrain.append(testReview[i])
        else: listAgeTest.append(testReview[i])
    ageTrain = np.array(listAgeTrain)
    ageTest=np.array(listAgeTest)
    
    ageLable=ageTrain[:,2]
    ageTrain=np.delete(ageTrain,2,axis=1)
    ageTest=np.delete(ageTest,2,axis=1)
    
    #预测Age:
    print('预测测试集Age:')
    model1 = GradientBoostingRegressor(alpha=0.9, criterion='friedman_mse', init=None,
                                      learning_rate=0.03, loss='huber', max_depth=15,
                                      max_features='sqrt', max_leaf_nodes=None,
                                      min_impurity_decrease=0.0, min_impurity_split=None,
                                      min_samples_leaf=10, min_samples_split=40,
                                      min_weight_fraction_leaf=0.0, n_estimators=300,
                                      presort='auto', random_state=10, subsample=0.8, verbose=0,
                                      warm_start=False)#创建mlp神经网络对象
    model2=MLPRegressor(activation='tanh', learning_rate='adaptive')
    age_sum = []
    
    for i in range(0,3):
        print(i,'th training:')
        model1.fit(ageTrain,ageLable)#模型训练
        age_model1 = model1.predict(ageTest)#模型预测
        model2.fit(ageTrain,ageLable)#模型训练
        age_model2 = model2.predict(ageTest)#模型预测
        age_sum.append(age_model1*0.5+age_model2*0.5)
    
    age_model=[]
    for i in range(len(ageTest)):
        asum=0
        for j in range(0,3):
            asum=asum+age_sum[j][i]
        age_model.append(asum/3)
    print(age_model)
    
    #把求出来的age填回去:
    #先把空值的位置找出来:
    nullIndex=[]
    for i in range(0,len(isNull)):
        if isNull[i]==True:nullIndex.append(i)
    for i in range(0,len(nullIndex)):
        testReview[nullIndex[i],2]=age_model[i]
    

    去除离群点

    这里使用一个简单的基于概率分布的去除离群点的方法,即将各个特征的首尾部分的数据去掉,砍头去尾。
    这里就要谈到我对高维离群点的一些思考,多维空间中的离群点必然具备一个条件,即他会有至少一维大大偏离其他数据。即有至少一维大大偏离其他数据是点是离群点的必要不充分条件,因此在。程序中当某一个样本的任意特征属于前后6%,就会被删掉。这里的6%是我调参调出来的,一般在1%-5%左右:

    #去除离群点:
    rowLen=trainReview.shape[1]
    shallDel=[]
    for i in range(0,len(trainReview)):shallDel.append(0)
    for j in range(0,rowLen):
        min=np.percentile(trainReview[:,j],6)
        max = np.percentile(trainReview[:, j], 94)
        for i in range(0, len(trainReview)):
            if (trainReview[i,j]<min) or (trainReview[i,j]>max):shallDel[i]=1
    for i in range(len(trainReview)-1,-1,-1):
        if shallDel[i]==1:
            trainReview=np.delete(trainReview,i,axis=0)
            trainLable = np.delete(trainLable, i, axis=0)
    

    相关系数和方差

    看一下剩下的各组数据和Survived标签的相关系数,常用的三大相关系数是pearson相关系数、kendall相关系数和spearman相关系数,pearson相关系数更多的是反应线性关系,在面对形如y=x^2这种非线性关系的时候表现得差强人意,经过测试发现kendall相关系数的表现是很不错的。
    当然你也可以看一下各特征和Age的相关系数,或者特征的方差,然后做一下特征筛选:
    在这里插入图片描述

    rowLen=trainReview.shape[1]
    dfCorr=[]
    srLable = pd.Series(trainLable)
    for i in range(0,rowLen):
        srReview=pd.Series(trainReview[:,i])
        dfCorr.append(srReview.corr(srLable,method='kendall'))
    plt.bar(list(range(0,rowLen)),dfCorr)
    plt.show()
    

    值得注意的是方差也好、相关系数也好,只能作为特征和结果关系的一个参考。并不是说相关系数高就一定有关,相关系数低就一定无关,放一下我写的测试程序:

    import pandas as pd
    import math
    x=[]
    y=[]
    for i in range(1,101):
        x.append(i)
        y.append(math.log(i**2+math.log(i**0.5+40*i))+i**2+i**6+i**math.log(i**math.sqrt(2*i)))
    print(pd.Series(x).corr(pd.Series(y),method='pearson'))
    print(pd.Series(x).corr(pd.Series(y),method='kendall'))
    print(pd.Series(x).corr(pd.Series(y),method='spearman'))
    

    运行结果,可以发现kendall确实优秀:
    在这里插入图片描述
    然而如果我在函数关系式里加入三角函数:

    import pandas as pd
    import math
    x=[]
    y=[]
    for i in range(1,101):
        x.append(i)
        y.append(math.cos(math.log(i**2+math.log(i**0.5+40*i))+math.sin(i**2+i**6+i**math.log(i**math.sqrt(2*i))))**3)
    print(pd.Series(x).corr(pd.Series(y),method='pearson'))
    print(pd.Series(x).corr(pd.Series(y),method='kendall'))
    print(pd.Series(x).corr(pd.Series(y),method='spearman'))
    

    可以发现结果一下就差了许多:
    在这里插入图片描述
    所以方差也好、相关系数也好,只能作为特征和结果关系的一个参考。并不是说相关系数高就一定有关,相关系数低就一定无关。每个特征,特别是这种处理、脱敏后数据集的特征,都是含有信息的,如果不是降维或者可视化的迫切需要,最好还是不要乱删数据。
    前几天打了一下阿里天池的蒸汽预测·,就是降维降猛了,不太理想。
    当然你也可以用PCA降维。
    考虑到被我东删西删,现在就剩7维了,虽然Age的数据不太好看,也就不删了。

    预测与验证

    选用逻辑回归算法:

    print('建模:')
    model =LogisticRegression()
    model.fit(trainReview, trainLable)
    print('预测:')
    pred_model = model.predict(testReview)
    score = metrics.accuracy_score(testLable, pred_model)
    matrix = metrics.confusion_matrix(testLable, pred_model)
    print('>>>准确率\n', score)
    print('\n>>>混淆矩阵\n', matrix)
    

    结果(人生巅峰):
    在这里插入图片描述
    这里有另一篇博文讲的比较详细,后面打算按他的方法复现一遍,然后做个对比:
    https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12282042.0.0.1dce2042NBc6J6&postId=6772

    代码、数据集和答案集:
    链接:https://pan.baidu.com/s/1HkE_91neYHtN5EfftnLFeg
    提取码:v3l5

    展开全文
  • Titanic-dataset:泰坦尼克号数据集Kaggle
  • kaggle——泰坦尼克数据集

    万次阅读 2018-06-26 23:16:47
    1.问题描述RMS泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶...

    1.问题描述

    RMS泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶安全条例。

    海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素,但一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。

    在这个挑战中,我们要求你完成对哪些人可能生存的分析。特别是,我们要求您运用机器学习的工具来预测哪些乘客幸免于难。

    2.数据集描述

    题目提供的训练数据集包含11个特征,分别是:

    Survived:0代表死亡,1代表存活

    Pclass:乘客所持票类,有三种值(1,2,3)

    Name:乘客姓名

    Sex:乘客性别

    Age:乘客年龄(有缺失)

    SibSp:乘客兄弟姐妹/配偶的个数(整数值)

    Parch:乘客父母/孩子的个数(整数值)

    Ticket:票号(字符串)

    Fare:乘客所持票的价格(浮点数,0-500不等)

    Cabin:乘客所在船舱(有缺失)

    Embark:乘客登船港口:S、C、Q(有缺失)

     3.数据可视化和预处理

    对于提供的数据集,首先进行可视化处理,判断哪些特征跟存活的相关性大。

    Pclass:

                    Pclass=1                 Pclass=2                    Pclass=3

    从上图可以分析出,第3类票的乘客死亡率最高,其次是第二类票的乘客。所以,Pclass也是与存活具有相关性

    Name:

    从主观层次出发,名字与存活率没有联系,将其舍弃。

    Sex:

                         男性                                            女性

    可以看出男性的死亡率显著高于女性的死亡率,性别这一特征跟存活存在相关性。

    Age:

                      有年龄特征                            无年龄特征

    在数据集年龄特征中,存在不少的缺失项,需要考虑是否将缺失项作为特征值的一种还是将其用其他值进行填补。从上面两图可以看出,对于没有年龄特征记录的乘客死亡率比有年龄特征记录的乘客死亡率更高,所以可以将无年龄特征也视作为一项特征值进行处理。

    对有年龄特征记录的数据,我们还可以根据数值进行进一步划分:

    由于年龄数值过多,首先按照国际对年龄划分的标准,将年龄分为三类:未成年人(0-17),青年人(18-65),中年人(66-)。各年龄段生存和死亡人数如下图所示:

    由上图可以看出,成年人人数最多且其死亡率超过50%,中年人虽然人数少,但其死亡率接近90%。所以,不同的年龄段存在不同的死亡率。

    SibSp:

    从上图可以看出,大部分乘客SibSp的个数为0(即1人乘船)。此外,能看出0的死亡率较高,1和2的死亡率都在50%附近,其余的乘客死亡率很高。为了简化数据,对于SibSp特征,将其分成3类:I类(0),II类(1,2),III(其余)。

    Parch:

    从上图可以看出,大部分乘客Parch的个数为0。再看死亡人数与存活人数的比较,Parch为0的乘客死亡率远高于其他,当Parch=1或2时,死亡率将近50%,当Parch>=3时,数据量太小不能直观的判断死亡率,只好把它们全归为一类进行判断。所以,将Parch特征分为3类:I类(0),II类(1,2),III(其余)。

    Tciket:

    光从Ticket提取不出有用信息,将此类特征舍弃。

    Fare:

    由于票价数据是数值型,不同值数目过多,将其全部一一显示不方便,先硬性规定将票价归为4类:0-10为第一类,10-50为第二类,50-100为第三类,100-为第四类。上图所示就是四类票对应乘客的生还人数和死亡人数。我们可以得出的结论是:票价越高,生存的几率也就越大。

    在预测数据集当中有Fare数据缺失的项,由上图可知购买第二类票的人最多,所以缺失项是属于第二类票的概率最大。

    Cabin:

                 有船舱记录的乘客             无船舱记录的乘客

    船舱数据的丢失也很严重,先将无船舱记录也作为一项特征值进行可视化,结果如上图所示。可以发现,有船舱记录的乘客死亡率明显低于无船舱记录的乘客死亡率,说明能将船舱记录为空作为一项特征值进行处理。

    Embark:

                      S港                           C港                              Q港

    对不同港口上船的乘客进行统计,其中在S港和Q港上船的乘客死亡率比在C港上船的乘客死亡率高,也能说明登船港口与生存具有相关性。

    在预测数据集中,有的数据项缺失Embark,本文根据登船人数最多的港口进行填充:

         各港口登船人数占比

    由图可知,在S港登船的人数最多,缺失项为S的概率最大。

    4.建立模型及其基本原理

     采用三种预测模型(决策树、Adaboost、SVM)进行混合来求得预测结果。

    先介绍三种模型的基本原理。

    决策树:

    决策树中采取CART算法,属于最小二乘回归树生成算法。

    算法实现步骤:

    1)计算现有样本D的基尼指数,之后利用样本中每一个特征A,及A的每一个可能取值a,根据A>=a与A<a将样本分为两部分,并计算Gini(D,A)值

    2)找出对应基尼指数最小Gini(D,A)的最优切分特征及取值,并判断是否切分停止条件,否,则输出最优切分点

    3)递归调用1)2)

    4)生成CART决策树

    基尼系数:

    在分类问题中,假设有K类,样本点属于第k类的概率为pk,则概率分布的基尼指数定义为:

    Gini(p)=∑Kk=1pk(1−pk)=(p1+p2+...+pK)−∑Kk=1p2k=1−∑Kk=1p2k

    对于分类问题:设Ck为D中属于第k类的样本子集,则基尼指数为:

    Gini(D)=1−∑Kk=1(|Ck||D|)2

    设条件A将样本D切分为D1和D2两个数据子集,则在条件A下的样本D的基尼指数为:

    Gini(D,A)=|D1|DGini(D1)+|D2|DGini(D2)

    基尼指数也表示样本的不确定性,基尼指数值越大,样本集合的不确定性越大。

    参考:https://blog.csdn.net/LY_ysys629/article/details/72809129

     

    Adaboost:

    Adaboost是将不同的分类器组合在一起将测试数据集进行分类的方法,分类的结果是基于所有分类器的加权求和结果的,所以分类器的权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。

    AdaBoost的流程如下:

    首先需要给训练数据中的每个样本都要赋予一个权重,这些权重构成了向量D,在算法的最开始,D向量中每个值都是相等的。再通过训练数据训练出分类器,但此时的分类器是弱分类器,不会满足我们的需求,这里可以得到每个分类器的错误率。根据第一次得到的错误率,我们可以更新每一个样本的权重,第一次分对的样本的权重会降低,分错的样本的权重会提高。Adaboost算法也给了每个分类器分配了权重alpha,alpha值的更新也是根据错误率进行计算。

    错误率:

    分类器权重alpha:

    正确分类的样本权重:

    错误分类的样本权重:

    SVM:

    支持向量机是一种分类方法,对已有数据集进行多个超平面的划分,将数据分为几类。

    参考:https://blog.csdn.net/taichitaichi/article/details/80377900

     

    以上3种模型分别对预测数据集进行预测,得到三份预测结果,之后采取比较数目的方法来确定每一项的预测结果。每一项的最终预测结果是符合三份预测结果里预测结果数目最多的预测结果。

     


    下表所示的情况就是3个正确率为70%的结果来一致判别得到最终结果的最佳情况(其中1代表预测正确,0代表预测错误)

    5.最终结果

    上图是只用CART决策树得出来的最佳结果,将三种模型的结果一齐进行比较得出的结果反而更差,没有预想中的提升。

    分析原因如下:

    1.三个模型各自的正确率为:70%(决策树),60%(SVM),50%(Adaboost),在进行多数判断时,可能会比单个判断错的更多。

    2.在数据预处理中,既删除了部分数据,又用标签简化了一些数据,造成数据信息量的丢失
    展开全文
  • kaggle机器学习竞赛泰坦尼克号船员数据集,原网址https://www.kaggle.com/c/titanic
  • 泰坦尼克数据集kaggle Titanic下载

    千次阅读 2020-08-22 10:47:56
    泰坦尼克号乘客数据集和鸢尾花数据集一样, 是机器学习中最常用的样例数据集之一。为了下次查找方便,故分享一下。 百度网盘链接: https://pan.baidu.com/s/1UQwKboBHFx5BpPe1cwkzfA 提取码: ss3v

    泰坦尼克号乘客数据集和鸢尾花数据集一样, 是机器学习中最常用的样例数据集之一。为了下次查找方便,故分享一下。文件不大,可以直接下载。
    百度网盘链接: https://pan.baidu.com/s/1UQwKboBHFx5BpPe1cwkzfA 提取码: ss3v

    展开全文
  • **主要是让参赛选手根据训练集中的乘客数据和存活情况进行建模,进而使用模型预测测试集中的乘客是否会存活。乘客特征总共有11个,以下列出。当然也可以根据情况自己生成新特征,这就是特征工程(feature ...
  • 详情见公众号:数据分析这件小事儿 https://mp.weixin.qq.com/s?__biz=MzI3Mzg4NDE2Mw==&mid=2247483680&idx=1&sn=7e3c01c76fd16ec64b9e5d379b3e0bbc&chksm=eb1d344cdc6abd5abae712330b013d278ab7b...

    详情见公众号:数据分析这件小事儿
    https://mp.weixin.qq.com/s?__biz=MzI3Mzg4NDE2Mw==&mid=2247483680&idx=1&sn=7e3c01c76fd16ec64b9e5d379b3e0bbc&chksm=eb1d344cdc6abd5abae712330b013d278ab7b56c4e0e57d0dee98c5fa7a7104b94655935eee6&token=794838180&lang=zh_CN#rd

    展开全文
  • kaggle Titanic 数据集下载

    千次阅读 多人点赞 2020-04-29 11:25:45
    链接:https://pan.baidu.com/s/1kEcyx7lwAdMNYTvM4WhhFw 提取码:3gog
  • 献给所有数据挖掘爱好者 ...数据集为1912年泰坦尼克号沉船事件中一些船员的个人信息以及存活状况。这些历史数据已经非分为训练集和测试集,你可以根据训练集训练出合适的模型并预测测试集中的存活状况。
  • 数据kaggle泰坦尼克号幸存者预测大赛的数据。有训练和测试两部分组成
  • 正版数据集含代码使用,避免官网下载注册的麻烦。正版数据集含代码使用,避免官网下载注册的麻烦。正版数据集含代码使用,避免官网下载注册的麻烦。
  • kaggle_titanic数据集学习

    千次阅读 2018-03-22 09:13:45
    Kaggle介绍 问题背景介绍 小问题 表头# 流程 分析数据 模型以及特征选择 数据认知 属性与获救结果的关联统计 看看各乘客等级的获救情况 特征选择 特征缺失 逻辑回归建模 交叉验证(cross validation) 参考 ...
  • 数据概述与可视化 1.1 数据概述 首先我们导入我们的训练数据和测试数据: 数据集包含train.csv和test.csv两个文件,在 Datawhale 公众号回复 数据集,可获取打包链接,也可以直接在kaggle官网上下载。...
  • Kaggle泰坦尼克号之灾

    2019-01-10 09:22:37
    kaggle比赛地址: Titanic: Machine Learning from Disaster 相关比赛背景、数据等都可在网站查看。 1、环境配置 windows 10 python 3.6 ...# 载入pandas包来读取csv格式的数据集 import pandas as pd...
  • 贝叶斯网络分析kaggle泰坦尼克号(Titanic) 一、数据处理 1.原始数据分析 主要是让参赛选手根据训练集中的乘客数据和存活情况进行建模,进而使用模型预测测试集中的乘客是否会存活。乘客特征总共有11个,以下列...
  • 泰坦尼克号生还情况预测 Kaggle 是一个流行的数据科学竞赛平台,由 Goldbloom 和 Ben Hamner 创建于 2010 年。
  • 泰坦尼克号数据集

    2018-04-27 13:19:14
    Kaggle平台泰坦尼克号数据集+源代码+注释
  • Kaggle入门-泰坦尼克号之灾 可以参考:https://jnsimba.blog.csdn.net/article/details/104245964
  • 数据挖掘实战项目-kaggle泰坦尼克号生还者预测 一、实战项目描述 二、项目数据挖掘流程分析 三级目录
  • 初始的把模型大致搭建起来,步骤包括:特征选择,缺失值处理,归一化与正则化,模型选择。得到的准确率是: 这个准确率排名相当低,8000/10000的水平。现在要想办法,提升准确了。 分析一 在分类错误的类别中,我...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,456
精华内容 582
关键字:

kaggle泰坦尼克号数据集