精华内容
下载资源
问答
  • FS-LDM第二讲-----LDM逻辑数据模型概述

    千次阅读 2018-11-19 18:29:02
    什么是逻辑数据模型 模型中常见的术语 术语中没有讲到主题域,主题域(Subject area)其实就是主题的一个组合。 实体:是某特定主题下的某个特定的实例对象。 属性和键值都是属于实体的。逻辑模型是概念层面的...

    文章内容来自NCR数据仓库事业部

    LDM在数据仓库系统中的地位

    FS-LDM:就是数据组织的一套方法论。

    什么是逻辑数据模型

    模型中常见的术语

    术语中没有讲到主题域,主题域(Subject area)其实就是主题的一个组合。

    实体:是某特定主题下的某个特定的实例对象。

    属性和键值都是属于实体的。逻辑模型是概念层面的。物理模型是存储层面的。

    逻辑数据模型举例

    上图展示的是逻辑模型的构成,但是业务层次上所表达的就是业务规则。

    关联实体的建立

    当事人和账户是通过关联关系表来建立关系的

    用来表达当事人和账户的之前的关系的表 就叫关联实体

    超级父类实体的建立

            因为账户有很多种:比如信用账户,借记账户 所以会有共同的部分,我们可以把共性的部分抽取出来,抽象成一个超级父类,

    好处在于:

              1、找出共性、便于集中存放、易于应用开发

              2、可以减少实体之间的关联,使模型更加清晰。

    什么是LDM

     

    逻辑数据模型(Logical Data Model)是:

    利用图形方式,通过数据和关系反映业务的一个过程;

    定义需要追踪和管理的各种重要实体、属性和关系

    是进行各种数据管理、分析和交流的重要手段;

    IT和业务人员沟通的桥梁;

     

     

    为什么需要LDM

    当没有对内容标准化之前,无法做到大家在同一个语境下描述一个事情。

    LDM的价值在于:1、是沟通与交流的桥梁、同时是标准和规范的描述

                               2、业务部门和IT人员一个有效沟通的机制

    展开全文
  • 常见的五大数据分析模型PEST分析模型政治环境的关键指标:经济环境:分为宏观与微观。经济环境的关键指标:社会环境的关键指标:技术环境的关键指标:5W2H分析模型何为5W?何为2H?逻辑树分析模型逻辑树分析法三原则...

    PEST分析模型

    P : Political 政治环境
    E : Economic 经济环境
    S : Social 社会环境
    T : Technology 技术环境

    政治环境的关键指标:

    政治体制,经济体制,财政政策,税收政策,产业政策,投资政策,专利数量,国防开支水平,政府补贴水平,民众对政治的参与度。

    经济环境:分为宏观与微观。

    宏观:一个国家国民收入,国民生产总值以及变化情况,以通过这些指标反应国民经济发展水平和发展速度。
    微观:企业所在地区的消费者收入水平、消费偏好、储蓄情况、就业程度等因素,这些因素决定着企业目前以及未来的市场大小。

    经济环境的关键指标:

    GDP 及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。

    社会环境的关键指标:

    人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。

    技术环境的关键指标:

    人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。

    5W2H分析模型

    何为5W?

    why what who when where

    何为2H?

    how much
    how

    逻辑树分析模型

    将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。逻辑树能保证解决问题的过程完整性,将工作细化成便于操作的具体任务,确定各部分优先顺序,明确责任到个人。

    逻辑树分析法三原则

    要素化:把相同问题总结归纳成要素。
    框架化:将各个要素组成框架,遵守不重不漏原则。
    关联化:框架内的各要素保持必要的相互关系,简单而不孤立。

    4P营销理论模型

    4P: Product(产品) Price(价格) Place(渠道) Promotion(促销)
    产品:包括有形产品、服务、人员、组织、观念和它们的组合。
    价格:包括基本价格、折扣价格、支付期限等。影响价格的主要因素有需求、成本和竞争。
    渠道:产品从生产企业流转到用户手上全过程所经历的各个环节。
    促销:企业通过销售行为的改变来激励用户消费。

    用户行为模型

    行为轨迹:认知——熟悉——试用——使用——忠诚

    总结

    1、PEST 分析模型:主要针对宏观市场环境进行分析,从政治、经济、社会以及技术四个维度对产品或服务是否适合进入市场进行数据化的分析,辅助判断产品或服务是否满足大环境。
    2、5W2H 分析模型:应用场景较广,可用于对用户行为进行分析以及产品业务分析。
    3、逻辑树分析模型主要针对已知问题进行分析,通过分析结论找到问题的最优解决方案。
    4、4P 营销理论模型:主要用于公司或其中某一个产品线的整体运营情况分析,通过分析结论,辅助决策近期运营计划与方案。
    5、用户行为分析模型:应用场景比较单一,完全针对用户的行为进行研究分析。

    说明及参考文献

    本文是对公众号“数据分析1480”的文章“常见的 5 种数据分析模型,你都知道吗?”的缩减整理,原文链接如下:
    https://mp.weixin.qq.com/s/dAO9K-A8vchks-nIqyobuQ

    展开全文
  • 摘要 在上一篇文章里,我们着重讲解了线性回归。既如何探索不同的影响因素(或自变量)与一个连续型变量的的线性关系。...本章的内容旨在为大家介绍最常见的分类型预测模型逻辑回归。当然,能做分类型..
    1. 摘要
      

    在上一篇文章里,我们着重讲解了线性回归。既如何探索不同的影响因素(或自变量)与一个连续型变量的的线性关系。但在现实生活中,我们关心的往往是分类型的问题。比如生物学家会去探究不同的生活习惯和遗传基因是否会导致相应的癌症,比如汽车厂商会去探究不同的驾驶行为和行驶路况是否会导致汽车的部件提前损坏,再比如银行信贷部会去探究不同的客户背景和历史还款情况是否会导致借贷人下次逾期还款。类似的分类决策型问题在企业运作中比比皆是。

    本章的内容旨在为大家介绍最常见的分类型预测模型 – 逻辑回归。当然,能做分类型预测的模型还有很多,比如决策树,随机森林,支持向量机,深度学习等等。我们也会在接下来的章节里为大家一一介绍。

    在这里插入图片描述

    1. 逻辑回归

    2.1. 逻辑回归和线性回归

    作为最常见的两种回归预测模型,逻辑回归和线性回归其实存在着很多共性。比如他们都有很类似的问题结构和很类似的分析流程。但他们最大的区别在:

    • 线性回归的预测结果通常是一个连续型变量;

    • 逻辑回归的预测结果通常是一个类别型变量,其中又以二元变量的预测为主。既“是”或“否”型的决策判断问题。

    理论上来说,任何的线性回归都可以视为逻辑回归。比如,我们想要建立一个线性回归模型来预测不同人的寿命长短。线性回归模型的结果可能是会返还一个范围在65岁到110岁间的预测数值。从逻辑回归的角度来看,我们可以将65岁到110岁视为46个不同的预测类别。对于每一个待预测的样本,逻辑回归的预测结果是该样本分别落在这46个不同的预测类别里的不同概率,通常我们会选择概率最好的那个类别来作为该样本的预测年龄。不过这样的转换会使得我们的预测模型过于复杂,因此逻辑回归最常见的用途还是用来讨论二元变量的预测问题。

    在这里插入图片描述

    2.2. 逻辑回归的定义

    既然逻辑回归和线性回归有如此多的共性,大家有没有去试着思考,我们如何用线性回归的思维去解决逻辑回归的问题?我们知道逻辑回归是在关注一个取值为“1”或“0”的变量,而线性回归则是在关注一个取值为实数域的变量。套用相同方法的关键,就在于我们能否将一个0与1的二元变量映射到一个从负无穷到正无穷的连续型变量的取值区间?

    我们可以通过一下操作实现这个转换:

    • 定义 p(x) : 固定自变量的取值情况,因变量得“1”的概率。原本因变量只能取值0或者1,但是通过这一步转换,p(x) 的取值范围拓展到了0到1这个连续区间;

    • 定义
    在这里插入图片描述

    p(x) 代表了因变量取“1” 的概率,1-p(x)则代表了因变量取 “0” 的概率。他两相除则代表的是:给定自变量取值的情况下,因变量取值为1的几率。通过这一步转换,我们成功将odds的取值范围拓展到了0到正无穷这个连续区间;

    • 定义
    在这里插入图片描述
    : 最后一步的转换是我们将odds取对数。终于,我们成功的将取值范围拓展到了负无穷到正无穷的这个实数域区间。

    做完了上述的转换,我们最终得到了下面的公式:
    在这里插入图片描述

    如果将公式左边的式子看作一个整体 y,
    是不是就变成了上一章节讲解到的线性回归的样子。之后我们通过训练数据依次求出β0, β1, β2,…, βn.

    随后我们化简上述上述公式,即可求得:
    在这里插入图片描述

    当然算出的p(x)仍然会是一个0到1的连续型变量。通常来说,当p(x)>=0.5时,我们视预测结果为1;当p(x)<0.5时,我们则会视预测结果为0.

    在这里插入图片描述

    2.3. 逻辑回归的简单案例

    上面的公式可能会把大家看的头晕。下面,我们会借助一个简单的例子解释这些转换过程。

    比如说,我们现在想要探究的是篮球爱好者的身高和他们罚球命中率的关系。我们收集到了以下的10个数据点。

    在这里插入图片描述

    基于上个小结中的转换公式,我们可以求出以下数值:

    • P(罚球命中|身高为170cm):身高170cm的爱好者,他们罚球命中的概率是 2/5= 40%

    • Odds:身高170cm的爱好者,他们罚球命中的几率40%/(1-40%)= 0.66

    • Logit Transformation: log (odds) = -0.18。这是针对于身高170cm的爱好者

    • 同样的针对与身高180cm的爱好者,我们可以算出他们的log(odds)为0.176

    当根据不同的身高,得出了它们相对应log(odds)的转换值后,我们可以套用下面的公式得出β0 与β1的参数值:
    在这里插入图片描述

    最后我们只需套用下面的公式,即可得出不同身高的爱好者,罚球命中的概率:
    在这里插入图片描述

    如果这个概率值 >= 0.5,
    我们则判定这位爱好者可以命中罚球。反之不行。

    希望通过这个例子,大家可以更清晰的了解到逻辑回归的计算过程。当然我们所举的这个例子过于简单。通常一个逻辑回归问题,它的自变量远远不止一个,且自变量取值的组合情况极为复杂。

    2.4. 逻辑回归的优劣分析

    终于到了最后的优劣分析。随着越来越多的预测模型,先进技术的出现,了解清楚他们的优劣情况,适用案例和数据类型也变得极为重要。

    作为一种传统的,适用范围最广的分类型预测模型。选择使用逻辑回归主要有以下几个原因:

    • 模型理论简单,相对透明,模型结果易于解释

    • 模型计算简单高效,可扩展到大数据处理

    • 多重共线性问题易于解决,解决过拟合的方法也有很多

    • 在行业实际应用中表现良好,且实施难度很低

    与这些优点相对的,就是一些我们需要考虑的逻辑回归的缺点:

    • 当自变量数目过大时,逻辑回归的计算性能,结果表现不是太好

    • 容易欠拟合,最终导致结果精度不太高

    • 逻辑回归本质还是一个线性分类器,很难处理线性不可分的样本

    1. 如何在Altair KnowledgeStudio平台应用线性回归
      

    3.1. 演示数据简介

    在接下来的软件操作环节,我们会使用到下面这个名为“Census“的数据集。

    该数据集记录了16000位不同客户针对某金融公司营销广告的反馈情况。我们想要通过逻辑回归这个模型,帮助这家公司找到他们的目标客群,从而达到精准营销的效果。

    在这个数据集中,我们主要关心的变量有:

    • “Response“ – 因变量: 该客户是否对此条营销广告做出了正面积极响应;

    • 客户的基本信息 – 自变量:比如年龄,工种行业,家庭关系,婚姻状况,性别等;

    • 客户的历史理财情况 – 自变量:比如理财收益或理财损失。

    在这里插入图片描述

    3.2. 软件操作演示

    3.2.1. 数据预处理

    任何一个数据分析项目都躲不掉繁重的数据预处理工作,比如数据画像,数据清洗,数据集成,数据变换等等。通常从业人员会花费70%的时间在这一项工作中。

    因为在上一篇文章中,我们已经粗略介绍了Altair
    KnowledgeStudio的数据预处理功能。这里我们便不再做过多的赘述。希望了解更多的读者可以私信我们,或翻阅往期文章。

    我们已经事先处理好了该数据,并将之分成了训练集“census3_train2“和测试集”census3_test“。随后我们会在训练集上建立逻辑回归模型。

    在这里插入图片描述

    3.2.2. 逻辑回归节点使用

    双击点开逻辑回归节点,我们可以在第一个操作界面中设置结果模型名称以及确认建模使用的数据。随后点击下一步进行深入的参数设置。

    在这里插入图片描述

    第二个界面主要包含了变量选择的相关参数。比如:

    • 界面的最上方,我们需要设定清楚我们的因变量是什么;

    • 界面的中间,我们可以设定不同的变量选择算法和相应的算法停止条件;

    • 界面的最下方,我们可以进一步约束自变量选择。比如哪些自变量应该被模型考虑,哪些自变量一定要包含在最终的模型之中。

    在最后一个界面中,我们可以设置迭代次数、优势比的置信水平、优化方法等等。

    当确认完毕一切相关参数后,我们可以选择运行模型。

    3.2.3. 模型结果解读

    等待模型建立完毕后,我们可以双击模型节点,得到模型的结果报告。

    在Model Overview的选项卡中,可以看到最终模型选中的变量及其模型的训练效果。如下图所示:为预测客户对营销方案的反馈情况,模型中的自变量主要涵盖了年龄,教育,婚姻状况,职业,性别等信息,而训练模型的正确预测约为84.4%。

    更多的模型拟合参数,我们需要跳转进下一张选项卡中。如下图所示,我们可以找到:

    • 评价整理模型有效性的度量值: 如p-value,Chi-square等;

    • 评价模型准确度的测量值:如Entropy Explained, Generalized R^2等;

    • 评价模型复杂度的测量值:如AIC,BIC等;

    • 更多的相关参数解释可以在软件内置的帮助手册中找到。
    在这里插入图片描述

    除了模型的整体参数表,下图所示的模型系数表也至关重要。

    比如可以通过p-value来判断各自变量的系数是否显著,比如我们可以通过odds的值来判定自变量的影响几率,比如我们还可以找到相应参数的置信区间等等。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Nx6QvFPC-1589467646962)( https://note.youdao.com/yws/api/personal/file/95A45ABCAF0442EAA41AD570EA9C1F88?method=download&shareKey=2238b0022fe3f08211bf443931bbf200)]

    最后我们可以用下面的式子来表达该逻辑回归模型的最终表达式:

    3.2.4. 建模之后

    当上述模型建立完之后,我们还有很多工作需要做。

    • 比如我们需要去使用测试数据集来验证模型是否存在过拟合;

    • 比如我们需要去重新调整训练数据集,模型参数来提升模型精准度;

    • 比如我们需要建立别的并行模型,来探究不同解决方案的可行性;

    • 比如我们需要对比所有并行模型,再结合业务条件来确定最终的实施落地方案。

    总而言之,预测模型的建立是一个复杂而漫长的过程。为找到一个适合当下业务,当下市场环境的模型方案,企业一定会耗费不少的时间与精力。

    1. 结语

    希望通过这篇文章,大家能够对逻辑回归有更进一步的了解。

    我们下一篇文章准备为大家简单介绍一下深度学习。如果大家对数据分析或者预测模型感兴趣,欢迎在文后留言与我们交流,也欢迎大家提出宝贵意见或建议。

    展开全文
  • 使用Logistic回归的糖尿病分类模型 据估计,全世界有4.15亿人患有糖尿病,估计... 我的模型能够弄清楚“多尿症”和“多尿症”是最常见的糖尿病指标。 我用来解决此任务的方法是: 数据数据上传到AWS S3- 建立 用法
  • 许多常见ML模型的自制实现,包括神经网络,线性模型和决策树。 强调 MNIST基准 导入/获取数据 import numpy as np np . random . seed ( 0 ) import matplotlib . pyplot as plt % matplotlib inline from functools...
  • 本文先简单介绍最常见的两类机器学习模型:线性回归和逻辑回归的基本概念,下一章采用逻辑回归的方法对泰坦尼克号沉船时间的生存率进行预测。一、什么是机器学习机器学习是一门人工智能的科学,使计算机通过给定经验...

    e15f0041fb43d8085fd38180cabf8888.png

    本文先简单介绍最常见的两类机器学习模型:线性回归和逻辑回归的基本概念,下一章采用逻辑回归的方法对泰坦尼克号沉船时间的生存率进行预测。

    一、什么是机器学习

    机器学习是一门人工智能的科学,使计算机通过给定经验数据,通过算法来建立模型,模拟人类学习的方式,对结果给出预测和判断。

    机器学习路径:数据分析=》机器学习=》深度学习。

    机器学习两个关键术语:特征(features),通过特征代表数据或者数据集某一方面的特点。标签(labes):对数据的预测结果,通常是指根据特征,基于一定算法得到标签。

    用Python进行机器学习数据分析,需要安装机器学习包scikit-learn。

    机器学习步骤:1)提出问题。2)理解数据。3)数据清洗。4)构建模型。5)评估模型。

    二、线性回归和逻辑回归

    1、线性回归

    衡量两个变量之间线性相关关系的模型,简单说就是衡量两个变量每单位相关程度。通常用用最佳拟合线来拟合两个变量的线性相关程度、大小、方向。用决定系数R平方来衡量线性回归模型精确度。

    建立线性回归模型有四步:

    1)提取特征和标签。2)建立训练数据和测试数据。3)用训练数据训练模型。4)用测试数据测试模型。

    这里以学习时间和考试分数这两个元素为例,简单演示一下线性回归模型建立。

    首先导入数据集,并计算学习时间和分数的相关系数。

    import pandas as pd
    #数据集
    examDict ={
        '学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
        '分数':[10,22,13,43,20,22,33,50,62,48,55,75,62,73,81,76,64,82,90,93]
    }
    examDf=pd.DataFrame(examDict)
    rDf = examDf.corr()
    print(rDf)

    fd7c1b31f254aabb6c270c6f95040e5b.png

    可以看到学习时间和分数是强相关关系。接下来提取特征和标签,以学习时间为特征,分数为标签。

    #提取特征和标签
    #特征features
    exam_X = examDf.loc[:,'学习时间']
    exam_y = examDf.loc[:,'分数']
    

    建立训练数据和测试数据,这里我们把给定数据集中80%的数据作为训练数据,余下20%的数据作为测试数据。

    #建立训练数据和测试数据
    from sklearn.model_selection import train_test_split
    # 建立训练数据和测试数据
    X_train,X_test,y_train,y_test = train_test_split(exam_X,exam_y,train_size =.8)
    
    #输出数据大小
    print('原始数据特征:',exam_X.shape,',训练数据特征:',X_train.shape,',测试数据特征:',X_test.shape)
    print('原始数据标签:',exam_y.shape,',训练数据标签:',y_train.shape,',测试数据标签:',y_test.shape)

    结果如下:

    255987f25973e089f6e3e6eeb544c4ee.png

    接下来导入数据训练模型:

    #第1步:导入线性回归
    from sklearn.linear_model import LinearRegression
    #第2步:创建模型:线性回归
    model = LinearRegression()
    
    #将训练数据特征转换成二维数组XX行*1列
    X_train = X_train.values.reshape(-1,1)
    #将测试数据特征转换成二维数组行数*1列
    X_test = X_test.values.reshape(-1,1)
    
    #第3步:训练模型
    model.fit(X_train,y_train)
    
    #第4步:评估模型
    model.score(X_test,y_test)

    10061c040985c9f157d64356e56d5f0f.png

    预测准确率达到0.92,计算最佳拟合线:

    #计算最佳拟合线
    #截距
    a=model.intercept_
    #回归系数
    b=model.coef_
    
    print('最佳拟合线:截距a=',a,',回归系数b=',b)

    fb0f51ad7e3ac0f8cd08c6f5cec13010.png

    画图:

    import matplotlib.pyplot as plt
    #训练数据散点图
    plt.scatter(X_train,y_train,color ="blue",label = "train data")
    
    #训练数据预测值
    y_train_pred = model.predict(X_train)
    plt.plot(X_train,y_train_pred,color='black',label = 'best line')
    
    #添加图标标签
    plt.legend(loc=2)
    plt.xlabel("hours")
    plt.ylabel("score")
    
    #显示图像
    plt.show()

    5a23b96958e2b735aceddbfdb9983750.png

    三、逻辑回归

    逻辑回归通常用于二分分类的问题,比如说我们通过学习时间,来预测考试通过还是不通过。这里通过和不通过是结果,要么通过,要么不通过,输出结果只有两类。逻辑回归通常用逻辑函数来描绘,逻辑函数的参数z是一个回归函数。

    equation?tex=y%3DS%28z%29%3D%5Cfrac%7B1%7D%7B1%2Be%5E%7B-z%7D%7D
    equation?tex=%E5%8F%82%E6%95%B0z%E6%98%AF%E4%B8%80%E4%B8%AA%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%87%BD%E6%95%B0Z%3Da%2Bbx

    逻辑函数拟合图:

    d498d078a6e3efa88af838247a1668e1.png

    逻辑函数Y表示当分类结果标签=1时,X对应的概率值。当分类结果的标签=1时,X对应的概率值。如果逻辑回归得到的概率数值Y>=0.5,那么特征=1,如果概率值<0.5,那么特征=0。

    使用逻辑回归来预测,也分为以下几步:

    1)提取特征和标签。2)建立训练数据和测试数据。3)用训练数据训练模型。4)用测试数据测试模型。

    以学习时间和考试结果为例,来演示一下简单逻辑回归模型如何建立。

    导入数据集,计算学习时间和考试通过的相关关系。

    import pandas as pd
    #定义数据集
    examDict ={
        '学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
        '通过考试':[0,0,0,0,0,0,1,0,1,0,1,0,1,0,1,1,1,1,1,1]
    }
    examDf=pd.DataFrame(examDict)
    rDf = examDf.corr()
    print(rDf)

    693fb4edf454a8583ffdb1aa2c98c365.png

    可以看出学习时间和通过考试直接的相关性比较强,但相比考试分数的相关性0.92来说,还是存在一定确定性。这里我们将学习时间作为特征,通过考试作为结果,提取特征和标签。

    #提取特征和标签
    #特征features
    exam_X = examDf.loc[:,'学习时间']
    #标签labes
    exam_y = examDf.loc[:,'通过考试']

    建立训练数据和测试数据:

    #建立训练数据和测试数据
    from sklearn.model_selection import train_test_split
    X_train,X_test,y_train,y_test = train_test_split(exam_X,exam_y,train_size=.8)
    
    #输出数据大小
    print ("原始数据特征:",exam_X.shape)
    print ("训练数据特征:",X_train.shape)
    print ("测试数据特征:",X_test.shape)
    print ("原始数据标签:",exam_y.shape)
    print ("训练数据标签:",y_train.shape)
    print ("测试数据标签:",y_test.shape)

    结果如下:

    5200fde2a26ca26488a2d47baae8b38c.png

    接下来用训练数据训练模型:

    #用训练数据训练模型
    
    #1.导入逻辑回归包
    from sklearn.linear_model import LogisticRegression
    
    #2.创建模型:逻辑回归
    model = LogisticRegression()
    
    #将训练数据特征转换成二维数组XX行*1列,做这个转换的主要目的是将n行两列的数据转换成n行1列的数据
    X_train = X_train.values.reshape(-1,1)
    #将测试数据特征转换成二维数组行数*1列
    X_test = X_test.values.reshape(-1,1)
    
    #3.训练模型
    model.fit(X_train,y_train)

    逻辑回归模型运行结果:

    5d64cee548ba826d26d67c93874ea19e.png

    接下来用测试数据评估模型:

    #4.测试模型
    model.score(X_test,y_test)

    24051536378ea7858c1a7338f00f95e1.png

    运行结果显示模型准确率0.75。需要注意的是,每次评估模型,训练数据随机选取,所以测试模型评估分数结果会有差异。

    对模型运行结果画图:

    #画图
    import matplotlib.pyplot as plt
    #训练数据散点图
    plt.scatter(X_train,y_train,color='blue',label='train data')
    #测试数据散点图
    plt.scatter(X_test,y_test,color='red',label='test data')
    
    #添加标签和坐标轴显示
    plt.legend(loc=2)
    plt.xlabel("Hours")
    plt.ylabel("Pass")
    
    #图像显示
    plt.show()

    图像显示结果如下:

    186af9517a4735b853de17eb52ef9ea8.png

    总结:综上,我们用简单的Python代码帮助熟悉了线性回归和逻辑回归的基本概念,下一节在熟悉概念的基础上,我们用数据分析基本方法以及逻辑回归模型来预测泰坦尼克号沉船生存率。

    看山水:泰坦尼克号沉船事件生存率预测zhuanlan.zhihu.com
    eacba8a4725d3516db6a5036effd38c3.png
    展开全文
  • 比如常见的线性回归模型: 而在采用回归模型分析实际问题中,所研究的变量往往不全是区间变量而是顺序变量或属性变量,比如二项分布问题。通过分析年龄、性别、体质指数、平均血压、疾病指数等指标,判断一个人...
  • 逻辑回归模型

    2015-09-19 13:23:20
    逻辑回归(Logistic Regression,简称LR)是最常见的一种分类模型。 这里简单介绍下其推导过程。设有训练数据(x1,y1),(x2,y2),...,,(xm,ym){(x^1, y^1), (x^2, y^2), ..., , (x^m, y^m)}其中 xix^i为特征(feature...
  •   在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。   当所有维表...
  • 数据模型与SQL语言

    2020-12-23 14:54:24
    常见的3种基本数据模式:层次模型、网状模型和关系模型。 目前使用最多的就是关系模型,建立在关系模型基础上的数据库称为关系型数据库。如,MySQL就是一种关系型数据库。 理解关系模型的理论知识:数据建模、...
  • 软件测试常见的开发模型

    千次阅读 2020-12-14 23:12:28
    软件是指计算机系统中与硬件相互依存另一部分,包括文档数据服务完整结合 2、软件特点 1)软件是一种逻辑实体 具有抽象性 保存在存储器中 无法看到软件本身形态 2)软件生产与硬件生产不同 通过人们...
  • 基本逻辑就是保持训练好的模型,然后再load_model()加载,用新数据集训练 易错点 比如第一次训练得到模型a.model,下次利用load_model()加载该模型,对新数据集进行训练,如果不加处理话很可能报错: ValueError: ...
  •  在软件架构中,最常见的一种架构模式就是层式架构模式,即把一个系统按逻辑上的功能拆分成多个层,层与层之间保持单向依赖关系,每层只依赖于其直接下层,以保证每层的良好封装性和独立性。而层式架构模式最常用的...
  • 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接...
  • 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,可将常见的模型分为星型模型和雪花模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花模型进行组织。 星型模型 当所有维表都...
  • 几种常见的数据分布

    万次阅读 2018-07-17 20:25:21
    模型的基线取决于数据的好坏,数据的好坏取决与你对数据的理解。所以为了更加懂数据,就先理解一下数据有哪些分布吧。 伯努利分布 名字听起来很陌生,其实离我们生活很近,抛硬币都是老掉牙例子了,正面或者反面...
  • 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接...
  • 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接...
  • 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 星型模型 当所有维...
  • 数据模型中 星与雪花

    2012-03-09 09:45:00
    在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接...
  • 在实际工作中多维分析的商业智能解决方案,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。一、星型模型...
  • 在实际工作中多维分析的商业智能解决方案,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 星型模型 ...
  • 一、概述在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都...
  • 机器学习几种常见模型的介绍

    千次阅读 2015-08-05 16:03:47
    这里我主要介绍以下几种模型: k近邻法 朴素贝叶斯法 决策树 逻辑斯蒂回归 ...(2)在Nk(x)N_k(x)中根据分类决策规则决定x类别优缺点优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高
  •  在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑数据模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。  当所有维表都...
  • 探索比例优势模型在临床医学中常见的多结局区间截断数据中的应用.用条件的逻辑回归方法避免讨厌参数的估计,用牛顿一拉普森算法估计回归系数,用“夹心方差”估计量作为参数方差的估计.通过随机模型检验模型应用的...
  • 常见数据仓库问题

    2020-12-24 09:47:15
    数据模型5.1 星型模型5.2 雪花模型5.3 星系模型5.4 Data Vault模型6. 建模方法6.1 范式建模法(ThirdNormal Form,3NF)6.2 维度建模法6.4 3.实体建模法7. 数据库和数据仓库区别8 数据仓库流程 数仓是一个面向
  • 简单来说,关系模型就是二维表格模型,而一个关系型数据库就是由二维表及其之间联系所组成一个数据组织。 基于标准SQL,只是内部一些实现有区别。常用关系型数据库如: Oracle:甲骨文产品,适合大型...
  • 机器学习中几个常见模型的优缺点

    万次阅读 2017-08-24 14:18:49
    朴素贝叶斯:优点:对小规模的数据表现很好,适合多分类任务,适合增量式训练。 缺点:对输入数据的表达形式很敏感(连续数据的处理方式)。 决策树:优点:计算量简单,可解释性强,比较适合处理有缺失属性值...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,055
精华内容 422
关键字:

常见的逻辑数据模型