精华内容
下载资源
问答
  • 关于大数据分析的四个关键环节

    千次阅读 2019-05-05 16:29:49
    什么是大数据  随着大数据时代的到来,AI 概念的... 信息论之父香农曾表示,信息是用来消除不信任的东西,比如预测明天会不会下雨,如果知道了今天的天气、风速、云层、气压等信息,有助于得出更准确的结论。所...

    什么是大数据

     

      随着大数据时代的到来,AI 概念的火热,人们的认知有所提高。为什么说大数据有价值 这是不是只是一个虚的概念 大家怎么考虑数据驱动问题 为什么掌握更多的数据就会更有效 这些问题很难回答,但是,大数据绝不是大而空洞的。

     

      信息论之父香农曾表示,信息是用来消除不信任的东西,比如预测明天会不会下雨,如果知道了今天的天气、风速、云层、气压等信息,有助于得出更准确的结论。所以大数据是用来消除不确定性的,掌握更多的有效数据,可以驱动企业进行科学客观的决策。

     

      桑文锋对大数据有着自己的理解,数据采集遵循“大”、“全”、“细”、“时”四字法则。

     

      “大”强调宏观的“大”,而非物理的“大”。大数据不是一味追求数据量的“大”。比如每天各地级市的苹果价格数据统计只有 2MB,但基于此研发出一款苹果智能调度系统,就是一个大数据应用,而有些数据虽然很大,却价值有限;

     

      “全”强调多种数据源。大数据采集讲求全量,而不是抽样。除了采集客户端数据,还需采集服务端日志、业务数据库,以及第三方服务等数据,全面覆盖,比如美国大选前的民意调查,希拉里有70%以上胜算,但是川普成为了美国总统,因为采样数据有偏差,支持川普的底层人民不会上网回复。

     

      “细”强调多维度数据采集,即把事件的维度、属性、字段等都进行采集。如电商行业“加入购物车”的事件,除了采集用户的 click 数据,还应采集用户点击的是哪个商品、对应的商户等数据,方便后续交叉分析。

     

      “时”强调数据的时效性。显然,具有时效性的数据才有参考价值。如国家指数,CPI 指数,月初收集到信息和月中拿到信息,价值显然不同,数据需要实时拿到,实时分析。

     

      从另一个视角看待数据的价值,可以分为两点,数据驱动决策,数据驱动产品智能。数据的最大价值是产品智能,有了数据基础,再搭建好策略算法,去回灌产品,提升产品本身的学习能力,可以不断迭代。如今日头条的新闻推荐,百度搜索的搜索引擎优化,都是数据驱动产品智能的体现。


    \

     

      数据分析四个关键环节

     

      桑文锋把数据分析分为四个环节,数据采集、数据建模、数据分析、指标。他提出了一个观点,要想做好数据分析,一定要有自底向上的理念。很多公司的数据分析自顶向下推动,用业务分析指标来决定收集什么数据,这是需求驱动工程师的模式,不利于公司长久的数据采集。而一个健康的自底向上模式,可以帮助公司真正建立符合自己业务的数据流和数据分析体系。

     

      一、数据采集

     

      想要真正做好大数据分析,首先要把数据基础建好,核心就是“全”和“细”。

     

      搜集数据时不能只通过 APP 或客户端收集数据,服务器的数据、数据库数据都要同时收集打通,收集全量数据,而非抽样数据,同时还要记录相关维度,否则分析业务时可能会发现历史数据不够,所以不要在意数据量过大,磁盘存储的成本相比数据积累的价值,非常廉价。

     

      常见的数据采集方式归结为三类,可视化/全埋点、代码埋点、数据导入工具。


    \


      第一种是可视化/全埋点,这种方式不需要工程师做太多配合,产品经理、运营经理想做分析直接在界面点选,系统把数据收集起来,比较灵活。但是也有不好的地方,有许多维度信息会丢失,数据不够精准。

     

      第二种是代码埋点,代码埋点不特指前端埋点,后端服务器数据模块、日志,这些深层次的都可以代码埋点,比如电商行业中交易相关的数据可以在后端采集。代码埋点的优势是,数据更加准确,通过前端去采集数据,常会发现数据对不上,跟自己的实际后台数据差异非常大。可能有三个原因:第一个原因是本身统计口径不一样,一定出现丢失;第二点是流量过大,导致数据丢失异常;第三点是SDK兼容,某些客户的某些设备数据发不出去,导致数据不对称。而代码埋点的后台是公司自己的服务器,自己核心的模拟可以做校准,基本进行更准确的数据采集。

     

      第三种是通过导入辅助工具,将后台生成的日志、数据表、线下数据用实时批量方式灌到里面,这是一个很强的耦合。

     

      数据采集需要采集数据和分析数据的人共同参与进来,分析数据的人明确业务指标,并且对于数据的准确性有敏感的判断力,采集数据的人再结合业务进行系统性的采集。

     

      二、数据建模

     

      很多公司都有业务数据库,里面存放着用户注册信息、交易信息等,然后产品经理、运营人员向技术人员寻求帮助,用业务数据库支持业务上的数据分析。但是这样维护成本很高,且几千万、几亿条数据不能很好地操作。所以,数据分析和正常业务运转有两项分析,数据分析单独建模、单独解决问题。

     

      数据建模有两大标准:易理解和性能好。

     

      数据驱动不是数据分析师、数据库管理员的专利,让公司每一个业务人员都能在工作中运用数据进行数据分析,并能在获得秒级响应,验证自己的新点子新思维,尝试新方法,才是全员数据驱动的健康状态。

     

      多维数据分析模型(OLAP)是用户数据分析中最有效的模型,它把用户的访问数据都归类为维度和指标,城市是维度,操作系统也是维度,销售额、用户量是指标。建立好多维数据分析模型,解决的不是某个业务指标分析的问题,使用者可以灵活组合,满足各种需求。

     

      三、数据分析

     

      数据分析支持产品改进

     

      产品经理在改进产品功能时,往往是拍脑袋灵光一现,再对初级的点子进行再加工,这是不科学的。《精益创业》中讲过一个理念,把数据分析引入产品迭代,对已有的功能进行数据采集和数据分析,得出有用的结论引入下一轮迭代,从而改进产品。在这个过程中大数据分析很关键。

     

      Facebook 的创始人曾经介绍过他的公司如何确定产品改进方向。Facebook 采用了一种机制:每一个员工如果有一个点子,可以抽样几十万用户进行尝试,如果结果不行,就放弃这个点子,如果这个效果非常好,就推广到更大范围。这是把数据分析引入产品迭代的科学方法。

     

      桑文锋在 2007 年加入百度时,也发现了一个现象,他打开邮箱会收到几十封报表,将百度知道的访问量、提问量、回答量等一一介绍。当百度的产品经理提出一个需求时,工程师会从数据的角度提出疑问,这个功能为什么好 有什么数据支撑 这个功能上线时如何评估 有什么预期数据 这也是一种数据驱动产品的体现。

     

      数据驱动运营监控

     

      运营监控通常使用海盗模型,所谓的运营就是五件事:触达是怎么吸引用户过来;然后激活用户,让用户真正变成有效的用户;然后留存,提高用户粘性,让用户能停留在你的产品中不断使用;接下来是引荐,获取用户这么困难,能不能发动已有的用户,让已有用户带来新用户,实现自传播;最后是营收,做产品最终要赚钱。要用数据分析,让运营做的更好。

     

      数据分析方法

     

      互联网常见分析方法有几种,多维分析、漏斗分析、留存分析、用户路径、用户分群、点击分析等等,不同的数据分析方法适用于不同的业务场景,需要自主选择。

     

      举个多维分析的例子,神策数据有一个视频行业的客户叫做开眼,他们的软件有一个下载页面,运营人员曾经发现他们的安卓 APP 下载量远低于 iOS,这是不合理的。他们考虑过是不是 iOS 用户更愿意看视频,随后从多个维度进行了分析,否定了这个结论,当他们发现某些安卓版本的下载量为零,分析到屏幕宽高时,看出这个版本下载按钮显示不出来,所以下载比例非常低。就这样通过多维分析,找出了产品改进点。

    在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取
     

     

      举个漏斗分析的例子,神策数据的官网访问量很高,但是注册-登录用户的转化率很低,需要进行改进。所以大家就思考如何把转化漏斗激活地更好,后来神策做了小的改变,在提交申请试用后加了一个查看登录页面,这样用户收到账户名密码后可以随手登录,优化了用户体验,转化率也有了可观的提升。

     

      四、指标

     

      如何定义指标 对于创业公司来说,有两种方法非常有效:第一关键指标法和海盗指标法。

     

      第一关键指标法是《精益数据分析》中提出的理论,任何一个产品在某个阶段,都有一个最需要关注的指标,其他指标都是这个指标的衍生,这个指标决定了公司当前的工作重点,对一个初创公司来说,可能开始关注日活,围绕日活又扩展了一些指标,当公司的产品成熟后,变现就会成为关键,净收入(GMV)会变成第一关键指标。

    展开全文
  • 大数据分析的四个关键环节

    万次阅读 2018-07-04 18:50:38
    ▌ 什么是大数据?...信息论之父香农曾表示,信息是用来消除不信任的东西,比如预测明天会不会下雨,如果知道了今天的天气、风速、云层、气压等信息,有助于得出更准确的结论。所以大数据是用来消除不确...

    ▌ 什么是大数据?

    随着大数据时代的到来,AI 概念的火热,人们的认知有所提高。为什么说大数据有价值?这是不是只是一个虚的概念?大家怎么考虑数据驱动问题?为什么掌握更多的数据就会更有效?这些问题很难回答,但是,大数据绝不是大而空洞的。

    信息论之父香农曾表示,信息是用来消除不信任的东西,比如预测明天会不会下雨,如果知道了今天的天气、风速、云层、气压等信息,有助于得出更准确的结论。所以大数据是用来消除不确定性的,掌握更多的有效数据,可以驱动企业进行科学客观的决策。

    桑文锋对大数据有着自己的理解,数据采集遵循“大”、“全”、“细”、“时”四字法则。

    “大”强调宏观的“大”,而非物理的“大”。大数据不是一味追求数据量的“大”。比如每天各地级市的苹果价格数据统计只有 2MB,但基于此研发出一款苹果智能调度系统,就是一个大数据应用,而有些数据虽然很大,却价值有限;

    “全”强调多种数据源。大数据采集讲求全量,而不是抽样。除了采集客户端数据,还需采集服务端日志、业务数据库,以及第三方服务等数据,全面覆盖,比如美国大选前的民意调查,希拉里有70%以上胜算,但是川普成为了美国总统,因为采样数据有偏差,支持川普的底层人民不会上网回复。

    “细”强调多维度数据采集,即把事件的维度、属性、字段等都进行采集。如电商行业“加入购物车”的事件,除了采集用户的 click 数据,还应采集用户点击的是哪个商品、对应的商户等数据,方便后续交叉分析。

    “时”强调数据的时效性。显然,具有时效性的数据才有参考价值。如国家指数,CPI 指数,月初收集到信息和月中拿到信息,价值显然不同,数据需要实时拿到,实时分析。

    从另一个视角看待数据的价值,可以分为两点,数据驱动决策,数据驱动产品智能。数据的最大价值是产品智能,有了数据基础,再搭建好策略算法,去回灌产品,提升产品本身的学习能力,可以不断迭代。如今日头条的新闻推荐,百度搜索的搜索引擎优化,都是数据驱动产品智能的体现。

    ▌ 数据分析四个关键环节

    桑文锋把数据分析分为四个环节,数据采集、数据建模、数据分析、指标。他提出了一个观点,要想做好数据分析,一定要有自底向上的理念。很多公司的数据分析自顶向下推动,用业务分析指标来决定收集什么数据,这是需求驱动工程师的模式,不利于公司长久的数据采集。而一个健康的自底向上模式,可以帮助公司真正建立符合自己业务的数据流和数据分析体系。

    一、数据采集

    想要真正做好大数据分析,首先要把数据基础建好,核心就是“全”和“细”。

    搜集数据时不能只通过 APP 或客户端收集数据,服务器的数据、数据库数据都要同时收集打通,收集全量数据,而非抽样数据,同时还要记录相关维度,否则分析业务时可能会发现历史数据不够,所以不要在意数据量过大,磁盘存储的成本相比数据积累的价值,非常廉价。

    常见的数据采集方式归结为三类,可视化/全埋点、代码埋点、数据导入工具。

    第一种是可视化/全埋点,这种方式不需要工程师做太多配合,产品经理、运营经理想做分析直接在界面点选,系统把数据收集起来,比较灵活。但是也有不好的地方,有许多维度信息会丢失,数据不够精准。

    第二种是代码埋点,代码埋点不特指前端埋点,后端服务器数据模块、日志,这些深层次的都可以代码埋点,比如电商行业中交易相关的数据可以在后端采集。代码埋点的优势是,数据更加准确,通过前端去采集数据,常会发现数据对不上,跟自己的实际后台数据差异非常大。可能有三个原因:第一个原因是本身统计口径不一样,一定出现丢失;第二点是流量过大,导致数据丢失异常;第三点是SDK兼容,某些客户的某些设备数据发不出去,导致数据不对称。而代码埋点的后台是公司自己的服务器,自己核心的模拟可以做校准,基本进行更准确的数据采集。

    第三种是通过导入辅助工具,将后台生成的日志、数据表、线下数据用实时批量方式灌到里面,这是一个很强的耦合。

    数据采集需要采集数据和分析数据的人共同参与进来,分析数据的人明确业务指标,并且对于数据的准确性有敏感的判断力,采集数据的人再结合业务进行系统性的采集。

    二、数据建模

    很多公司都有业务数据库,里面存放着用户注册信息、交易信息等,然后产品经理、运营人员向技术人员寻求帮助,用业务数据库支持业务上的数据分析。但是这样维护成本很高,且几千万、几亿条数据不能很好地操作。所以,数据分析和正常业务运转有两项分析,数据分析单独建模、单独解决问题。

    数据建模有两大标准:易理解和性能好。

    数据驱动不是数据分析师、数据库管理员的专利,让公司每一个业务人员都能在工作中运用数据进行数据分析,并能在获得秒级响应,验证自己的新点子新思维,尝试新方法,才是全员数据驱动的健康状态。

    多维数据分析模型(OLAP)是用户数据分析中最有效的模型,它把用户的访问数据都归类为维度和指标,城市是维度,操作系统也是维度,销售额、用户量是指标。建立好多维数据分析模型,解决的不是某个业务指标分析的问题,使用者可以灵活组合,满足各种需求。

    三、数据分析

    数据分析支持产品改进

    产品经理在改进产品功能时,往往是拍脑袋灵光一现,再对初级的点子进行再加工,这是不科学的。《精益创业》中讲过一个理念,把数据分析引入产品迭代,对已有的功能进行数据采集和数据分析,得出有用的结论引入下一轮迭代,从而改进产品。在这个过程中大数据分析很关键。

    Facebook 的创始人曾经介绍过他的公司如何确定产品改进方向。Facebook 采用了一种机制:每一个员工如果有一个点子,可以抽样几十万用户进行尝试,如果结果不行,就放弃这个点子,如果这个效果非常好,就推广到更大范围。这是把数据分析引入产品迭代的科学方法。

    桑文锋在 2007 年加入百度时,也发现了一个现象,他打开邮箱会收到几十封报表,将百度知道的访问量、提问量、回答量等一一介绍。当百度的产品经理提出一个需求时,工程师会从数据的角度提出疑问,这个功能为什么好?有什么数据支撑?这个功能上线时如何评估?有什么预期数据?这也是一种数据驱动产品的体现。

    数据驱动运营监控

    运营监控通常使用海盗模型,所谓的运营就是五件事:触达是怎么吸引用户过来;然后激活用户,让用户真正变成有效的用户;然后留存,提高用户粘性,让用户能停留在你的产品中不断使用;接下来是引荐,获取用户这么困难,能不能发动已有的用户,让已有用户带来新用户,实现自传播;最后是营收,做产品最终要赚钱。要用数据分析,让运营做的更好。

    数据分析方法

    互联网常见分析方法有几种,多维分析、漏斗分析、留存分析、用户路径、用户分群、点击分析等等,不同的数据分析方法适用于不同的业务场景,需要自主选择。

    举个多维分析的例子,神策数据有一个视频行业的客户叫做开眼,他们的软件有一个下载页面,运营人员曾经发现他们的安卓 APP 下载量远低于 iOS,这是不合理的。他们考虑过是不是 iOS 用户更愿意看视频,随后从多个维度进行了分析,否定了这个结论,当他们发现某些安卓版本的下载量为零,分析到屏幕宽高时,看出这个版本下载按钮显示不出来,所以下载比例非常低。就这样通过多维分析,找出了产品改进点。

    举个漏斗分析的例子,神策数据的官网访问量很高,但是注册-登录用户的转化率很低,需要进行改进。所以大家就思考如何把转化漏斗激活地更好,后来神策做了小的改变,在提交申请试用后加了一个查看登录页面,这样用户收到账户名密码后可以随手登录,优化了用户体验,转化率也有了可观的提升。

    四、指标

    如何定义指标?对于创业公司来说,有两种方法非常有效:第一关键指标法和海盗指标法。

    第一关键指标法是《精益数据分析》中提出的理论,任何一个产品在某个阶段,都有一个最需要关注的指标,其他指标都是这个指标的衍生,这个指标决定了公司当前的工作重点,对一个初创公司来说,可能开始关注日活,围绕日活又扩展了一些指标,当公司的产品成熟后,变现就会成为关键,净收入(GMV)会变成第一关键指标。

    更多数据分析干货和案例,可以关注“神策数据”公众号了解~

    想了解神策数据产品,可以点击体验 Demo 试用~

    展开全文
  • 企业管理信息系统是一项复杂的系统工程,在项目搭建过程中,软件工具的选型、系统实施和管理是一极其关键也是最容易出错的环节,选型和实施的成败最终决定着系统效益的充分发挥。在整个项目规划实施过程中,应该...

    信息技术加速了经济的全球化,也促使企业不断利用先进的信息技术去面对激烈的竞争。

    企业信息化是现代企业管理必不可少的重要手段,特别是随着大数据时代的来临,数据体量日益庞大和复杂,如何通过搭建高效的企业信息化系统,梳理明晰高效的企业信息流,并透过纷繁复杂的数据,洞悉企业运营和决策的奥秘,成为企业经营管理者特别是CIO们思考的问题。

    所谓的企业信息化管理系统,就是将ERP软件与企业实际相结合,利用软件将企业的信息流、资金流、物流等有机地结合起来,最终实现企业系统运行的集成化、业务流程合理化、绩效监控动态化、管理改善持续化的过程,是一个将软件成功应用于企业的过程。

    那么,如何成功搭建适合企业实际情况的信息化系统呢?企业管理信息系统是一项复杂的系统工程,在项目搭建过程中,软件工具的选型、系统实施和管理是一个极其关键也是最容易出错的环节,选型和实施的成败最终决定着系统效益的充分发挥。

    在整个项目规划实施过程中,应该本着整体规划、分步实施的原则,对所有方面做严格的计划、组织、管理和监控,这样才能对时间成本,以及产品、服务细节的需求间可能发生的矛盾进行平衡,总结起来,大致分为4个阶段。

    1. 实施准备阶段,主要是系统调研与分析

    企业信息化项目的系统调查,是从整体和战略的高度出发,全面调查企业情况,为分析企业情况奠定基础。以下4个方面都是需要CIO们考虑的:

    • 全面了解企业的管理模式,包括业务管理模式,财务管理制度,岗位责任制度,人类资源管理制度等,从而确定本公司是否适合引进信息系统,以及如何规划信息系统建设。
    • 对企业现有业务情况进行调查研究,包括了解公司管理环境、控制环节、业务流程现状,了解公司业务部门的设置和人员分工,了解公司行政、综合管理部门的设计及人员分工,了解公司的财务核算体系,分析公司特殊业务的具体情况等。
    • 对企业实施信息化系统管理项目希望达到的目标进行调研,包括确定业务实施的总目标和分段目标,确定财务核算标准,及财务与业务对接的实施目标,确定行政、综合部门的管理目标等。
    • 对ERP软件进行选型和调研,跟进企业的需求特点选择合适的ERP软件。国内外主流的ERP软件都有不少,一般而言,国外的ERP系统本身蕴含着许多先进的管理思想和手段,为企业提供可借鉴的参考模型,能较显著的提高流程优化和重组的效率,在全面集成性、技术稳定性、功能灵活性、系统开放性等方面实力较强。国内的ERP软件的发展则是突飞猛进,有不少成熟的公司和产品,国内的软件产品的独特优势在于,一方面借鉴了国外产品的设计和开发经验,另一方面,在项目实施上更能充分响应中国市场的需求,也更容易理解国内企业的情况和管理及管理者的思想和思路。,比如ActiveReports 企业报表这种全球化的报表软件,其在国内有开发和技术支持团队,报表设计理念有不少是符合中国式复杂报表情况的,如多表头设计,多权限管理等,更符合中国国情,也能让企业信息系统能更充分的发挥作用

    项目实施的可行性分析,也是实施准备阶段的重要工作。除了对企业本身的管理模式做分析外,最重要的是理清企业的业务流程。比如,分析企业是单一工厂还是多工厂,如果是多工厂多业务流程,那每个工厂之间的相互关系如何,是串联还是并联,是相互独立还是相互关联,这些业务流程的业务量有多大,哪些是关键环节,是部分业务实施ERP,还是全部业务都需要实施ERP,实施需要对哪些业务流程、组织机构进行改革和重组,变动大不大,是否可行,能否平稳过渡,等等。现在市面上有很多Web应用的生成工具,像活字格这类简单易用的软件很受欢迎,只要会Excel,企业就可以创建应用系统,很快梳理清楚业务流程。

     

    2. 系统实施阶段,主要是决策和组织

    CIO们在做过全面的调查和系统的可行性分析后,就进入项目实施的决策阶段了,需要根据调查结合和财务预算,决策好项目实施的具体内容,参与的部门和人员调配,以及需要引进的模块。

    为了保证项目按计划进度顺利实施,还需要成立项目领导小组、实施小组和职能组,使项目相关的工作可以尽快组织落实。小组的核心负责人,需要十分熟悉企业的管理情况,思维敏捷,条理清楚,善于表达和以理服人,有较强的组织能力,能与人共事合作,在具体工作中,要负责组织源性测试和模拟运行,对企业管理改革的问题提出解决方案和建议,还要能定期提交个阶段的工作成果报告。

    项目领导小组、项目实施小组和职能组的关系是环环相扣,密不可分的。

    3. 二次开发阶段,针对特殊需求的定制开发

    ERP并不是特别针对某个企业开发的软件,虽然其强大的参数配置功能可以满足不同生产类型、不同业务模式的企业的需求,但是,有一些客户的特殊的业务需求仍然不能满足,而且,如果希望ERP软件更好的适应企业的需求,更好的为企业服务,就需要进行二次开发。二次开发主要针对两个内容:

    • 应用程序的二次开发。一般大型的ERP软件功能本身就很强大,基本能覆盖到企业所有的需求,并且软件本身有配置功能,可以根据企业的不同需求通过调整参数来解决问题。葡萄城的企业软件和活字格Web应用生成器基本上也能满足需求。
    • 查询、报表和单据的二次开发。这种开发在企业中的实施是比较常见的,也是必须的。ERP的报表形式不同,每个企业的习惯不同,ERP软件中的报表形式不一定适合企业的习惯。因此,企业应根据自身的习惯对报表形式进行二次开发,适应企业的需要。

    4. 项目考评阶段,是否为企业带来利润和回报

    我们通常在测评一个信息系统时,会检验项目实施进度、成本、功能等方面,事实上,还有几个因素也是重要的评价指标,比如:

    • 可操作性评估。企业信息系统的最终目的是让企业的广大职工都能使用,所以,需要设计容易操作的界面,让普通员工也能方便的使用软件来操作,确保每一位使用者都能快捷的使用软件,这是项目实施成功的重要条件,也是一个主要的检验标准。
    • 项目的延续性评估。企业信息系统是企业赖以发展的长期投资项目,所以项目能否随着企业的发展而持续的得到应用,这是评价项目成败的另一个重要指标,主要包括持续性升级能力,功能扩展能力,客户化能力,跨平台能力等几方面。

    总之,企业信息化系统是否有效,最终的评价标准是是它与原有的系统相比,优劣程度如何?和同行业企业相比,优劣程度又如何?只有新系统运行平稳的同时,又具有原系统不具备的优势,并有助于保持企业目前和长远的竞争利益,才能认为企业成功的实施了信息化系统。

    展开全文
  • 深度学习的四个步骤

    万次阅读 2016-09-09 15:46:01
    深度学习的四个步骤:每个阶段给出的学习资源

    原文地址: https://medium.com/@vzkuma/4-steps-for-learning-deep-learning-86f11fcee54

     

    学习深度学习的四个步骤

    一个手写资源列表帮助你变成一个深度学习专家

     

    首先,如果你需要一些基本的信息或者令人信服的关于深度学习为什么有非常大的影响,可以检验下面由Andrew Ng制作的视频。

                                                            https://www.youtube.com/watch?v=n1ViNeWhC24

    步骤1:学习深度学习的基本知识

    (可选的,但是建议你这样做)

     

    由Andrew Ng的机器学习课程开始

    https://www.coursera.org/learn/machine-learning.他的课程提供了一些关于各种机器学习算法的介绍,更重要的是,一般的程序/机器学习的方法,包括数据预处理,大参数调优等。

     

    阅读由Geoff Hinton、Yoshua Bengio和Yann LeCun写的NIPS 2015深度学习教材

    是一个以通俗易懂的介绍。

     

    步骤2:深入专研深度学习

    我学习的偏好是观看讲座视频,并感谢几个优秀的网上课程,这里有我喜欢的几个课程:

     

    1、Deep learning at Oxford 2015,Nando de Freitas没有过于复杂的熟练解释基本原理。从讲座9开始,如果你熟悉神经网络并想要再深一点,他在他的例子中使用了火炬框架(Video on Youtube)。

    2、Neural Network for Machine Learning:这是Geoff Hinton的课程。Hinton是一个杰出的研究者,他证明了一般的BP算法的使用并对于深度学习的发展起着至关重要的作用。我尊重他,但是我发现该课程没有组织。更进一步的,课程会由于布置的测试陷入困境。

    3、Neural Networks Class,是由Hugo Larochelle 教授:另外一个极好的课程。

    4、Yaser Abu-Mostafas machine learing course:如果你感兴趣更多的理论的话。

     

    如果你更倾向于书籍,这里有一些极好的资源。

    1、Neural Networks and Deep Learning Book,是由Michael Nielsen撰写:在线书籍并有几个交互式的JavaScript元素可以玩。

    2、Deep Learning Book,是由Ian Goodfellow, Yoshua Bengio和Aaron Courville撰写:有一些密集。

     

    步骤3:挑选一个专注领域并深入研究

    确定你所热爱的并深入研究,领域是宽广的,所以列表是一个全面的列表。

     

    1、计算机视觉

       深度学习已经改变了这一领域。斯坦福CS231课程是我最经历的最好课程,它教会你基础知识和卷积,同时也帮助你在AWS上建立GPU实例,同时,也可以看由Mofstafa S,Ibrahimz制作的课程Getting Started in Computer Vision

    2、自然语言处理(NLP)

      用于机器翻译,提问和回答,以及情感分析。为了掌握这一领域,深度理解自然语言的算法和基础计算属性是必须的。CS224N/Ling284课程是一个很好的起步课程。CS224d:Deep Learning for Natural Language Processing,是由David Socher教授的另外一门极好的课程,回顾了所有关于自然语言的最新深度学习的研究。更细节的可以看How do I learn Natural Language Processing?

     

     

    3、记忆网络(RNN-LSTM)

    最近的工作是将在LSTM复发神经的注意机制与外部可写内存相结合,这意味着在建筑系统中有一些有趣的工作,可以被理解、存储并在以问答的方式检索。这个研究领域是由Dr.Yann Lecun的facebook实验室起步的,原始文字是在arxiv上:Memory Network。这里有许多研究变体、数据集、标准等,比如,Metamind的 Dynamic Memory Networks for Natural Language Processing

    4、深度强化学习

       由AlphaGo出名,围棋系统在历史上击败了最强围棋选手,David Sliver的(谷歌深度思维)视频课程和教授Rich Stutton的书籍是很好的起步。对于关于LSTM的一般介绍可以看Christopher的文章Understand LSTM nework和Andrej karpathy的The Unreasonable Effectiveness of Recurrent Neural Networks

    5、一般模型

    虽然有辨识率模型试着去检测、区分和分类,它们最终是在一个基本层面上寻找功能分化并不理解数据。除了短期应用之外,生成模型提供了潜在的自动学习的自然特性;类别、维度或者完全不同的东西。三个常用的生成模型——Generative Adversarial Networks(GANs),

    Variational Autoencoders(VAEs) 和Autoregressive models(比如像素RNN),GAN是最流行的。想进一步深入阅读

    (1)、Original GAN paper.

    (2)、The Laplacian Adversarial Networks (LAPGAN) Paper.

    (3)、The Deep Convolutional Generative Adversarial Networks (DCGANpaper和DCGAN Code(可以被用来学习层次特征而不需要任何监督),也可以参考DCGNN used for Image Superresolution.

     

    步骤4:建立一些东西

    动手制作是成为一个专家的关键,试着去建立一些吸引你的并匹配你技能等级的。这里有一些建议去启发你。

    1、作为传统,开始是从分类手写数据库MNIST dataset.

    2、试着在数据库ImageNet上进行人脸识别和分类,如果你一直在做这个,可以参加ImageNet Challenge 2016.

    3、使用RNNs或者CNNs做一个Twitter情绪分析。

    4、训练一个神经网络去复制著名画家的艺术风格(A Neural Algorithm of Artistic Style)。

    5、使用RNN制作音乐:Compose Music With Recurrent Neural Networks

    6、使用深度强化学习打乒乓球:Play ping-pong using Deep Reinforcement Learning

    7、使用神经网络自拍:Use Neural Networks to Rate a selfie

    8、使用深度学习自动着色黑白照片:Automatically color Black & White pictures using Deep Learning

    想获得更多的启示,可以看下CS231n在冬天2016以及冬天2015的项目,也可以看下Kaggle 和HackerRank为了有趣的东西以及竞争和学习的机会而比赛。


    附加资源

    这里有一些指示来帮助你持续学习

    1、阅读一些极好的博客:Christopher OlahAndrew Karpathy博客很好的解释基本原理和最近突破

    2、在Twitter上关注一些有影响的人,@drfeifei, @ylecun, @karpathy, @AndrewYNg, @Kdnuggets, @OpenAI, @googleresearch.Who to follow on Twitter for machine learning

    information ?

    3、Google + Deep Learning Community页面,是一个很好的方式与深度学习中的创新保持联系,同时也与其他深度学习的专家和爱好者交流。

     

    参看ChristosChristofidis/awesome-deep-learning,关于深度学习课程、项目和社区的策划表是为了更多的乐趣。

     

     

     


     

    翻译者: 长腿叔叔 

    Email:duanzhch@tju.edu.cn

     

    展开全文
  • 机器学习的四个层次 考虑机器学习能力的四个层次。这是一种模式,可以帮助我们思考可用的资源和活动,以及何时才是解决这些问题的好时机。 新手、初学者 初级新手认知 中级熟练掌握 高级精通、灵活运用 我想在这里...
  • 2019工程伦理慕课答案(2019秋)习题及期末答案

    万次阅读 多人点赞 2019-11-08 18:19:53
    第一章习题(下) 单选题 (1/1 point) 下列哪一项不是工程与技术的区别 ...下列哪项是工程的完整生命周期中的环节 计划 设计 评估 完成 判断题 (1/1 point) 计划、设计、建造...
  • 近年来,小程序快速普及应用,尤其在疫情期间,个人信息收集使用的情况愈加频繁,但相关监督管理鲜少涉及。6月11日,南都个人信息保护研究中心联合中国信息通信研究院安全研究所发布《小程序个人信息保护研究报告》...
  • 第一章信息系统基础知识 1.信息信息化定义,信息传输模型 诺伯特维纳:信息就是信息,既不是物质也不是能量。信息论创始人。 克劳德香农:信息就是不确定性的减少。信息化奠基人。信息就是用来消除不确定的东西...
  • 自动驾驶概述

    万次阅读 2020-02-08 20:27:27
    随着5G逐渐走进人们的视线,自动驾驶汽车成为一社会热门话题。那么自动驾驶究竟是什么样的?它真的能实现吗?什么时候我们才能真正使用上呢? 汽车是当今社会的主要交通工具之一,自动驾驶汽车是目前可以看到,...
  • MySQL 面试题

    万次阅读 多人点赞 2019-09-02 16:03:33
    当年,我们记着几一定要掌握的重心: 重点的题目添加了【重点】前缀。 索引。 锁。 事务和隔离级别。 因为 MySQL 还会有部分内容和运维相关度比较高,所以本文我们分成两部分【开发】【运维】两部分。 对于...
  • Linux C/C++ 学习路线

    万次阅读 多人点赞 2019-07-04 20:41:56
    、C++ 方向的深入学习路线 五、项目 + 亮点 + 面试的一些思考 六、总结 前言 Linux C/C++ 从零基础到大神的学习路线,自己的真实学习路线,干货很多,建议收藏,认真阅读。 在校期间,我一直走的都是 Linux C/C++...
  • 信道信息获取和应用(转载)

    千次阅读 2018-06-19 15:35:06
    知己知彼,百战不殆--信道信息获取和应用 上一回我们说到了变化莫测的MIMO信道,并且留下了一美好的假设:“如果在发送数据之前,我们能够提前获得信道信息,是不是能对发送策略有指导作用,并且有效的帮助我们...
  • 个人信息安全管理条例解释

    万次阅读 2019-11-06 19:45:56
    近年来,随着信息技术的快速发展和互联网应用的普及,越来越多的组织大量收集、使用个人信息。给人们生活带来便利的同时,也出现了对个人信息的 非法收集、滥用、泄露 等问题,个人信息安全面临严重威胁。 为了保护...
  • 对于很多新手以及想要在互联网做项目的小伙伴们来说,选择虚拟资源是一不错的选择。 为什么建议大家选择虚拟资源? 网络上存在的网站、软件、文字、视频等都是属于虚拟资源,它们看得见摸不着,而且具有可复制性...
  • 指标体系|四个模型教会你指标体系构建的方法

    万次阅读 多人点赞 2021-01-04 08:30:00
    Activation,Retention,Revenue,Referral),UJM(User, Journey, Map), MECE (Mutually Exclusive, Collectively Exhaustive) 四个模型,这四个模型是指导我们构建完整而清晰的指标体系的方法论。 小编整合这四个模型,...
  • 工程师职业发展的四个阶段

    千次阅读 2016-11-04 17:00:53
    工程师职业发展的四个阶段
  • PID控制以及各种控制环节-C语言实现

    千次阅读 2019-12-12 10:28:23
    总是可以由简单的子系统构成,分析典型环节的特点,其目的是为了通过典型环节的特点分析更为复杂的系统,实际工程应用中,真正完全通过理论的方式建立模型是非常困难的,实际的模型建立过程是一复杂的过程,...
  • 信息安全技术(俞承杭)期末复习

    千次阅读 2021-01-15 14:13:08
    第一章 信息安全概述 对于信息的功能特征,它的基本功能在于维持和强化...在信息安全领域,重点关注的是与信息处理生活周期相关的各个环节 .信息化社会发展三要素是物质、能源和信息 信息安全的基本目标应该是保护信息
  • 第一步:在【设置/基本选项】中,修改获取确认:环节数量. 第二步:通过系统菜单【设置/展示名称及环节定义】命令,打开一对话框,界面左下方编辑【1-16环节名称】【描述】,编辑完毕,确定退出。 第三步:通过系统菜单...
  • [转]信息安全相关理论题()

    万次阅读 2019-02-18 15:53:33
    20、DoD(美国国防部)使用的层分级制和权限空间不包含哪一项? A、 绝密级 B、 隐私级 C、 秘密级 D、 机密级 您的答案: 标准答案: B 21、BLP模型中的“不上读,不下写”保证了数据的什么特性? A...
  • Python 爬虫 之 根据图片网址爬取图片

    千次阅读 多人点赞 2020-02-07 21:17:18
    、实现步骤 五、关键代码 一、简单介绍 Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于...
  • 四个方面,浅谈渠道运营体系

    千次阅读 2017-02-16 00:49:21
    我在一本书中看到一“全渠道”的定义:同一品牌围绕多渠道,同时提供线上线下的各种产品供给或者服务,而且能够融为一体,为同一品牌的消费者服务。对于这种一条链路的渠道的解释,个人认为确实符合渠道的...
  • 信息化知识-1.1信息化知识

    千次阅读 2020-11-18 19:46:50
    信息是客观事物状态和运动特征的一种普遍形式,客观世界中大量地存在、产生和传递着以这些方式表示出来的各种各样的信息。 维纳:信息就是信息,既不是物质也不是能量; 香农:信息就是能够用来消除不确定性的东西;...
  • 近年来,随着互联网应用的普及和大数据产业的发展,确实给生活带来很多便利,与此同时,个人信息安全也面临着严重威胁,个人信息被非法收集、泄露与滥用等。 2020年3月6日,国家市场监督管理总局、国家标准化管理...
  • 美国高等教育信息素养能力标准

    千次阅读 2019-05-23 23:54:11
    美国图书馆协会(The Association of College and Research Libraries) 美国大学和研究型图书馆协会(A division of the American Library Association) ...信息素养和信息技术(Information Lit...
  • 数据分析入门(一)

    千次阅读 多人点赞 2020-02-29 11:17:19
    描述性数据分析(初级数据分析):使用几关键数据来描述整体的情况。指标:平均数,众数 常见的分析方法包括:对比分析法、平均分析法、交叉分析法等。Excel可以实现。 探索性数据分析(高级数据分析):EDA指对已...
  • 信息收集总结

    千次阅读 多人点赞 2019-01-27 13:20:18
    信息收集是指通过各种方式获取所需要的信息,以便我们在后续的渗透过程更好的进行。最简单的比如说目标站点的IP、中间件、脚本语言、端口、邮箱等等。我觉得信息收集在我们渗透测试的过程当中,是最重要的一环,这一...
  • 一、通过研究现有的文档、资料获取需求信息 这些文档资料包括: 1、各种文件(战略规划、规章制度、汇报材料、工作总结、上下行文件、会议记录等等); 2、各种报表(财务、行政及其他); 3、业务过程中的各种...
  • Web渗透信息收集篇

    千次阅读 2020-07-21 14:47:47
    信息收集是渗透测试的重要环节之一,是万里长征第一步,也是胜利会师最重要的一步。攻防皆有道,百战护山河。每次的攻防比赛让自己更加认清自己有多菜,也知道信息收集有多重要,所以老生常谈又对信息收集进行一遍...
  • 农业信息技术复习题

    千次阅读 2020-06-25 15:36:26
    1.信息传递技术,即通信技术,不包括(B) (A)数字程控交换技术(B)定位遥感技术 (C)光纤通讯(D)综合业务数字通信网" 2.信息技术的四大基本技术是计算机技术、传感技术、控制技术和( C ) (A)生物技术...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 99,903
精华内容 39,961
关键字:

信息获取的四个环节