精华内容
下载资源
问答
  • 如果要学习大数据,不管你是零基础,还是一定的基础,都是要懂至少一种计算机编程语言,因为大数据的开发离不开编程语言,不仅要懂,还要精通!但这门编程语言不一定是java。 比如说,如果你主攻Hadoop开发方向,...

    学大数据为什么学java?

    如果要学习大数据,不管你是零基础,还是有一定的基础,都是要懂至少一种计算机编程语言,因为大数据的开发离不开编程语言,不仅要懂,还要精通!但这门编程语言不一定是java。
    比如说,如果你主攻Hadoop开发方向,是一定要学习java的,因为Hadoop是由java来开发的。
    如果你想要主攻spark方向,是要学习Scala语言的,每个方向要求的编程语言是不同的。
    如果你是想要走数据分析方向,那你就要从python编程语言下手,这个也是看自己未来的需求的。
    综上所述:大数据是需要一定的编程基础的,但具体学习哪一门编程,自己可以选择的。其实只要学会了一门编程语言,其他编程语言也是不在话下的。

    学习完大数据以后是否可以就业java相关的岗位?

    很多公司刚刚组建大数据部门或者很过公司组建大数据部门但是需要的java的工作量没有那么大,没有必要单独再招一个专门的java工程师,这种情况下可能现在的工作人员中谁会java,谁就有可能兼职进行java方面的开发。
    咱们公司在java阶段学习了ssm、springboot、springcloud,在工作中都是可以进行开发使用的。
    大数据的开发是以java为基础,所以学会大数据,基本上java问题也不大。

    python在大数据中做什么用:

    大数据的数据从哪里来?除了部分企业有能力自己产生大量的数据,大部分时候,是需要靠爬虫来抓取互联网数据来做分析。
    网络爬虫是Python的传统强势领域,最流行的爬虫框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能够独当一面的类库。
    从统计理论,到数据挖掘,机器学习,再到最近几年提出来的深度学习理论,数据科学正处于百花齐放的时代。数据科学家们都用什么编程?
    python本身就是一门工程性语言,数据科学家用Python实现的算法,可以直接用在产品中,这对于大数据初创公司节省成本是非常有帮助的。

    python+大数据和java+大数据有什么区别:

    如果单纯以开发为主的话,还是建议使用java,因为大数据的好多软件都是用java来写的,java是编译型语言,效率比较高,而python是解释性语言,需要解释一行,在执行一行,效率较低。
    如果需要写一些算法的话,还是建议使用python,因为python支持的现有算法库较多,python就是为算法而生的语言。如果数据的来源有爬虫的过程,建议也用python语言。Python作为一种轻量级编程语言,语言简洁开发快,没那么多技巧。

    大数据的各个框架 hadoop、spark等都是做什么的,实际的应用场景?

    大数据的基础就是hadoop,hadoop包含三个组件:
    hdfs:用来存储海量数据
    mapreduce:用来进行分布式计算的框架
    yarn:用来提供数据计算需要的资源
    而spark也是一个用来分布式计算的框架,他可以替代mapreduce,spark可以用来做实时处理和离线处理,mapreduce只能用来做离线处理;而且spark支持复杂业务逻辑的迭代计算,mapreduce如果逻辑特别复杂需要多个程序;spark是基于内存运算的,而mapreduce是基于磁盘的。

    大数据需要学习的语言及特点?

    java:大数据的基础语言,很多软件如hadoop、hive、hbase、flume、sqoop、zookeeper等这些软件都是用java写的,运行起来较快,但是比较繁琐。
    python:解释性语言,语法没那么复杂,支持算法库较多。
    scala:多范式编程语言(面向对象和函数式),语法严格,代码量很少,写起来很轻松,但是不好掌握,在spark开发和flink开发必不可少的编程语言。

    展开全文
  • 两者有什么区别呢? Java和Java大数据二者关系 Java是计算机的一门编程语言;可以用来做很多工作,大数据开发属于其中一种。 大数据属于互联网方向,就像现在建立在大数据基础上的AI方向一样,它们两不是一个同类,...

    在这里插入图片描述

    【此文章转自乐字节】

    提起Java或大数据,很多人对此都一目了然,但对于Java大数据这样一个新鲜名词,多少有些疑惑。那Java和Java大数据学习的内容是一样的吗?两者有什么区别呢?

    Java和Java大数据二者关系

    Java是计算机的一门编程语言;可以用来做很多工作,大数据开发属于其中一种。

    大数据属于互联网方向,就像现在建立在大数据基础上的AI方向一样,它们两不是一个同类,但是属于包含和被包含的关系;

    Java可以用来做大数据工作,大数据开发或者应用不必要用Java,也可以用Python,Scala,Go语言等。

    大数据属于互联网方向,就像现在建立在大数据基础上的AI方向一样,它们两不是一个同类,但是属于包含和被包含的关系;

    目前最火的大数据开发平台是Hadoop,而Hadoop则是采用Java语言编写。一方面由于Hadoop的历史原因,Hadoop的项目诞生于一个Java高手;另一方面,也有Java跨平台方面的优势;基于这两个方面的原因,所以Hadoop采用了Java语言。但是也因为Hadoop使用了Java所以就出现了“Java大数据”。

    Java是我们耳熟能详的编程语言,大数据更是当今科技的明星技术。而java大数据则是Java和大数据的结合产物,也可以说是Java程序员向大数据程序员的过渡阶段。

    最近发现有些同学并不太了解大数据开发工程师这个职位,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的Java或者PHP工程师在工作上有什么区别?

    什么不是大数据开发?
    • 仅使用数据库(关系型mysql,sqlserver,oracle等 非关系型 mongo redis等),尽管数据量达到千万级别,亿级别不是大数据开发。
    • 从业务系统的数据库中查询数据然后产出报表不是大数据开。
    • 端上(页面,h5,手机native)埋点上报数据记录到数据库中不是大数据开发。
    什么是大数据开发
    1. 大数据开发需要的技能

    到智联上搜了一下大数据开发工程师这个职位,随便点了几个职位,截图如下:

    在这里插入图片描述

    所以说,现在互联网公司所指的大数据开发用到的工具是:hadoop,hive,hbase,spark,kafka等。

    2. 大数据开发做的事情
    • 精简到一个词语就是:统计
    • 精简到两类指标就是:PV和UV
    • 精简到一句话就是:统计各种指标的PV和UV

    PC互联网时代,各门户网站(比如:新浪,网易,搜狐)关注的是各自网站今天被打开了几次(pv),今天有多少人(uv)访问了网站。更复杂一点的比如:

    • 页面上某个按钮或者某个连接有多少人点击了几次
    • 某个页面上的热力图(点击地方越多,图上颜色越重)

    移动互联网时代,手机应用被用户打开的次数和人数也是大家关注的重点,但是除此之外还多出了许多其他非常重要的数据,由于手机屏幕的限制,信息流成为了移动时代的主流。

    大门户网站非常关注自己的新闻客户端中:在信息流中曝光了多少篇文章,其中有多少篇文章被用户点击了。每篇文章阅读了长时间,因为用户点击的文章越多,使用客户端的时间越长,各公司的广告收入才越高,所以各公司想方设法推荐用户喜欢的内容。

    3. 如何做这些事情

    因为网站的浏览行为,手机客户端中文章的曝光或者点击这些数据非常大,基本以亿为单位起。所以传统的把统计信息放到数据库中的方式已经不能完成这项统计工作。

    所以大数据是通过日志来统计这些指标。

    比如:后台服务的日志(apache,tomcat,weblogic,nginx日志)

    主要难点在于:
    • 日志量太大(一般大点的互联网公司,一个业务线每天的日志都有几个t,再大些的每天几十t,几百t也不奇怪),需要掌握大数据相关技术例如前面提到的hadoop,hive等。
    • 数据的及时性,从离线计算来说,一般每天零点,前一天的日志都接收完毕,开始计算前一天的数据,几点能计算完毕?要看各个公司各自的要求。
    • 数据的准确性。(这是重中之重,大数据开发的工作就是统计,统计的数据如果不准…)
    • 如果是实时计算,需要掌握实时相关技术。例如:每5分钟网站的在线人数。
    • 监控监控监控:监控任务是否失败,数据是否产出,产出的数据是否异常。
    • 容灾容灾容灾:如果任务失败如何补救。比如实时任务,由于某种原因13:00到14:00的数据没有,如何把数据补回来。
    大数据开发和一般开发对比

    在转做大数据开发之前,一直在用Java作业务系统:例如hr系统(考勤,薪资等),收费系统。

    谈谈我个人对业务系统开发和大数据开发的理解:

    业务系统:

    一句话:对数据库的各种增删改查操作。

    重点难点在于:

    • 对复杂业务的理解上(比如计算工资:基本工资,五险一金,全勤奖,高温补贴,报销,奖金,加班费…等等都需要计算)。
    • 线上服务的稳定,比如facebook,淘宝等网站高并发的压力下维持网站正常运行。
    大数据开发
    一句话:对字符串的各种算数。

    重难点在于:

    • 数据的及时性。例如实时数据中,想知道 12:00~12:10这10分钟的用户数,如果这个数据在晚上20点才计算完成,那就没什么意义了。再比如,大家应该都有体验过:再手机上刷新闻的时候,你点了某一篇文章,再继续刷新闻,后面很快会出来不少和前面点击的那篇文章类似的文章,这就是根据你的点击给你及时推荐你有更大可能点的东西。
    • 数据的准确性。这个重要性不言而喻
    • 数据的稳定性和容灾。
    学互联网技术不能犹豫,否则你就和高薪擦肩而过了。

    注:每周福利均会更新,更多福利等你领取,更多技巧,欢迎在评论区一起交流!

    +君羊前面三位606,中间三位846,后面三位127,进君羊暗号T123,领取Python ,web前端开发,Python爬虫,Python数据分析,人工智能,Java项目,Java基础等精品学习课程。带你从零基础系统性的学好Python,Java,web前端!做一名牛逼的程序员!

    END
    祝大家学的愉快,学的神速。
    有帮助的话,各位小伙伴可以点个赞收藏支持下啦!❤️
    也欢迎关煮lili,一个在变秃,但能带你变强的程序员~
    今天先说这么多,我是乐字节哩哩,一个有趣的灵魂!下期见!

    最后给大家推荐几个B站超详细的Java、大数据、python等自学课

    从Java零基础到项目实战哦【b站BV: BV1CB4y1A7sk】

    十大企业级项目自学课【b站:BV14K411F7HJ】

    超棒的前后端分离项目【b站:BV1zf4y1p7wC】

    大数据全套完整版【b站:BV1aK4y197TP】

    python小白入门到精通完整版【b站:BV1Sp4y1W77E】

    将bv号,复制去b站即可

    展开全文
  • 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:...

    感谢关注天善智能,走好数据之路↑↑↑

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

    对商业智能BI、大数据分析挖掘、机器学习python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。


    数据分析师的职业发展,戳{大数据职业规划}

    想在日常工作中培养分析能力,戳{数据思维养成}

    只看成绩下结论,悲剧生活在招手呢

     

    没有一毛钱关系!!!实际上,如果不考虑个人性格、特长、综合能力,只看着哪个科目分高报专业,看着专业名称找工作的话,很有可能高考的高分就是整个职业发展悲剧的起点。比如一个倒霉蛋A君,看到自己高考数据分数高就开始漂漂然了,他很有可能这样:

     

    因为我数学考分高,所以就要学个数学相关的专业;

    因为我是学个数学类专业,所以我要找个数据XX的工作;


    因为我读的数据的书,第一章讲描述性统计,最后一章讲人工智能,所以一定人工智能赚大钱,做描述性统计的都是要饭的,你看都是压轴大题分数最高吗!


    因为书的最后一章印着人工智能,所以我必须做人工智能,所以有没有《21天精通人工智能》的PDF版可以下载!所以知乎下一场《高端数据科学家live》什么时候开始,我的钱包已经饥渴难耐啦!

    先去知乎发个帖问《机器学习,深度学习,数据挖掘有什么区别》,顺便收藏一篇《如何零基础快速成为高端数据科学家》的帖子,又是干货满满的一天!!!


    梦醒醒了喂!


    A君很有可能遇到的情况是:

    校招时非要削尖脑袋找数据分析岗位,结果错过了运营商银行外企的群面。

    面BAT,发现还有20000个比自己算法,编程技能更强的在排队。

    面其他企业,死在一句“你有工作经验吗?”上边。

    最后找了个数据专员工作,每天统计excel。

    觉得没技术含量,学sql,python/R跳槽。


    因为没有经验,工作2年了,跳槽后还得从月薪6000开始。

    因为沟通能力差,没有业务积累,所以天天加班赶需求,还被嫌弃没深度。

    黑锅背太多,升不了职,怒学人工智能与大数据算法!这次非挑个搞算法的岗位!


    终于找到个做算法的项目!太好啦!年薪百万不远了吧!

    基础数据全垃圾,累死。

    业务需求天天变,气死。

    算法效果不理想,急死。

    拖了n久不上线,骂死。

    ……

    算了,不说了,想想都惨。

     

     

    工作中重要的不是知识而是综合能力

     

    问题出在哪里?问题出在分数、能力、专业、岗位这四者之间是不互相画等号的。高考数学考得好,只说明这个学生有良好的数学素养,但这种素养要和个人能力特长,知识背景结合才能发挥作用。如果不看个人特长,就会导致上述的悲剧。


    就以数据分析岗位的工作为例,数据分析远不止算个数,套个公式那么简单:


    l  在工作中,考卷不是现成的,需要自己和业务方沟通,确认问题;

    l  在工作中,考卷题目可能是错误的。需要有业务知识积累,才能辨明真伪,回答业务方真正问题;

    l  在工作中,答题的笔纸考场都需要借用。数据从采集,传输,存储,都需要做工作。其间涉及大量开发工作支持与部门间协调沟通;

    l  在工作中,答题的形式是复杂的,单纯提取数字还不行,还得计算,还得做可视化。


    这需要一个人有沟通能力,有项目管理能力,有逻辑思维能力,有各种系统开发能力,还得有些审美常识,懂一些商业做法,懂一些表达技巧。这里复杂程度远远超过了坐在教室里算个数,所以只是觉得自己坐在教室里算个数得高分,就能胜任一个工作,真的是太天真了。


    适不适合一个工作,只有真的接触到工作本身,才能判断。对在校学生来说最好的办法就是实习。多实习几次,就多一些体验,多一些看清楚自己的能力特长的机会。越早实习就越能为后续工作铺好路,越在学校里憋,后边求职翻车几率越大。


    想要考试成功就得多在学校学习,多和同学老师在一起。想在职场成功,就得多和职场人士在一起,少听职场的人炫耀工资收入,少听职场人抱怨工作辛苦,观察他们的工作内容与状态,了解他们的岗位、技能、工作流程,会更快的成长。


    作为基础能力,数据分析用处更大


    即使在工作中发现自己不适合数据分析岗位,也不影响利用数据帮助自己进步。


    一个数据能力强的销售,可以在打标时很诚恳的说:我们的产品上线后可以满足您10个需求点中7个,缩短60%运行时间,节省您45%的费用,对需求部门而言,工作流程减少5步,每天节省25分钟操作,大家可以少加班了。而不是吐沫星子横飞的拍胸脯:“行行行,我们啥都能做!”


    一个数据能力强的运营,可以利用百度指数,舆情数据搜热点,可以做爬虫,做语义分析找用户情绪,快速从热点中提取可以借势发文的热点。而不是抓耳挠腮憋内容:怎么写个10万+呢,要不要抄这一篇呢?


    一个数据能力强的产品,可以在设计方案的时候就根据用户逻辑,预估到产品上线后的表现。合理的设定监测指标,验证自己的判断。而不是:“哦,来个ABtest吧”然后做两根柱子哪个柱子高了用哪个版本。


    一个数据能力强的策划,可以基于经营数据层层解剖问题,找到经营中真正关节点对症下药。而不是今天听了A老总抱怨销量不好就匆匆上活动,明天听了B老总抱怨活动太多干扰正常销售就急着撤。大后天哭诉:“我到底做不做活动了,呜呜呜”。


    而一个优秀的数据分析师,也可能通过至少三种方式升职成功:

    1.      业务路线:准确抓住老板们心思,汇报到位,深得信任,被委任管理整个数据部门。

    2.      产品路线:主导数据产品开发,上线,最后成为产品线负责人,管理一整个BI团队。

    3.      项目路线:主导一些核心项目,比如搜索算法,推荐系统,成为无可替代的专家。


    并不是所有的同学都适合做开发,也不是所有同学都适合做汇报。在业务应用与开发之间选一个方向精进,会更快的成长。

    有关数据分析师岗位介绍,可以戳:https://ask.hellobi.com/blog/chenwen/6163,了解基础知识。

    有关数据分析师的工作内容,可以戳:https://ask.hellobi.com/blog/chenwen/6182,了解基础知识。

     

    ——全文差一点就完了——

     

    之所以有这篇文章,是因为陈老师在工作中见过太多太多一根筋捅到底的同学。你提醒他们不要拘泥于专业,要关注自己的能力;不要拘泥于学校,要多实习,是没人听的进去的。还一脸不屑的:“那是你没本事!我肯定能毕业就进腾讯!3年成为高端数据科学家!5年创业!7年公司上市!30岁身价过亿!改变世界!”


    现在陈老师学乖了,再碰到这种都直接说:“去吧皮卡丘!马化腾在召唤!”反正当不成数据科学家,也能玩王者荣耀嘛,最后你的时间都是贡献给小马哥的。


    体系化了解数据分析在企业实战应用,戳:{数据分析师的第一门实战课}


    作者介绍:陈老师,在咨询行业打拼了9年,在如何诊断经营问题、建立分析体系、解决专项问题上有超过30个大型项目积累与实战,天善智能特邀专家。

    数据分析职场路上有困扰吗?不妨到《数据分析师八大能力培养课程https://edu.hellobi.com/course/272里聊聊!

    视频课程特色:

    从真实数据分析工作场景出发,训练实战能力

    启发式教学+大量实际操练,培养属于自己的能力

    不依赖于某个具体技术,也适合对数据分析感兴趣的学生、业务部门人士学习

    展开全文
  • 点上方蓝字人工智能算法与Python大数据获取更多干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如侵权,联系删除转载于 :来自 |知乎 作者 | 董鑫https...

    点上方蓝字人工智能算法与Python大数据获取更多干货

    在右上方 ··· 设为星标 ,第一时间获取资源

    仅做学术分享,如有侵权,联系删除

    转载于 :来自 | 知乎   作者 | 董鑫

    https://www.zhihu.com/question/294679135/answer/885285177

    softmax 虽然简单,但是其实这里面有非常的多细节值得一说。

    我们挨个捋一捋。

       1. 什么是 Softmax?

    首先,softmax 的作用是把 一个序列,变成概率。

    他能够保证:

    1. 所有的值都是 [0, 1] 之间的(因为概率必须是 [0, 1])

    2. 所有的值加起来等于 1

    从概率的角度解释 softmax 的话,就是


       2. 文档里面跟 Softmax 有关的坑

    这里穿插一个“小坑”,很多deep learning frameworks的 文档 里面 (PyTorch,TensorFlow)是这样描述 softmax 的,

    take logits and produce probabilities

    很明显,这里面的 logits 就是 全连接层(经过或者不经过 activation都可以)的输出, probability 就是 softmax 的输出结果。这里  logits 有些地方还称之为 unscaled log probabilities。这个就很意思了,unscaled probability可以理解,那又为什么 全连接层直接出来结果会和 log 有关系呢?

    原因有两个:

    1. 因为 全连接层 出来的结果,其实是无界的(有正有负),这个跟概率的定义不一致,但是你如果他看成 概率的 log,就可以理解了。

    2. softmax 的作用,我们都知道是 normalize probability。在 softmax 里面,输入   都是在指数上的  ,所有把  想成 log of probability 也就顺理成章了。

       3. Softmax 就是 Soft 版本的 ArgMax

    好的,我们把话题拉回到 softmax。

    softmax,顾名思义就是 soft 版本的 argmax。我们来看一下为什么?

    举个栗子,假如 softmax 的输入是:

    softmax 的结果是:

    我们稍微改变一下输入,把 3 改大一点,变成 5,输入是

    softmax 的结果是:

    可见 softmax 是一种非常明显的 “马太效应”:强(大)的更强(大),弱(小)的更弱(小)。假如你要选一个最大的数出来,这个其实就是叫 hardmax。那么 softmax 呢,其实真的就是 soft 版本的 max,以一定的概率选一个最大值出来。在hardmax中,真正最大的那个数,一定是以1(100%) 的概率被选出来,其他的值根本一点机会没有。但是在 softmax 中,所有的值都有机会被作为最大值选出来。只不过,由于 softmax 的 “马太效应”,次大的数,即使跟真正最大的那个数差别非常少,在概率上跟真正最大的数相比也小了很多。

    所以,前面说,“softmax 的作用是把 一个序列,变成概率。” 这个概率不是别的,而是被选为 max 的概率。

    这种 soft 版本的 max 在很多地方有用的上。因为 hard 版本的 max 好是好,但是有很严重的梯度问题,求最大值这个函数本身的梯度是非常非常稀疏的(比如神经网络中的 max pooling),经过hardmax之后,只有被选中的那个变量上面才有梯度,其他都是没有梯度。这对于一些任务(比如文本生成等)来说几乎是不可接受的。所以要么用 hard max 的变种,比如Gumbel

    Categorical Reparameterization with Gumbel-Softmax

    链接:https://arxiv.org/abs/1611.01144

    亦或是 ARSM

    ARSM: Augment-REINFORCE-Swap-Merge Estimator for Gradient Backpropagation Through Categorical Variable

    链接:http://proceedings.mlr.press/v97/yin19c.html

    ,要么就直接 softmax。

       4. Softmax 的实现以及数值稳定性

    softmax 的代码实现看似是比较简单的,直接套上面的公式就好

    def softmax(x):
        """Compute the softmax of vector x."""
        exps = np.exp(x)
        return exps / np.sum(exps)
    

    但是这种方法非常的不稳定。因为这种方法要算指数,只要你的输入稍微大一点,比如:

    分母上就是

    很明显,在计算上一定会溢出。解决方法也比较简单,就是我们在分子分母上都乘上一个系数,减小数值大小,同时保证整体还是对的

    把常数 C 吸收进指数里面

    这里的D是可以随便选的,一般可以选成

    具体实现可以写成这样

    def stablesoftmax(x):
        """Compute the softmax of vector x in a numerically stable way."""
        shiftx = x - np.max(x)
        exps = np.exp(shiftx)
        return exps / np.sum(exps)
    

    这样一种实现数值稳定性已经好了很多,但是仍然会有数值稳定性的问题。比如输入的值差别过大的时候,比如

    这种情况即使用了上面的方法,可能还是报 NaN 的错误。但是这个就是数学本身的问题了,大家使用的时候稍微注意下。

    一种可能的替代的方案是使用 LogSoftmax (然后再求 exp,数值稳定性比 softmax 好一些。

    可以看到LogSoftmax省了一个指数计算,省了一个除法,数值上相对稳定一些。另外,其实 Softmax_Cross_Entropy 里面也是这么实现的

       5. Softmax 的梯度

    下面我们来看一下 softmax 的梯度问题。整个 softmax 里面的操作都是可微的,所以求梯度就非常简单了,就是基础的求导公式,这里就直接放结果了。

    所以说,如果某个变量做完 softmax 之后很小,比如  ,那么他的梯度也是非常小的,几乎得不到任何梯度。有些时候,这会造成梯度非常的稀疏,优化不动。

       6. Softmax 和 Cross-Entropy 的关系

    先说结论,

    softmax 和 cross-entropy 本来太大的关系,只是把两个放在一起实现的话,算起来更快,也更数值稳定。

    cross-entropy 不是机器学习独有的概念,本质上是用来衡量两个概率分布的相似性的。简单理解(只是简单理解!)就是这样,

    如果有两组变量:

    如果你直接求 L2 距离,两个距离就很大了,但是你对这俩做 cross entropy,那么距离就是0。所以 cross-entropy 其实是更“灵活”一些。

    那么我们知道了,cross entropy 是用来衡量两个概率分布之间的距离的,softmax能把一切转换成概率分布,那么自然二者经常在一起使用。但是你只需要简单推导一下,就会发现,softmax + cross entropy 就好像

    “往东走五米,再往西走十米”,

    我们为什么不直接

    “往西走五米”呢?

    cross entropy 的公式是

    这里的  就是我们前面说的 LogSoftmax这玩意算起来比 softmax 好算,数值稳定还好一点,为啥不直接算他呢?

    所以说,这有了 PyTorch 里面的 torch.nn.CrossEntropyLoss (输入是我们前面讲的 logits,也就是 全连接直接出来的东西)。这个 CrossEntropyLoss 其实就是等于 torch.nn.LogSoftmax + torch.nn.NLLLoss

    ------------------

    声明:本内容来源网络,版权属于原作者

    图片来源网络,不代表本公众号立场。如有侵权,联系删除

    AI博士私人微信,还有少量空位

    如何画出漂亮的深度学习模型图?

    如何画出漂亮的神经网络图?

    一文读懂深度学习中的各种卷积

    点个在看支持一下吧

    展开全文
  • 好久没更新博客了,最近想把信息输出做起来,会加快更新频率~另外新申请了公众号“青山的python进修路”,欢迎关注,一起成长~~~下面进入正文。...人工智能和Python有什么关系呢?本文将做详细的阐述” ...
  • 尹成Python27天入门到项目实战

    千人学习 2020-12-05 17:04:22
    python运算符ifelse逻辑语句第一天上午回顾第二天下午回顾1第二天回顾2.7习题解答2.11习题解答2.26作业KaliLinux简介3.4实现五边形面积计算3.7随机字符生成3.8实数误差四舍五入3.18解答特殊字符if简介空格的...
  • 相熟的CMO来访,除了闲聊Marketing怎么做外,也聊最近在忙些什么。意外得知她一直在读Python证书,并已经进入中级阶段。 这个朋友或许是因为工作关系想要了解一下程序语言。不过去年也不少认识的企业后勤女生读...
  • pyflink顾名思义,Pythoh 生态与大数据生态密不可分的关系,调查发现大多数 Python 用户正在解决 ”数据分析“,”机器学习“的问题,那么 Python 生态和大数据生态结合,对 Python 生态一个特别重要到意义就是...
  • 应用案例 - 用户身份验证 / 英制单位公制单位互换 / 掷骰子决定做什么 / 百分制成绩转等级制 / 分段函数求值 / 输入三条边的长度如果能构成三角形就计算周长和面积 Day04 - 循环结构 循环结构的应用场景 - ...
  • 【JavaWeb基础】客户关系管理系统 【JavaWeb基础】权限管理系统 【JavaWeb基础】图书管理系统【部署开发环境、解决分类、图书、前台页面模块】 【JavaWeb基础】图书管理系统【用户、购买、订单模块、添加权限】 ...
  • 月薪8K月薪3W的程序员原来差距到底在哪里? 经常会人在提问,现在Java好找工作嘛?Python到底好不好学?我要不要学习大数据呢?这些问题的答案其实大家心里都明白:只要你足够认真并坚持下去,学什么都能够...
  • 经常会人在提问,现在Java好找工作嘛?Python到底好不好学?我要不要学习大数据呢?这些问题的答案其实大家心里都明白:只要你足够认真并坚持下去,学什么都能够找到一份好的工作。思考:【要知道自己到究竟要什么...
  • 经常会人在提问,现在Java好找工作嘛?Python到底好不好学?我要不要学习大数据呢?这些问题的答案其实大家心里都明白:只要你足够认真并坚持下去,学什么都能够找到一份好的工作。思考:【要知道自己到究竟要什么...
  • PySpark简介及详细安装教程

    千次阅读 2020-08-29 19:50:57
    Python这几天也整理出了很多自己的见解,今天就和大家说下一个新的东西,PySpark,一看名字就知道和前面二者都有很大关系,那么PySpark到底是什么,和之前所说的Spark与Python有什么不一样的呢?今天就和大家简单的...
  • 那么数据页外部存储页、外部存储页外部存储页是如何连接在一起的呢? 我们观察这一行: <pre><code> 3130 0000c390 61 61 00 00 00 02 00 00 00 04 00 00 00 26 00 00 |aa...........&..| 3131 ...
  • 谈谈感想吧,别听什么培训机构诳你什么爬虫工程师前途啥的,当然学好学精爬虫也能拿到高薪,但这一行也不少人了,精通的自然不用说。而且现在很多像八爪鱼、火车头这些可以定制的爬虫软件,还有一些自学习的...
  • 互联网架构为什么要做服务化 微服务架构技术栈 分布式理论:CAP 是三选二吗? 使用LCN框架解决分布式事物 百度开源的分布式 id 生成器 大型分布式电商系统的订单生成策略 分布式事务综述 分布式事务...
  • 4.3.7 这样的a.hashcode() 有什么用,a.equals(b)有什么关系。 4.3.8 有没有可能2个不相等的对象有相同的hashcode。 4.3.9 Java中的HashSet内部是如何工作的。 4.4.0 什么是序列化,怎么序列化,为什么序列化,...
  • ``` E:\tools\logstash-6.2.1\bin>.\logstash.bat -f ..\config\mysql.conf Sending Logstash's logs to E:/tools/logstash-6.2.1/logs which is now configured via log4j2.properties [2020-07-08T13:32:37,...
  • 人工智能进军餐饮:AI 调酒,越喝越 我在北京这几年(三)--尴尬的一段 ApacheCN 编程/大数据/数据科学/人工智能学习资源 2019.7 宋仲基宋慧乔没能找到对的人,算法能帮我们找到么? 从入门到冠军 中国移动人群...
  • 各自有什么特点?然而。。。 面试官:讲讲什么是缓存穿透?击穿?雪崩?如何解决? 面试官:Java中提供了synchronized,为什么还要提供Lock呢? 面试官:说说缓存最关心的问题?有哪些类型?回收策略和算法? 面试官...
  • 熟悉基于Mysql关系数据库设计和开发、对数据库性能优化丰富的经验; 熟悉底层中间件、分布式技术(如RPC框架、缓存、消息系统等); 大数据/数据仓库 技能要求: 熟悉Hadoop/Spark/sqoop/hive/impala/azkaban...
  • 《浪潮之巅》 | 《硅谷之谜》 | 《数学之美》 | 《见识》 | 《态度》 | 《大学之路》 | 《文明之光》 | 《智能时代:大数据与智能革命重新定义未来》 吴军 著 《基业长青》 吉姆·柯林斯 等著 《物演通论》 王东岳 ...

空空如也

空空如也

1 2
收藏数 35
精华内容 14
关键字:

python与大数据有什么关系

python 订阅