精华内容
下载资源
问答
  • 京东2018秋招数据分析工程师笔试题(来源:牛客网) 题型 客观题:单选18道,不定项选择12道 主观题:编程2道 完成时间 120分钟 牛客网评估难度系数 3颗星 写到「数据分析真题日刷」第七套真题,博客喜迎粉丝啦,...
    • 今日真题
      京东2018秋招数据分析工程师笔试题(来源:牛客网)
    • 题型
      客观题:单选18道,不定项选择12道
      主观题:编程2道
    • 完成时间
      120分钟
    • 牛客网评估难度系数
      3颗星

    写到「数据分析真题日刷」第七套真题,博客喜迎粉丝啦,开心,我的博文被人发现啦~

    ❤️ 「更多数据分析真题」

    《数据分析真题日刷 | 目录索引》

    1. 有一个文件user.txt,每行一条user记录,共若干行,下面哪个命令可以实现“统计出现次数最多的前3个user及其次数”?

    A. cat user.txt | sort | uniq -c | sort -rn | top -n 3
    B. cat user.txt | count -n | sort -rn | head -n 3
    C. uniq -c user.txt | sort -nr | top -n 3
    D. sort user.txt | uniq -c | sort -rn | head -n 3
    

    正确答案:D

    「民间解析」

    首先sort进行排序,将重复的行都排在了一起,然后使用uniq -c将重复的行的次数放在了行首,在用sort -rn进行反向和纯文本排序,这样就按照重复次数从高到低进行了排列,最后利用head -n 3 输出行首的三行。
    来源:https://www.nowcoder.com/test/question/done?tid=24999724&qid=163505
    作者:凯里欧文1

    2. MySQL中t表存在如下数据

    +---+---+
    | a | b |
    +---+---+
    | 1 | 2 |
    +---+---+
    

    执行如下更新SQL:update t set b = 5 and a= 2 where a = 1之后,a和b值为:

    A. a = 2, b = 5
    B. a = 1, b = 5
    C. a =1 , b = 0
    D. a = 1, b = 5

    正确答案:C

    「民间解析」

    正确的更新语句应该是
    update t set b = 5, a= 2 where a = 1
    题目中用了 and 连接两个更新赋值
    相当于对b赋了个bool值, 即
    update t set b = (5 and a= 2) where a = 1
    而a=1 故以上真值为0, 所以出现了 a=1, b=0的结果
    来源:https://www.nowcoder.com/test/question/done?tid=24999724&qid=163506#summary
    作者:最爱土豆

    3. 某网游全天平均在线人数为6000人,玩家每次登录后平均在线时长为2小时。请你估计一下,平均下来每分钟约有多少个玩家登录?

    A. 50
    B. 6000
    C. 12000
    D. 72000

    正确答案:A

    「民间解析」

    2个小时120分钟,6000/120=50
    来源:https://www.nowcoder.com/test/question/done?tid=24999724&qid=163507#summary
    作者:一阵风吹过

    4. 有关linux线程的描述,正确的是( )。

    A. 线程自己拥有很少的资源,但它可以使用所属进程的资源
    B. 由于同一进程中的多个线程具有相同的地址空间,所以它们间的同步和通信也易于实现
    C. 进程创建与线程创建的时空开销不相同
    D. 线程是资源分配的基本单位,进程是资源调度的基本单位

    正确答案:A B C

    ?进程和线程

    • 「进程(process)」
      狭义定义:进程就是一段程序的执行过程。
      广义定义:进程是一个具有一定独立功能的程序关于某个数据集合的一次运行活动。它是操作系统动态执行的基本单元,在传统的操作系统中,进程既是基本的分配单元,也是基本的执行单元。
    • 「线程」
      通常在一个进程中可以包含若干个线程,当然一个进程中至少有一个线程,不然没有存在的意义。**线程可以利用进程所拥有的资源,在引入线程的操作系统中,通常都是把进程作为分配资源的基本单位,而把线程作为独立运行和独立调度的基本单位,**由于线程比进程更小,基本上不拥有系统资源,故对它的调度所付出的开销就会小得多,能更高效的提高系统多个程序间并发执行的程度
    • 「进程与线程的区别」
      进程和线程的主要差别在于它们是不同的操作系统资源管理方式。进程有独立的地址空间,一个进程崩溃后,在保护模式下不会对其它进程产生影响,而线程只是一个进程中的不同执行路径。线程有自己的堆栈和局部变量,但线程之间没有单独的地址空间,一个线程死掉就等于整个进程死掉,所以多进程的程序要比多线程的程序健壮,但在进程切换时,耗费资源较大,效率要差一些。但对于一些要求同时进行并且又要共享某些变量的并发操作,只能用线程,不能用进程。
      来源:https://www.cnblogs.com/fuchongjundream/p/3829508.html

    「题目解析」
    D错误,进程作为分配资源的基本单位,而把线程作为独立运行和独立调度的基本单位。

    5. 进程会在各个状态之间切换,下面哪些是不可能的

    A. 运行→就绪
    B. 运行→等待
    C. 等待→运行
    D. 等待→就绪

    正确答案:C

    「题目解析」
    在这里插入图片描述
    来源:https://www.cnblogs.com/xiawen/p/3328033.html

    6. 某二叉树有2000个结点,则该二叉树的最小高度为()

    A. 10
    B. 11
    C. 12
    D. 13

    正确答案:B

    「题目解析」

    一棵深度为k,且有2^k-1个节点的二叉树,称为满二叉树

    思路:2^k - 1 = 2000,解k;
    因为2^10 = 1024, 2 ^ 11 = 2048,所以10层不够,高度至少为11。

    7. 若一序列进栈顺序为a1,a2,a3,a4,问存在多少种可能的出栈序列( )

    A. 12
    B. 13
    C. 14
    D. 15

    正确答案:C

    ?

    进栈出栈就像一个盒子,先一个个放入盒内,而拿出的时候只有先从上面拿,才能再拿下面。

    栈(stack)又名堆栈,它是一种运算受限的线性表。其限制是仅允许在表的一端进行插入和删除运算。这一端被称为栈顶,相对地,把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压栈,它是把新元素放到栈顶元素的上面,使之成为新的栈顶元素;从一个栈删除元素又称作出栈或退栈,它是把栈顶元素删除掉,使其相邻的元素成为新的栈顶元素。
    作者:darkfantastic
    来源:https://blog.csdn.net/weixin_40409754/article/details/79747126

    「民间解析」

    8. 有2个关系模式:
    订单表:R(订单号,日期,客户名称,收货人)
    订单明细表:S(订单号,商品编码,单价,数量)
    若要检索2017/1/1到2017/12/31期间,订购商品的总金额超过20000元的客户名称和总金额,则SQL查询语句是

    A. SELECT 客户名称,单价*数量 AS 总金额 FROM R,S   WHERE 日期 BETWEEN "2017-1-1"AND "2017-12-31" AND 单价*数量>20000
    B. SELECT 客户名称, SUM(单价*数量) AS 总金额 FROM R,S  WHERE R.订单号= S.订单号 AND日期 BETWEEN "2017-1-1" AND "2017-12-31" GROUP BY 客户名称 HAVING  单价*数量>20000
    C. SELECT 客户名称, SUM (单价*数量) AS 总金额 FROM R,S  WHERE R.订单号= S.订单号 AND 日期 BETWEEN "2017-1-1" AND "2017-12-31" GROUP BY 客户名称 HAVING SUM(单价*数量)>20000
    D. SELECT 客户名称,单价*数量 AS 总金额 FROM R,S  WHERE R.订单号= S.订单号 AND 日期 BETWEEN  "2017-1-1" AND "2017-12-31" GROUP BY 客户名称 HAVING  单价*数量>20000
    

    正确答案:C

    「题目解析」

    1. 两张表通过关键字 “订单号” 连接;
    2. 总金额 用 SUM (单价*数量) 计算;
    3. 按照 “客户名称”分组统计,因此 GROUP BY 客户名称;
    4. 「订购商品的总金额超过20000元」,用HAVING限制总金额数量;
    5. 「检索2017/1/1到2017/12/31期间」,用BETWEEN。

    9. 下列属于有监督学习算法的是:()

    A. 谱聚类
    B. 主成分分析PCA
    C. 主题模型LDA
    D. 线性判别分析LDA

    正确答案:D

    ? 谱聚类

    谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。

    • 与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。

    来源:https://www.cnblogs.com/lm3306/p/9308107.html

    ?主题模型

    LDA(Latent dirichlet allocation)[1]是有Blei于2003年提出的三层贝叶斯主题模型,通过无监督的学习方法发现文本中隐含的主题信息,目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。

    传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。
    举个例子,有两个句子分别如下:
    “乔布斯离我们而去了。”
    “苹果价格会不会降?”
    可以看到上面这两个句子没有共同出现的单词,但这两个句子是相似的,如果按传统的方法判断这两个句子肯定不相似,所以在判断文档相关性的时候需要考虑到文档的语义,而语义挖掘的利器是主题模型,LDA就是其中一种比较有效的模型。
    在主题模型中,主题表示一个概念、一个方面,表现为一系列相关的单词,是这些单词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。
    怎样才能生成主题?对文章的主题应该怎么分析?这是主题模型要解决的问题。
    作者:huagong_adu
    来源:https://blog.csdn.net/huagong_adu/article/details/7937616

    ?主成分分析PCA ? 线性判别分析LDA

    PCA是一种无监督的数据降维方法,与之不同的是LDA是一种有监督的数据降维方法。
    从几何的角度来看,PCA和LDA都是讲数据投影到新的相互正交的坐标轴上。只不过在投影的过程中他们使用的约束是不同的,也可以说目标是不同的。

    • PCA是将数据投影到方差最大的几个相互正交的方向上,以期待保留最多的样本信息。样本的方差越大表示样本的多样性越好,在训练模型的时候,我们当然希望数据的差别越大越好。否则即使样本很多但是他们彼此相似或者相同,提供的样本信息将相同,相当于只有很少的样本提供信息是有用的。样本信息不足将导致模型性能不够理想。这就是PCA降维的目标:将数据投影到方差最大的几个相互正交的方向上。
    • LDA降维的目标:将带有标签的数据降维,投影到低维空间同时满足三个条件:
    1. 尽可能多地保留数据样本的信息(即选择最大的特征是对应的特征向量所代表的的方向)。
    2. 寻找使样本尽可能好分的最佳投影方向。
    3. 投影后使得同类样本尽可能近,不同类样本尽可能远。

    作者:Lavi_qq_2910138025
    来源:https://blog.csdn.net/liuweiyuxiang/article/details/78874106

    • 强烈参考
    1. 《转:谱聚类(spectral clustering)原理总结》https://www.cnblogs.com/lm3306/p/9308107.html
    2. 《文本主题模型之LDA》https://blog.csdn.net/u010417185/article/details/80833212
    3. 《主题模型-LDA浅析》 https://blog.csdn.net/huagong_adu/article/details/7937616
    4. 《线性判别分析(LDA)》 https://blog.csdn.net/liuweiyuxiang/article/details/78874106

    10. 统计网站的注册用户年龄,已知均值是25岁,标准差为2,则用户年龄在21-29岁的概率至少是多少?

    A. 60%
    B. 65%
    C. 70%
    D. 75%

    正确答案:D

    ?切比雪夫不等式
    在这里插入图片描述
    「题目解析」
    P { |X - 25| < 4 } >= 1 - 2^2 / 4 ^2 = 0.75

    11. 假设A国人的平均身高为170cm,标准差为10cm,平均体重为65KG,标准差为5kg,身高与体重均符合正态分布,它们之间的线性相关系数为0.5,那么身高为186cm的A国人平均体重为:

    A. 65kg
    B. 69kg
    C. 73kg
    D. 77kg

    正确答案:B

    待解析~

    12. 一个序列为(13,18,24,35,47,50,63,83,90,115,124),如果利用二分法查找关键字为90的,则需要几次比较 ?

    A. 1
    B. 2
    C. 3
    D. 4

    正确答案:B

    「题目解析」
    第一次在50处二分,90大于50;
    第二次在50到124这段二分,找到90。

    13. 已知一个二叉树前序遍历和中序遍历分别为ABDEGCFH和DBGEACHF,则该二叉树的后序遍历为?

    A. DGEBHFCA
    B. DGEBHFAC
    C. GEDBHFCA
    D. ABCDEFGH

    正确答案:A

    ?二叉树(重复出现的知识点)

    「题目解析」
    前序遍历和中序遍历可以唯一确定一个二叉树,二叉树为
    在这里插入图片描述

    • 举一反三
    1. 京东2019春招京东数据分析类试卷》第2题;
    2. 网易2018校园招聘数据分析工程师笔试卷》第1题;
    3. 京东2019校招数据分析工程师笔试题》第9题;

    14. 一个医院的病人,40%来自甲地,60%来自乙地,甲地病人为A病的概率为1%,乙地病人为A病的概率为2%,现在这个医院一个得A病的人,来自甲地的概率为?

    A. 0.15
    B. 0.25
    C. 0.4
    D. 0.5

    正确答案:B

    ?贝叶斯公式(重复出现的知识点)

    「题目解析」
    已知P(甲) = 0.4,P(乙)=0.6,P(A|甲)=0.01,P(A|乙)=0.02,则
    P(A) = 0.4 * 0.01 + 0.6 * 0.02 = 0.016
    P(甲|A)=P(A|甲) * P(甲) / P(A)=0.25

    • 举一反三
    1. 京东2019春招京东数据分析类试卷》第26题;
    2. 网易2018校园招聘数据分析工程师笔试卷》第9题;
    3. 京东2019校招数据分析工程师笔试题》第57题;

    15. 在贝叶斯线性回归中, 假定似然概率和先验概率都为高斯分布, 假设先验概率的高斯准确率参数为a, 似然概率的高斯准确率参数为b, 则后验概率相当于平方误差+L2正则,则其正则化参数为

    A. a + b
    B. a / b
    C. a^2 + b^2
    D. a^ 2 / (b^2)

    官方答案:A
    民间答案:C
    求解答~

    16. 以下关于准确率,召回, f1-score说法错误的是:

    A. 准确率为TP/(TP+FP)
    B. 召回率为TP/(TP + FN)
    C. f1-score为 2TP/(2TP + FP + FN)
    D. f1-score为 准确率*召回率/(准确率+召回率)

    正确答案:D

    「题目解析」
    f1-score 是 准确率和召回率的调和平均值;f1-score为 2 * 准确率*召回率/(准确率+召回率)。

    ?分类器的评价指标

    • ROC曲线 接收者操作特征(receiveroperating
      characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 横轴:(1-Specificity)
      纵轴:Sensitivity(正类覆盖率)

    Specificity = TN / Total actual negative Sensitivity = TP / Total
    actual positive = TP / (TP+FN)

    • AUC
      ROC曲线与轴围成的面积

    • Recall
      Recall 即 Sensitivity = TP / Total actual positive

    • Precision
      Precision = TP / Total predicted positive

    • Accuracy
      Accuracy = (TP+TN) / Total

    • F1:
      Precision和Recall的调和均值 2/ F1 = 1/Precision + 1/Recall

    17. 在MySQL中,与语句SELECT * FROM user WHERE age NOT BETWEEN 30 AND 70;等价的是()

    A. SELECT * FROM user WHERE age&lt;=30 OR age&gt;=70;
    B. SELECT * FROM user WHERE age&lt;30 OR age&gt;70;
    C. SELECT * FROM user WHERE age&gt;=30 OR age&lt;=70;
    D. SELECT * FROM user WHERE age&gt;30 OR age&lt;70;
    

    正确答案:B

    「题目解析」
    BETWEEN 30 AND 70 等价于 小于30或大于70。

    18. 把14,27,71,50,93,39按顺序插入一棵树,插入的过程不断调整使树为平衡排序二叉树,最终形成平衡排序二叉树高度为?

    A. 3
    B. 4
    C. 5
    D. 6

    正确答案:A

    ?平衡二叉树

    • 二叉排序树(Binary Sort Tree)
      或者是一颗空树;或者是具有以下性质的二叉树:
      (1)若它的左子树不为空,则左子树上的所有值均小于它根节点上的值;
      (2)若它的右子树不为空,则右子树上的值均大于根结点的值;
      (3)它的左右子树也分别为二叉排序树
    • 平衡二叉树(Balanced Binary Tree或Height—Balanced Tree)
      又称AVL树,它或者是一颗空树,或者是具有下列性质的二叉树:它的左右子树都是平衡二叉树,且左子树和右子树的深度之差的绝对值不超过1。若将二叉树节点的平衡因子BF(Balanced Factor)定义为该节点的左子树的深度减去它的右子树的深度,则平衡二叉树的所有节点的平衡因子只可能是-1,0或1。若有一个节点的平衡因子的绝对值大于一,则该二叉树就是不平衡的
      作者:学习中呢
      来源:https://blog.csdn.net/m0_37402140/article/details/77941031

    「题目解析」
    根据定义,个人尝试构造如下平衡二叉树,
    在这里插入图片描述
    初学,如有错误,欢迎评论指正~

    • 参考推荐
    1. https://zhidao.baidu.com/question/2016335253560660588.html
    2. 《二叉排序树和平衡二叉树》https://blog.csdn.net/m0_37402140/article/details/77941031
    3. 《平衡二叉树,AVL树之图解篇》https://www.cnblogs.com/suimeng/p/4560056.html

    19. 现有testfile文件内容如下所示
    12
    12
    213
    5434
    3123
    123
    34
    对所有数字求和,以下做法正确的是:

    A. awk 'BEGIN{sum}{sum+$1}END{print sum}' testfile
    B. awk 'BEGIN{sum =0}{sum+=$1}END{print sum}' testfile
    C. awk '{sum+$1}END{print sum}' testfile
    D. awk '{sum+=$1}END{print sum}' testfile
    

    正确答案:B D

    ?awk命令形式

    awk [-F|-f|-v] ‘BEGIN{} // {command1; command2} END{}’ file
    
    awk ' pattern {action} ' 
    
    • 参考资料
    1. 《awk 用法(使用入门)》https://www.cnblogs.com/emanlee/p/3327576.html
    2. 《awk用法详解》https://www.cnblogs.com/ginsonwang/p/5102668.html

    20. 以下关于HTTP说法正确是的:

    A. HTTP POST方式比GET更安全
    B. HTTP GET请求提交参数没有长度限制
    C. HTTP POST请求提交参数没有长度限制
    D. HTTP GET和POST请求提交参数都没有长度限制

    正确答案:A C

    ?HTTP GET ? POST

    • HTTP
      超文本传输协议(HTTP)的设计目的是保证客户机与服务器之间的通信。
      HTTP 的工作方式是客户机与服务器之间的请求-应答协议。
      举例:客户端(浏览器)向服务器提交 HTTP 请求;服务器向客户端返回响应。响应包含关于请求的状态信息以及可能被请求的内容。
    • GET - 从指定的资源请求数据。
    • POST - 向指定的资源提交要被处理的数据
      在这里插入图片描述
      来源:http://www.w3school.com.cn/tags/html_ref_httpmethods.asp

    21. python代码如下:

    foo = [1,2]
    foo1 = foo
    foo.append(3)
    

    A. foo 值为[1,2]
    B. foo 值为[1,2,3]
    C. foo1 值为[1,2]
    D. foo1 值为[1,2,3]

    正确答案:B D

    「民间解析」

    第二行foo1 = foo,是将fool的地址赋予给fool,即foo与foo1指向内存中同一地址。
    第三行当执行foo.append时,因为python中列表的值是可以变化的。所以就在原来的存放foo的内存地址改变了foo的值,由最初的[1, 2]变为[1, 2, 3]。由于foo1和foo 是指向同一地址空间的索引,所以当foo内存地址所存储的值被改变时,打印foo1时,foo1的值也变化了。
    来源:https://www.nowcoder.com/test/question/done?tid=24999724&qid=163525#summary
    作者:180827

    22. 协同过滤经常被用于推荐系统, 包含基于内存的协同过滤, 基于模型的协同过滤以及混合模型, 以下说法正确的是

    A. 基于模型的协同过滤能比较好的处理数据稀疏的问题
    B. 基于模型的协同过滤不需要item的内容信息
    C. 基于内存的协同过滤可以较好解决冷启动问题
    D. 基于内存的协同过滤实现比较简单, 新数据可以较方便的加入

    正确答案:A D

    ?协同过滤

    先举个生活中的场景,你想听歌却不知道听什么的时候,会向你身边与你品位类似的朋友求助,从而获得他的推荐。协同过滤(Collaborative Filtering,简称CF)就像与你品味相近的朋友,通过对大量结构化数据进行计算,找出与你相似的其他用户(user)或与你喜欢的物品(item)相似的物品,从而实现物品推荐。

    • 协同过滤分为两类:
      (1) 基于用户的协同过滤(User-Based CF),即基于内存的协同过滤;
      (2) 基于物品的协同过滤(Item-Based CF),即基于模型的协同过滤。

    来源:http://www.woshipm.com/pd/934582.html

    ? 基于用户的协同过滤

    基于用户的协同过滤又称为内存型协同过滤,需要将所有数据都保存在内存中进行计算;我们将一个用户和其他所有用户进行对比找到相似的人

    • 这种算法有两个弊端:
      (1) 扩展性 随着用户年年的增加,其计算量也会增加,这种算法在只有几千个用户的情况下能够工作的很好,但达到一百万个用户时就会出现瓶颈;
      (2) 稀疏性 大多数推荐系统中,物品的数量要远大于用户的数量,因此用户仅仅对一小部分物品进行评价,这就造成了数据的稀疏性。
      来源:https://www.jianshu.com/p/74adaf07fa14

    ?基于物品的协同过滤

    基于物品的协同过滤又称为基于模型的协同过滤,不需要保存所有的数据,而是通过构建一个物品相似度模型来获取结果
    来源:https://www.jianshu.com/p/74adaf07fa14

    ?冷启动

    「冷启动」包含两个层面:

    • 用户的冷启动
      新的用户因为没有在产品上留下行为数据,自然无法得知他/她的喜好,从而做出靠谱的推荐。这时一般需要借助用户的背景资料,或者引导性地让用户选择,或者暂时用热门启动替代个性化推荐来解决,在线推荐系统可以做到在用户产生行为数据后立马更新推荐列表。
    • 物品的冷启动
      主要适用于ItemBased的场景,即对一个物品推类似的物品,因为新物品还没有用户行为数据,自然也就没有办法通过协同过滤的方式进行推荐,这时一般会利用物品属性的相关程度来解决。

    作者:寻叶亭
    来源:https://www.jianshu.com/p/03bf81f9f6d9

    • 强烈参考
    1. 《第二章:基于物品(模型)的协同过滤》https://www.jianshu.com/p/74adaf07fa14
    2. 《三分钟了解协同过滤算法》http://www.woshipm.com/pd/934582.html
    3. 《协同过滤之冷启动》https://www.jianshu.com/p/03bf81f9f6d9

    23. 以下有关SQL性能优化正确的是:

    A. sql需要避免在索引字段上使用函数
    B. 避免在WHERE子句中使用in,not in , 可以使用exist和not exist代替
    C. 将对于同一个表格的多个字段的操作写到同一个sql中, 而不是分开成两个sql语句实现
    D. 避免建立索引的列中使用空值

    正确答案:A B C D

    24. 如下哪些sql语句能查询出每门课都都大于80分的学生姓名,部分数据如下表(student_score)所示,

    stu_nostu_namesub_nosub_namescore
    1张三001语文90
    1张三002数学60
    2李四001语文89
    2李四002数学86
    A. select distinct stu_name from student_score where stu_name not in (select distinct stu_name from student_score where score &lt;= 80)
    B. select stu_name from student_score group by stu_name having min(score) &gt; 80
    C. select distinct stu_name from student_score where score &gt; 80
    D. select stu_name from student_score group by sub_name having min(score) &gt; 80
    

    正确答案:A B

    「民间解析」

    A:子查询语句找出有(至少一门)成绩小于80的学生姓名,主语句要求学生姓名不在子查询的结果中,正确
    B:分数最低的一门大于80,正确
    C:有一门大于80,就被选中了,不对
    D:sub_name应该换成stu_name,否则不对,会报错
    来源:https://www.nowcoder.com/test/question/done?tid=24999724&qid=163528#summary
    作者:为什么邮箱还是空的。。

    25. 两个随机变量x,y,服从联合概率分布p(x,y), 以下等式成立的有

    这里是引用
    正确答案:A C

    ?全期望公式
    在这里插入图片描述
    求方差
    var(X)=var[E(X|Y)]+E[var(X|Y)]

    26. 东东从京京那里了解到有一个无限长的数字序列: 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, …(数字k在该序列中正好出现k次)。东东想知道这个数字序列的第n项是多少,你能帮帮他么

    「思路」
    假设第n项为k,则一共有 1 + 2 + … + k = (1+k) * k / 2 项,这个数大于或等于n。解方程,解出k,并用ceil向上取整即可。

    「我的代码」

    import math
    def fun(n):
        k = math.sqrt(0.25+2*n)-0.5
        return math.ceil(k)
     
    n = int(input())
    print(fun(n))
    

    27. 东东对幂运算很感兴趣,在学习的过程中东东发现了一些有趣的性质: 9^3 = 27^2, 2^10 = 32^2
    东东对这个性质充满了好奇,东东现在给出一个整数n,希望你能帮助他求出满足 a^b = c^d(1 ≤ a,b,c,d ≤ n)的式子有多少个。
    例如当n = 2: 11=11
    11=12
    12=11
    12=12
    21=21
    22=22
    一共有6个满足要求的式子

    • 输入描述:
      输入包括一个整数n(1≤n≤10^6)
    • 输出描述:
      输出一个整数,表示满足要求的式子个数。因为答案可能很大,输出对1000000007求模的结果
    • 输入示例:
      2
    • 输出示例:
      6

    「民间思路」

    对等式取对数 bloga =dlogc ,b/d=logc/loga,logc/loga是有理分式,c和a一定可以表示成同一个底数的幂,所以外层循环就是对底数遍历,内循环对logc和loga遍历,相当于对c和a遍历但时间复杂度变为对数,对于每一个logc和loga,已知b/d求b和d的个数,其实就是n/(b和d最大公约数),所有加起来再考虑一下特殊情况就行了。
    作者:北交大李国杰
    链接:https://www.nowcoder.com/questionTerminal/0c564191e8c24f35a784a9363868ea09

    「民间代码」

    链接:https://www.nowcoder.com/questionTerminal/0c564191e8c24f35a784a9363868ea09
    来源:牛客网
    
    import math
    def gcd(a,b):
        a,b=min(a,b),max(a,b)
        for i in range(1,a+1):
            if a%i==0 and b%i==0:
                cd=i
        return cd
    n=int(input())
    mode=int(1e9+7)
    rec=[0]*(n+1)
    res=n*(2*n-1)%mode
    for i in range(2,n+1):
        if rec[i]:
            continue
        else:
            rec[i]=1
            lgn=round(math.log(n,i))
        if pow(i,lgn)>n:
            lgn = lgn-1
        for lga in range(1,lgn):
            rec[i**lga]=1
            for lgc in range(lga+1,lgn+1):
                res+=(n//(lgc//gcd(lga,lgc))*2)
                res=res%mode
    print(res)
    
    

    28. 以下属于凸函数的是

    A. e的x次方
    B. x的a次方
    C. log(x)
    D. f(x, y) = x的平方/y

    正确答案:A D

    ?凸函数
    在这里插入图片描述
    来源:https://www.cnblogs.com/always-fight/p/9377554.html

    待解析D~

    29. 以下关于二项分布说法正确的是

    A. 二项分布是一种离散概率分布,表示在n次伯努利试验中, 试验k次才得到第一次成功的概率
    B. 二项分布是一种离散概率分布,表示在n次伯努利试验中,有k次成功的概率
    C. 当n很大时候,二项分布可以用泊松分布和高斯分布逼近
    D. 当n很大时候,二项分布可以用高斯分布逼近,但不能用泊松分布逼近

    正确答案:B C

    ?正态分布 ? 二项分布 ? 泊松分布

    1. 正态分布是所有分布趋于极限大样本的分布,属于连续分布;二项分布与泊松分布则都是离散分布。
    2. 二项分布的极限分布是泊松分布。泊松分布的极限分布是正态分布,即np=λ,当n很大时,可以近似相等。

    来源:https://www.zybang.com/question/08b603a5dfae3b33c5ec2af82e9fdf6f.html

    30. 在机器学习中,经常采用线性变换,将基变换为正交基, 下列矩阵式正交矩阵的是
    在这里插入图片描述
    在这里插入图片描述

    正确答案:A C

    ?正交矩阵

    AAT=I,则A为正交矩阵。

    31. 用浏览器访问www.jd.com时,可能使用到的协议有?

    A. MAC
    B. HTTP
    C. SMTP
    D. ARP
    E. RTSP

    正确答案:A B D
    待解析~

    在这里插入图片描述
    来源:https://www.jianshu.com/p/9f3e879a4c9c

    32. 有A,B 两个国家,人口比例为4:6,A国的犯罪率为0.1%,B国的为0.2%。现在有一个新的犯罪事件,发生在A国的概率是?

    A. 0.15
    B. 0.25
    C. 0.35
    D. 0.45

    正确答案:B

    「题目解析」
    A国犯罪的期望 = 0.4 * 0.1%
    犯罪的期望 = 0.4 * 0.1% + 0.6 * 0.2%
    在A国犯罪的概率 = (0.4 * 0.1%) / (0.4 * 0.1% + 0.6 * 0.2%)=0.25

    展开全文
  • 数据分析工程师大纲

    千次阅读 2018-07-25 15:58:31
    数据分析工程师大纲       阶段一、业务数据分析师 课程一、数据挖掘/分析师之硬技能 - 必备常用工具使用与高级技巧 本部分内容主要介绍了数据挖掘、分析师、数据产品经理必备的常用工具的,主要有 ...

    大数据分析工程师大纲

     

     

     

    阶段一、业务数据分析师

    课程一、数据挖掘/分析师之硬技能 - 必备常用工具使用与高级技巧

    本部分内容主要介绍了数据挖掘、分析师、数据产品经理必备的常用工具的,主要有 Excel,Visio,Xmind,PPT的涉及图表数据分析方面的高级技巧,包括但不限于:数据透视表演练、Vision跨职能流程图演练、Xmind项目计划导图演练、PPT高级动画技巧等!

    一、Excel

    1)数据分析工具EXECL入门介绍
    2)数据透视表演练 
    3) 数据处理
    4) EXECL报告自动化
    5) PPT报告数据自动化

    二、Visio

    1)流程图visio入门介绍
    2)案例1:基本流程图演练 
    3)案例2:跨职能流程图演练 
    4)案例3:UML模型图演练 
    5)案例4:数据库、数据流模型图演练

    三、Xmind

    1) 思维导图xmind入门介绍 
    2)案例1:项目计划导图演练 
    3)案例2:拼车APP功能导图分析演练

    四、 PPT

    1) 办公PPT入门介绍
    2)案例演示

    课程二、数据挖掘/分析师之硬技能 - 零基础到数据挖掘精通(Excel、Oracle、SPSS初步)

    本课程介绍了数据挖掘技术基本的概念、功能、使用人员所需能力、使用方式以及数据挖掘部分主流算法实现方式。课程中嵌入了oracle数据库和办公软件excel,
    这两款软件主要用于存储及处理数据挖掘所需的数据,其中还使用excel作为简单入门工具对数据挖掘进行了算法实现,该部分主要用于帮助大家对数据挖掘相关知
    识有一个全面和大概的了解。在此基础上,后期使用数据挖掘专业工具SPSS MODELER结合一些案例对之前的excle实现的挖掘算法部分进行了深入学习以及增加了
    一些SPSS MODELER自带的算法模块讲解。课程除了主要讲解了数据挖掘知识和技术,同时其中还涉及了部分oracle数据库知识、sql语句和excel的函数运用。

    一、数据挖掘基础内容讲解

    1)数据挖掘初探之功能介绍
    2)excel基础知识及应用示范 
    3)Oracle数据库安装及应用示范 
    4)数据预处理(excel+Oracle) 
    5)预测算法-线性回归 
    6)分类算法 
    7)关联算法 
    8)聚类算法 
    9)最优化求解 

    二、SPSS MODELER数据挖掘

    1)SPSS Modeler 下载安装及常规数据操作
    2)SPSS Modeler数据探索及分析
    3)SPSS Modeler图形探索及分析
    4)SPSS Modeler回归分析建模
    5)SPSS Modeler逻辑分析建模
    6)RFM介绍、建模及模型应用 
    7)SPSS Modeler分类
    8)SPSS Modeler关联分析
    9)SPSS Modeler聚类分析

    课程三、数据挖掘/分析师之软技能 - 数据分析入门

    本课程让学员明确数据分析思路和主要步骤,了解互联网分行业关键数据指标,熟练掌握常用的数据分析方法和数据分析方法的应用,熟练掌握数据分析报告的结构和应用。

    1)数据分析概念、作用和步骤
    2)数据分析方法论 
    3)数据分析常用方法

    4)数据图表讲解
    5)数据关键指标讲解 
    6)数据分析报告讲解

    课程四、数据挖掘/分析师之软技能 - 实战需求分析

    本部分内容主要包括两份重要文档的编写商业需求与文档撰写格式技巧(BRD)和市场需求分析与文档撰写技巧(MRD)

    一、商业需求与文档撰写格式技巧(BRD)

    1)行业分析-PEST宏观环境的分析
    2)项目背景——利用黄金圆圈学会问为什么,探寻为什么,最大的挑战就是成功 
    3)你会学到:如何谈论项目进度,如何描述项目阶段的起始和终止日期 
    4)学习预测未来,确定要达到的目标,估计会碰到的问题,并提出实现目标、解决问题的有效方案、方针、措施和手段的过程的方法 
    5)关注企业在市场中与用户的关系 
    6)收益、成本、风险及对策

    二、市场需求分析与文档撰写技巧(MRD)

    1)如何构建用户画像、理解用户行为,真正理解用户需求
    2)理解市场需求描述、市场规模定义 
    3)利用SWOT分析法来确定企业自身的竞争优势、竞争劣势、机会和威胁,从而将公司的战略与公司内部资源、外部环境有机地结合起来的一种科学的分析方法 
    4)市场需求的经典案例

    课程五、数据挖掘/分析师之软技能 - 实战竞品分析

    1、本课程让学员真正了解竞品分析的用途、流程、方法,能够在正确的时间点,找到正确的竞品,并用恰当的方法,做出准确的分析,最终得出的结果有利于在产
    品定位的时候,确定需要学习、避免和差异化的点。 2、另外本课程选取体现互联网/移动互联网行业热点的App,以及部分优质的App;讲述其战略定位、行业标 
    杆产品、自身在行业中排名、主要功能、差异化特色、盈利模式及逻辑、用户体验设计。使得学员通过学习,达到以下目标:第一,了解互联网及移动互联网的各个
    领域;第二,了解互联网各行业的热点,提升择业能力;第三,了解优秀App的定位、设计、盈利模式,这对将来数据分析师的工作和实践非常有用;第四,培养产品感和分析产品的思路和能力;第五,通过对比,掌握同类产品定位、设计差异的缘由,从而能够举一反三,设计出自己的、有差异化特色和竞争力的产品。

    一、竞品分析

    1)什么是竞品
    2)为什么要分析竞品 
    3)在什么地方做出差异化 
    4)竞品分析的方法与流程 
    5)实例一:大米先生餐饮App项目的竞品分析(完整流程及方法展示) 
    6)实例二:支付产品:支付宝 vs 微信支付(侧重战略、战术、产品定位分析)

    二、热门各互联网行业 APP分析

    1)2016年互联网行业投资热点及融资分布
    2)2016年互联网行业热点概述(VR、文体娱乐、大数据、移动营销、移动出行、移动社交、移动支付、在线教育、在线 
    医疗、手机游戏)
    3)在线视频APP:爱奇艺 
    4)拍摄美化神器APP:美拍 
    5)手机轻电台应用APP:荔枝FM vs 懒人听书
    6)在线音乐APP:网易云音乐 
    7)在线体育APP:虎扑体育 
    8)文化新闻APP:今日头条 vs 凤凰新闻
    9)在线阅读APP:书旗小说 
    10)文艺应用APP:ONE 
    11)移动出行APP:UBER 
    12)移动社交APP:陌陌 
    13)在线翻译APP:网易有道词典 
    14)女生助手APP:美柚 
    15)移动社交APP:探探?

    课程六、数据挖掘/分析师之软技能 - 实战产品规划与设计

    本部分课程主要包括两块内容: 1. 需求分析与管理 2. 产品需求文档撰写格式与技巧(PRD)

    一、需求分析与管理

    1)需求的定义、本质和分类
    2)学习需求分析包括需求的获取、分析、规格说明、变更、验证、管理的一系列需求工程的方法 
    3)学习需求分析指需求的分析、定义过程 
    4)KANO模型定义了三个层次的顾客需求:基本型需求、期望型需求和兴奋型需求 
    5)需求优先级的定义 
    6)需求工作量估算、需求变更、需求的管理工具

    二、产品需求文档撰写格式与技巧(PRD)

    1)产品需求文档PRD的整体结构介绍
    2)产品原型的设计 
    3)需求文档质量评估标准 
    4)PRD相关案例剖析

    阶段二、建模分析师

    课程七、建模分析师之软技能 - 数据库技术

    本部分课程主要介绍MySQL数据库的安装使用及常用数据操作

    1、关系型数据库介绍

    2、MySQL的基本操作:
          1)数据库的操作
          2)数据表的操作 
          3)备份与恢复 

    3、常用的SQL语句: 
          1)查询语句(SELECT)
          2)插入语句(INSERT)
          3)更新语句(UPDATE)
          4)删除语句(DELETE)

    4、高级查询语句:
          1)聚合函数
          2)分组查询
          3)联合查询
          4)连接查询
          5)子查询

    5、高级应用:
    1)视图 
    2)索引 

    6、数据可视化管理:SQLyog

    课程八、建模分析师之软技能 - 实用型大数据挖掘算法、(Apriori算法、Tanagra工具、决策树)

    本课程名为深入浅出数据挖掘技术。所谓“深入”,指得是从数据挖掘的原理与经典算法入手。其一是要了解算法,知道什么场景应当应用什么样的方法;其二是学
    习算法的经典思想,可以将它应用到其他的实际项目之中;其三是理解算法,让数据挖掘的算法能够应用到您的项目开发之中去。所谓“浅出”,指得是将数据挖掘
    算法的应用落实到实际的应用中。课程会通过三个不同的方面来讲解算法的应用:一是微软公司的SQL Server与Excel等工具实现的数据挖掘;二是著名开源算法的
    数据挖掘,如Weka、KNIMA、Tanagra等开源工具;三是利用Java、C#语言两种语言做演示来完成数据挖掘算法的实现。根据实际的引用场景,数据挖掘技术通
    常分为分类器、关联分析、聚类算法等三大类别。本课程主要介绍这三大算法的经典思想以及部分著名的实现形式,并结合一些商业分析工具、开源工具或编程等方式来讲解具体的应用方法。

    1、数据挖掘概述与数据
    2、可视化与多维数据分析(实践课) 
    3、分类器与决策树 
    4、其他分类器 
    5、决策树的应用(实践课) 

    6、关联分析
    7、购物车数据分析(实践课) 
    8、聚类算法 
    9、聚类算法C#源代码实现(实践课) 

    课程九、建模分析师之硬技能 - SPSS Modeler数据挖掘项目实战(高阶篇)(课程9、10、11三门课任选其一)

    本教程从数据挖掘生命周期、过程及管理思想开始,讲解了实际项目中各大阶段的重要任务及各自承上启下的关键作用。并用通俗易懂的语言将挖掘技术所涉及的思
    想、方法、参数与统计学基础联系起来,仔细讲解了包括维度、数据、分析、数据流等在内的功能、参数的实际意义和选择、组合等应用方法。对建模技术的原理思
    想及选择方法是本课程的重点与难点。此外,本课程在结合对Modeler软件应用的同时,更加强调建模思想,强调模型规划设计。针对有更高要求的朋友,还应常常训练自己对数据挖掘项目全过程的整体规划与设计,培养自己项目全局的眼光和思维方式。

    一、数据挖掘项目管理基础与思想

    1)课程规划
    2)DM项目的生命周期与建设过程 
    3)CRISP-DM详解 
    4)DM项目实际建设与管理过程 
    5)DM团队组成与能力素养 

    二、感性认识SPSS Modeler

    1)SPSS MODELER软件基础
    2)MODELER节点概要 
    3)MODELER数据流实例解读 

    三、必备的统计学基础

    1)简单的统计学概念
    2)常用的分布函数 
    3)统计学基础的其它补充 

    四、数据准备与预处理

    1)数据质量与样本管理
    2)MODELER变量管理 
    3)MODELER分析管理 

    五、常用模型的数学思想与思考

    1)数据挖掘知识类型
    2)模型过程思想 
    3)回归分析思想与建模解释 
    4)回归分析建模解释(续) 
    5)决策树思想与建模解释 
    6)回归与决策树增补 
    7)神经网络思想与建模解释 
    8)SVM思想与建模解释 
    9)聚类思想与建模解释 
    10)关联思想与建模解释

    六、项目案例解析

    1)信用风险评估
    2)经营辅助决策 

    课程十、建模分析师之硬技能 - Python基础和网络爬虫数据分析(课程9、10、11三门课任选其一)

    本课程面向从未接触过Python的学员,从最基础的语法开始讲起,逐步进入到目前各种流行的应用。整个课程分为基础和实战两个单元。基础部分包括Python语法
    和面向对象、函数式编程两种编程范式,基础部分会介绍Python语言中的各种特色数据结构,如何使用包和函数,帮助同学快速通过语法关。在实战部分选择了网
    络爬虫、数据库开发、Web网站3种最基础的应用类型,详细介绍其思想原理,并通过案例讲解Python中的实现方案,让学员真正达到融会贯通、举一反三的效果。并应用到自己的工作环境中。

    一、Python语言开发要点详解

    1)模块的概念.主模块和非主模块的区别.pycharm中定义代码模版
    2)安装pip 多个虚拟python环境
    3)语法.变量.内置类型.运算符 
    4)if.for.while.else 
    5)数据结构.列表.元组.字典.集合 
    6)函数.类.异常

    二、Python数据类型

    7)列表和列表解析
    8)filter和map 
    9)生成器表达是 
    10)元组 
    11)字符串 
    12)字符串之中文处理 
    13)字典 
    14)集合

    三、函数和函数式编程

    15)函数参数和变长参数列表
    16)函数返回值.变量作用域.和函数__doc__属性 
    17)函数的嵌套定义和闭包和装饰器介绍 
    18)装饰器例子(日志装饰器和身份认证装饰器) 
    19)迭代器和生成器1 
    20)生成器例子 

    四、面向对象编程

    21)认识经典类和新式类 
    22)公有属性和私有属性属性 
    23)访问属性.属性装饰器.描述符 
    24)描述符 
    25)方法.实例方法.静态方法.类方法 
    26)特殊方法.运算符重载 
    27)继承.多重继承.super

    五、网页爬虫(单线程,保存到文本

    28)爬虫介绍
    29)工具包介绍 
    30)request使用演示 
    31)xpath介绍 
    32)xpath使用演示 
    33)新闻爬虫 
    34)分页栏爬虫 
    35)豆瓣爬虫 

    六、mongodb数据库

    44)mongodb介绍
    45)安装.命令行.mongovue演示 
    46)python中插入记录 
    47)python中查询记录 
    48)python中更新记录 
    49)python中删除记录 
    50)聚合操作

    七、多线程和多进程

    51)概述
    52)多线程编程 
    53)多进程编程 
    54)综合案例-网络爬虫3 
     

    八、scrapy实战

    55)scrapy介绍和安装
    56)scrapy项目框架 
    57)scrapy框架和案例需求分析 
    58)实战

    九、django实战

    59)django架构介绍
    60)阶段1.安装.创建项目.创建应用.初始配置 
    61)阶段1.配置URL映射.视图函数 
    62)阶段2.定义ORM并注册到后台管理模块 
    63)阶段3.模版的继承.表单的使用.数据的展示 
    64)阶段4.多应用URL配置.数据的DML操作

    课程十一、建模分析师之硬技能 - 零基础数据分析与挖掘R语言实战课程(课程9、10、11三门课任选其一)

    本课程面向从未接触过数据分析的学员,从最基础的R语法开始讲起,逐步进入到目前各行业流行的各种分析模型。整个课程分为基础和实战两个单元。 基础部分包
    括R语法和统计思维两个主题,R语法单元会介绍R语言中的各种特色数据结构,以及如何从外部抓去数据,如何使用包和函数,帮助同学快速通过语法关。统计思维
    单元会指导如何用统计学的思想快速的发现数据特点或者模式,并利用R强大的绘图能力做可视化展现。在实战部分选择了回归、聚类、数据降维、关联规则、决策
    树这5中最基础的数据分析模型,详细介绍其思想原理,并通过案例讲解R中的实现方案,尤其是详细的介绍了对各种参数和输出结果的解读,让学员真正达到融会贯通、举一反三的效果。并应用到自己的工作环境中。

    一、R语法详解:

    1)R的核心数据结构之向量、因子的区别和使用技巧
    2)R的核心数据结构之矩阵、数据框、数组、列表的区别和使用技巧 
    3)R的控制结构(包括分支结构和循环结构)、函数和包、以及向量化计算

    二、数据组织和整理:

    1)数据导入,从多种数据源导入数据
    2)数据预处理之缺失值的处理 
    3)数据预处理之数据转换,数据筛选?

    三、建立数据分析的统计思维和可视化探索:

    1)单变量数据特点的描述方法
    2)多变量数据特点的描述方法 
    3)借助分组发现数据中的模式 
    4)数据可视化建立对数据的感性认识

    四、用回归预测未来:

    1)线性回归的思想,代码、结果的详细解读;
    2)多项式回归、多元线性回归

    五、聚类方法:

    1)层次聚类和k-means聚类方法

    六、数据降维——主成分分析和因子分析:

    1)维度过多会导致哪些问题
    2)用逐步回归法筛除无用变量 
    3)用主成分分析法解决多重共线性问题 
    4)用因子分析法获得有业务意义的变量

    七、关联规则:

    1)用关联规则做购物车分析

    八、决策树:

    1)决策树算法ID.3、C4.5、CART算法区别和演示
    2)分类效果的评价方式

    课程十二、建模分析师之扩展篇(机器学习) - 零基础实战机器学习入门篇(Python语言、算法、Numpy库、MatplotLib)

    机器学习作为人工智能的一部分,已经应用于很多领域,远超过人们的想象,垃圾邮件的过滤,在线广告的推荐系统,还有目前发展飞快的物体识别、人脸识别和语
    音识别的发展,都是机器学习的应用的成果。机器学习在改善商业决策、提高生产率、检测疾病、预测天气等方面都有非常大的应用前景。 本课程系统的介绍了机 
    器学习的目的和方法。并且针对每一种常用的方法进行了详细的解析,用实例来说明具体的实现,学生可以跟着一步步完成。在面对现实的问题的时候,可以找到非常可靠的参照。本课程在最开始讲解了Python语言的基础知识,以保证后面的课程中可以顺利进行。更多的Python语言的知识,需要学员自己去找更多的资料进行
    学习。 本课程主要讲述了两大类机器学习的方法:有监督学习和无监督学习,其中有监督学习里面,又分为分类和预测数值型数据。这些算法都是基础的算法。这样可以降低学习的难度,容易理解机器学习思路和实现的过程。

    1)机器学习的任务和方法
    2)Python语言基础 
    3)Python语言基础2 
    4)分类算法介绍 
    5)k-临近算法 
    6)决策树 
    7)基于概率论的分类方法:朴素贝叶斯 
    8)Logistic回归 
    9)支持向量机 
    10)第利用AdaBoost元算法提高分类性能

    11)利用回归预测数值型数据
    12)树回归 
    13)无监督学习 
    14)利用K-均值聚类算法对未标注数据分组 
    15)使用Apriori算法进行关联分析 
    16)使用FP-growth算法来高效发现频分项集 
    17)利用PCA来简化数据 
    18)利用SVD简化数据 
    19)大数据与MapReduce 
    20)学习总结

    课程十三、建模分析师之扩展篇(机器学习) - 实战机器学习高阶篇(基于Python机器学习、项目案例实战)

    大数据时代,数据是企业值钱的财富,但海量的数据并非都是有价值的,如何挖掘出有用的数据变成商业价值,就需要机器学习算法。大数据和机器学习势必颠覆传
    统行业的运营方式,必将驱动公司业务的发展。目前,越来越多的机器学习/数据挖掘算法被应用在电商、搜索、金融、游戏,医疗等领域中的分析、挖掘、推荐
    上。 但懂机器学习算法的人才却少之又少,物以稀为贵,致使这个行业的工资奇高。 本课程作为深度学习系列课程的第一阶段,介绍机器学习的基本概念,原理, 
    以及常用算法(如决策树,支持向量机,Adaboost、EM算法等)。以Python语言为工具对每种算法进行结合实例讲解。学生学完本课程后将会理解机器学习的常
    用算法原理,并会使用Python来对实际问题进行数据预处理,分类和回归分析。为开发机器学习相关应用打下必要基础,同时也为学习深度学习进阶课程打下必要基础。

    一、k最近邻算法:

    1)机器学习课程介绍
    2)K最近邻算法的思想 
    3)机器学习中常用的距离指标解析 
    4)实战k最近邻算法

    二、朴素贝叶斯分类算法

    5)概率论的基本知识(基本概念、加法公式、乘法公式)
    6)通过例子深入掌握概率的基本公式 
    7)全概率公式和贝叶斯定理 
    8)实战贝叶斯分类算法,智能手环推荐

    三、聚类算法:

    9)聚类算法概述
    10)Kmeans聚类 
    11)Kmeans实战,图片按照色彩聚类 

    四、决策树算法:

    12)决策树介绍
    13)决策树的构造过程和各种算法 
    14)决策树中关键指标详解 
    15)实战决策树

    五、线性回归和梯度下降算法:

    16)线性回归的相关概念(相关、独立和协方差)
    17)线性回归和最小二乘法 
    18)梯度下降算法 
    19)梯度的推导过程 
    20)岭回归、lasso回归和弹性网

    六、逻辑回归和极大似然估计:

    21)广义线性回归和逻辑回归
    22)极大似然估计的思想 
    23)逻辑回归中的梯度推导 
    24)逻辑回归代码实战

    七、支持向量机:

    25)支持向量机原理介绍
    26)线性可分的支持向量机 
    27)近似线性可分、非线性可分、核函数 
    28)坐标上升法、SMO算法、实战支持向量机

    八、EM算法和GMM:

    29)EM算法思想
    30)EM算法的推导 
    31)实战EM算法,GMM

    九、随机森林和Adaboost:

    32)随机森林
    33)Adaboost思想精髓 
    34)Adaboost算法流程介绍 
    35)实战Adaboost算法

    十、机器学习思想精华和实战经验分享:

    36)机器学习解决问题思想框架
    37)理解方差和偏差、损失函数和过拟合 
    38)L1、L2正则化和常见的5种损失函数 
    39)如何选择模型和选择参数,交叉验证和ROC曲线 
    40)自适应学习率和二分法精确搜索 
    41)自适应学习率和基于阿米霍准则的模糊搜索 
    42)经验分享

    阶段三、大数据分析师(赠送)

    课程十四、大数据挖掘/分析师之硬技能 - Java语言基础

    本课程讲解了java语法基础、类和对象、java中的字符串、java实用类与集合、泛型、继承和多态、接口与抽象类异常处理等等。

    1、Java语法基础

    2、类和对象

    3、字符串

    4、Java实用类

    5、集合与泛型

    6、面向对象三大特性

    7、接口与抽象类

    8、Java异常

    课程十五、大数据挖掘/分析师之硬技能 - 大数据必备的数据结构与算法

    这门课程是针对大数据工程师和云计算工程师的基础课程,同时也是所有计算机专业人士必须掌握的一门课程。如果不掌握数据结构和算法,你将难以掌握高效、专业的数据处理手段,更难以从容应对复杂的大数据处理场景。

    1.数据结构和算法概述

    2.数组、链表、队列、栈等线性表

    3.二叉树、BST、AVL树及二叉树的递归与非递归遍历

    4.B+树

    5.跳表

    6.图、图的存储、图的遍历

    7.有向图、无向图、懒惰与积极的普利姆算法、克鲁斯卡尔算法及MST、单源最短路径问题及Dijkstra算法

    8.并查集与索引式优先队列、二叉堆

    9.遗传算法初步与TSP问题

    10.内部排序(直接插入、选择、希尔、堆排序、快排、归并等)算法与实践中的优化

    11.外部排序与优化(文件编码、数据编码、I/O方式与JVM特点、多线程、多路归并等)

    课程十六、大数据挖掘/分析师之硬技能 - Linux必知必会

    本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。

    1.Linux系统概述

    2.系统安装及相关配置

    3.Linux网络基础

    4.OpenSSH实现网络安全连接

    5.vi文本编辑器

    6.用户和用户组管理

    7.磁盘管理

    8.Linux文件和目录管理

    9.Linux终端常用命令

    10.linux系统监测与维护

    课程十七、大数据挖掘/分析师之硬技能 - Hadoop大数据开发技术光速入门

    本课程从基础的环境搭建到更深入的知识学习都会有一个比较好的讲解。帮助学员快速上手hadoop生态圈的大数据处理框架的使用,使用hadoop生态圈进行一些
    模块化、项目功能化的开发,主要包括安装部署hadoop、hive、hbase、hue、oozie、flume等生态圈相关软件环境的搭建,并且在已搭建好的环境上进行相关知
    识点的讲解和功能的开发。项目/模块主要涉及到使用MR开发相关实际业务功能,包括最短路径的计算、社交好友推荐算法实现、分布式锁的实现等,这些模块可
    以在实际的生成环境中使用到,可以很简单的将这些模块的代码直接集成到相关实际生产环境代码中。

      一、hadoop:

    1)Hadoop起源、体系结构以及生态圈介绍
    2)Hadoop安装 
    3)Windows平台下Eclipse环境搭建 
    4)HDFS体系结构 
    5)HDFS SHELL API介绍
    6)HDFS Java API介绍
    7)Hadoop 2.x HDFS新特性
    8)YARN体系结构 
    9)MR编程模型介绍 
    10)Map-Reduce编程实例:WordCount 
    11)MR数据类型讲解 
    12)MR输入格式讲解 
    13)MR输出格式讲解 
    14)案例:自定义输入、输出格式使用 
    15)MR Shuffle组件讲解
    16)案例:二次排序 
    17)组合MR任务介绍 
    18)MR任务多数据源连接介绍 
    19)案例:倒排索引

      二、zookeeper:

    20)Zookeeper起源、体系结构介绍
    21)Zookeeper安装 
    22)Zookeeper Shell命令
    23)Zookeeper Java API
    24)Zookeeper案例:分布式环境中实现共享锁

    三、hbase: 

    25)HBase起源、体系结构以及数据模型介绍
    26)HBase安装 
    27)HBase Shell命令
    28)HBase Java API
    29)HBase协处理器介绍 
    30)HBase和MapReduce整合 
    31)HBase案例:二级索引的创建

      四、hive:

    32)Hive起源、体系结构介绍
    33)Hive安装 
    34)Hive Shell命令上
    35)Hive Shell命令下
    36)Hive函数

      五、hue:

    37)Hue简介

      六、Oozie:

    38)Oozie简介
    39)Oozie安装 
    40)Oozie案例 
    41)Oozie Java客户端
    42)Oozie Hue整合

    七、Flume: 

    43)Flume介绍以及安装
    44)Flume案例介绍上 
    45)Flume案例介绍下 
    46)Flume自定义Source 
    47)Flume自定义Interceptor

    八、Sqoop: 

    48)Sqoop介绍与安装
    49)Sqoop案例介绍上 
    50)Sqoop案例介绍下

    九、Kafka: 

    51)Kafka介绍与安装
    52)Kafka案例

    十、MR扩展: 

    53)MapReduce案例:最短路径算法
    54)MapReduce案例:PageRank算法 
    55)MapReduce案例:社交好友推荐算法

    课程十八、数据分析专家之硬技能 - 基于Hadoop技术实现的离线电商分析平台

    离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解。尤其是在电商、旅游、银行、证券、游戏
    等领域有非常广泛,因为这些领域对数据和用户的特性把握要求比较高,所以对于离线数据的分析就有比较高的要求了。 本课程通过一个离线电商的项目实战全面 
    对Hadoop技术做了一个演练。项目主要涉及到用户行为数据的收集、用户数据的etl操作、用户数据的分析以及分析数据展示等项目模块,最终展示了一个基本的
    离线数据分析平台的全部实现。

    一、项目需求介绍:

    1)需求分析

    二、用户行为数据收集模块实现讲解:

    3)JavaSDK数据收集引擎编写
    4)JSSDK数据收集引擎编写

    三、数据分析模块实现讲解:

    5)用户数据etl操作一
    6)用户数据etl操作二 
    7)新增用户和总用户分析 
    8)活跃用户分析 
    9)活跃会员分析 
    10)新增会员和总会员分析 
    11)会话分析 
    12)Hourly分析 
    13)浏览器PV分析 
    14)公用代码提取 
    15)地域信息分析 
    16)外链信息分析 
    17)MapReducer代码优化 
    18)DimensionConverter相关服务设计 
    19)用户浏览深度分析 
    20)事件分析 
    21)订单分析 
    22)MR和Hive任务Oozie部署

    四、数据展示模块讲解:

    23)DataApi后台框架搭建
    24)用户基本信息数据展示 
    25)浏览器基本信息数据展示 
    26)地域信息数据展示 
    27)用户浏览深度数据展示 
    28)外链数据展示 
    29)事件数据展示 
    30)订单数据展示以及项目总结

    课程十九、大数据挖掘/分析师之硬技能 - 基于金融行业的大数据挖掘/分析实战(Python语言)

    本课程介绍使用Python进行数据分析和金融应用开发的基础知识。课程从介绍简单的金融应用开始,带领学员回顾Python的基础知识,并逐步学习如何将Python
    应用到金融分析编程中。课程覆盖了Python的基本数据结构、输入输出、效率分析、数学库、随机分析库、统计分析库等。接着课程以专题的形式介绍了Python与
    Excel的结合,学习如何使用Python的相关库生成Excel可调用的函数;Python与Hadoop和MongoDB结合进行大数据分析的基础知识。最后课程介绍了Python的
    面向对象编程并介绍了两个案例:使用Python实现金融衍生品分析库以及使用Python实现事件驱动的量化投资系统,使学员在实战的环境下理解Python在金融
    应用开发中的具体应用方式,训练学员独立开发Python模块的能力。

    1)Python与金融应用概述
    2)Python的基本数据类型与数据结构 
    3)Python数据可视化 
    4)金融时间序列分析 
    5)输入输出操作

    6)提升Python效率
    7)数学工具 
    8)随机分析 
    9)统计分析 
    10)数值分析技术

    11)使用Python操作Excel
    12)Python面向对象编程与图形用户界面 
    13)金融中的大数据技术概述 
    14)案例1:使用Python构建期权分析系统 
    15)案例2:使用Python构建简单的算法交易系统

    阶段四、数据分析专家(赠送)

    课程二十、数据分析专家之软技能 - 卓越的项目管理应用与实践

    通过本课程的学习,使学员能够正确、熟练地选择项目生命周期中,各阶段各场景中的技术、工具、方法,并根据项目实际情况灵活应用在项目管理中;掌握项目工具的设计思想,能根据项目实际情况设计和修改工具;提升学员对项目管理的全局眼光与思维方式。

      第一篇 项目管理基础

    1.基础与导读

    2.战略管理

    3.项目、群、组合与资源

    4.项目选择方法

      第二篇 体系解读与应用实践

    5.项目管理过程组

    6.十大知识领域

    7.项目策划、定义方法与实践

    8.项目资源预估方法及实践

    9.项目网络方法及实践

    10.风险管理方法及实践

    11.合同管理方法及实践

    12.质量管理方法及实践

    13.全局方法及实践

    课程二十一、数据分析专家之软技能 - 大道至简之软件开发从设计到编码全程实录

    本课程从无到有,搭建一个简易版的电商平台,并从不同角度分析设计此项目各个主要模块和功能点,将会应用到除迭器模式以外的所有GoF设计模式,旨在演示设计模式在项目中的实际应用,以及如何针对不同情况进行功能设计,希望可以帮助大家敲开设计之门。

      一、订单模块:

    1)多模块的业务状态跟踪处理的方式
    2)如何处理多模块循环引用、交叉引用的问题

      二、仓储模块 :

    1)如何灵活的预留功能扩展。

    三、成本核算管理: 

    1)如何动态的组装所需成本项。

      四、编号生成器:

    1)生成不重复的流水号,并支持各业务生成单独的流水号。
    2)生成不同格式要求,不同生成算法的流水号 
    3)对不同的文号生成进行缓存 
    4)实现业务工作量监控,比如新增业务量达到阀值,暂停收取新业务等

      五、消息模块:

    1)如何设计消息交互模块
    2)如何处理交互报文

      六、权限模块:

    1)如何实现API和SPI分离设计
    2)如何设计公共级别的接口,并提供足够的灵活性进行扩展

    课程二十二、数据分析专家之软技能 - 系统架构设计的原理、核心技术与案例分析

    本课程首先围绕普通开发人员如何向架构师转型这一课题,从架构师的角色以及转型过程中会遇到的困难及其解决方法切入展开讨论,总领整个课程。课程主体部分
    从软件架构体系结构、架构设计、技术体系等角度出发,详细介绍了架构师区别于一般开发人员所需要掌握的架构设计方法论与相关实践,包括架构风格与模式、领
    域驱动设计、类与框架设计、分布式系统架构设计、微服务架构设计、各种主流的技术体系与实践等内容。然后针对软件架构系统工程、业务模型设计、敏捷方法与
    实践、产品交付模型与质量控制等架构师所必须掌握的系统工程和过程管理知识以及应用进行详细阐述,确保其站在架构师的高度进行系统设计和开发完整生命周期
    的全局管理。作为技术团队的领导者,架构师同样需要具备相应的综合能力,课程的最后对架构师所需的各项软能力做全面介绍。

    一、程序员向架构师转型:

    1)整体课程概述
    2)架构设计基本概念和架构师角色剖析 
    3)软件架构过程以及架构师的视点和视角 
    4)程序员如何向架构师成功转型

    二、软件架构体系结构:

    1)软件架构体系结构概述
    2)架构风格之分发-订阅风格、管道-过滤器风格、Map-Reduce风格等 
    3)架构模式之基本模式、对象- 关系行为模式、Web表现模式、分布模式等
    4)架构模型之概念模型、领域模型、设计和代码模型等

    三、架构设计:

    1)领域驱动设计
    2)类与框架设计 
    3)微服务架构设计

    课程二十三、数据分析专家之硬技能 - Spark基础--快学Scala(未来大数据处理的主流语言)

    Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序
    。它也能运行于CLDC配置的Java ME中。目前还有另一.NET平台的实现,不过该版本更新有些滞后。Scala的编译模型(独立编译,动态类加载)与Java和C#
    一样,所以Scala代码可以调用Java类库(对于.NET实现则可调用.NET类库)。Scala包括编译器和类库,以及BSD许可证发布。 学习Scala编程语言,为后续学习Spark奠定基础。

    1)Spark的前世今生
    2)课程介绍、特色与价值 
    3)Scala编程详解:基础语法 
    4)Scala编程详解:条件控制与循环 
    5)Scala编程详解:函数入门 
    6)Scala编程详解:函数入门之默认参数和带名参数 
    7)Scala编程详解:函数入门之变长参数 
    8)Scala编程详解:函数入门之过程、lazy值和异常 
    9)Scala编程详解:数组操作之Array、ArrayBuffer以及遍历数组 
    10)Scala编程详解:数组操作之数组转换

    11)Scala编程详解:Map与Tuple
    12)Scala编程详解:面向对象编程之类 
    13)Scala编程详解:面向对象编程之对象 
    14)Scala编程详解:面向对象编程之继承 
    15)Scala编程详解:面向对象编程之Trait 
    16)Scala编程详解:函数式编程 
    17)Scala编程详解:函数式编程之集合操作 
    18)Scala编程详解:模式匹配 
    19)Scala编程详解:类型参数 
    20)Scala编程详解:隐式转换与隐式参数 
    21)Scala编程详解:Actor入门

    课程二十四、数据分析专家之硬技能 - 大数据Spark从入门到精通

    本课程主要讲解目前大数据领域最热门、最火爆、最有前景的技术——Spark。在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含
    完全从企业真实复杂业务需求中抽取出的案例实战。课程会涵盖Scala编程详解、Spark核心编程、Spark SQL和Spark Streaming、Spark内核以及源码剖析、性能
    调优、企业级案例实战等部分。完全从零起步,让学员可以一站式精通Spark企业级大数据开发,提升自己的职场竞争力,实现更好的升职或者跳槽,或者从j2ee等
    传统软件开发工程师转型为Spark大数据开发工程师,或是对于正在从事hadoop大数据开发的朋友可以拓宽自己的技术能力栈,提升自己的价值。

    1、Spark核心编程进阶
    2、Spark内核原理进阶 
    3、Spark SQL实战开发
    4、Spark Streaming实战开发
    5、Spark运维管理进阶

    课程二十五、数据分析专家之 BI 扩展技能 - 高端微软BI商业智能(SSIS数据仓库、SSAS MDX多维数数据集、Ssrs实战)(赠送)

    微软BI(BI,BusinessInteligence),微软商业智能。微软BI是一套完善、完全集成的 BI 技术,能够帮助降低组织和分发信息的复杂度,同时获得竞争优势、整体更
    明智的决策和更好的成果。Microsoft BI 通过三个层面或工作负载交付:数据仓库、报表与分析以及绩效管理。所有这一切都旨在提供整合的、全面的数据源和工
    具,以帮助改进决策制订。在我们看来,Microsoft BI 的承诺就是:帮助组织内所有层面的决策者对其决策所支持的企业目标与计划充满信心。从技术层面上来讲,
    Microsoft BI由三大部分以及其他的协同平台组成, 它们分别是SSIS, SSAS, SSRS以及与office, sharepoint产品. 通常我们所说的Microsoft BI, 指的主要是
    SSIS, SSAS, SSRS三大部分. 通过这几个部分的学习, 我们就能建立起完善强大的BI体系, 这也是我们课程的最主要讲解的知识点。

    1)商业智能的概念及初步体验
    2)SSIS整体及常用对象概述 
    3)SSIS控件 
    4)SSIS表达式 
    5)SSIS实战 
    6)SSAS-前言及MDX基础 
    7)SSAS-MDX基本查询 
    8)SSAS-MDX基础函数 
    9)SSAS-MDX导航函数 
    10)SSAS-经典MDX语句

    11)SSAS-开发多维数据库
    12)SSAS-度量值详解 
    13)SSAS-KPI, 与多维数据集的交互和其他
    14)SSAS-创建ADM_BF_SSAS以及小结 
    15)WEB报表-项目回顾以及搭建web框架 
    16)WEB报表-权限系统 
    17)WEB报表-使用ADOMD.NET 
    18)WEB报表-功能分析 
    19)SRS-前言 
    20)SSRS-基础报表

    课程二十六、数据分析专家之 BI 扩展技能 - 中小型企业商业智能平台的开发和实现(数据仓库、BI系统、真实项目)(赠送)

    本课程以公共卫生领域高血压的管理为实际应用场景,为高血压管理系统建立数据仓库,进行数据分析。本课程一共分为四个章节,76讲。第一章主要介绍了商业
    智能系统的发展,从商业智能的学科范围、演化史、应用案例到自然演化式的体系结构,以及面临的问题,再讲到数据仓库以及开发方法。第二章主要解析了数据仓
    库的一些主要术语,例如,分区、粒度、维度、度量值、多维数据模型以及DW2.0。第三章讲述了如何设计数据仓库,引入了元数据的概念。第四章是整个课
    程中课时最多的部分,花了比较多的时间从头到尾搭建了一个BI系统,最终是以Web Service的方式供第三方调用。

    一、理论讲解部分:

    1.商业智能系统的发展
    2.数据仓库的主要术语解析 
    3.如何设计数据仓库

    二、项目实战部分:

    1. 操作性数据库的准备和分析
    2.创建数据库、时间维度表 
    3.编写存储过程为时间维度表添加数据 
    4.建立其他维表 
    5.分析操作型数据库中的数据情况、确定分区和粒度、建立事实表 
    6.增加Gender维度,GZYS维度,Age维度并添加数据 
    7.Extract, Transform, Load-Sp框架搭建及编写
    8.ODS表 
    9.修改调试ETL的存储过程 
    10.加入校验机制并完善ETL

    阶段五、机器学习/深度学习研究员

    课程二十七、机器学习/深度学习研究员之硬技能-贝叶斯方法与机器学习及实践

    本课程先基于PyMC 语言以及一系列常用的Python 数据分析框架,如NumPy、 SciPy 和Matplotlib,通过概率编程的方式,讲解了贝叶斯推断的原理和实现方法。 该方法常常可以在避免引入大量数学分析的前提下,有效地解决问题。课程中使用的 案例往往是工作中遇到的实际问题,有趣并且实用。通过对本课程的学习,学员可以 对贝叶斯思维、概率编程有较为深入的了解,为接下来的机器学习打下基础;接下来 以Python 编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,讲师 逐步带领学员熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具, 如Scikit、Google Tensorflow 等;同时会着重讲解两类机器学习的核心的“算法族”, 即惩罚线性回归和集成方法,并通过代码实例来展示所讨论的算法的使用原则等。

     

    1.使用计算机执行贝叶斯推断

    2.了解PyMC

    3.MCMC 的黑盒子

    4.大数定律

    5.损失函数

    6.主观与客观先验

    7.贝叶斯AB 测试

    8.关于预测的两类核心算法

     

    9、“岩石vs 水雷”数据集的特性

    10.基于因素变量的实数值预测

    11.预测模型的构建:平衡性能、复杂性以及大数据

    12.惩罚线性回归模型

    13.使用惩罚线性方法来构建预测模型

    14.集成方法

    15.用Python 构建集成模型

    课程二十八、机器学习/深度学习研究员之硬技能- 深度学习与TensorFlow 实战

    本课程希望用简单易懂的语言带领大家探索TensorFlow(基于1.0 版本API)。 课程中讲师主讲TensorFlow 的基础原理,TF 和其他框架的异同。并用具体的代码完 整地实现了各种类型的深度神经网络:AutoEncoder、MLP、CNN(AlexNet, VGGNet,Inception Net,ResNet)、Word2Vec、RNN(LSTM,Bi-RNN)、 Deep Reinforcement Learning(Policy Network、Value Network)。此外,还讲解 了TensorBoard、多GPU 并行、分布式并行、TF.Learn 和其他TF.Contrib 组件。本课程能帮读者快速入门TensorFlow 和深度学习,在工业界或者研究中快速地将想法 落地为可实践的模型。

     

    1.TensorFlow 基础

    2.TensorFlow 和其他深度学习框架的对比

    3.TensorFlow 第一步

    4.TensorFlow 实现自编码器及多层感知机

    5.TensorFlow 实现卷积神经网络

     

     

    6.TensorFlow 实现经典卷积神经网络

    7.TensorFlow 实现循环神经网络及Word2Vec

    8.TensorFlow 实现深度强化学习

    9.TensorBoard、多GPU 并行及分布式并行

    课程二十九、机器学习/深度学习研究员之硬技能- 推荐系统

    本课程重点讲解开发推荐系统的方法,尤其是许多经典算法,重点探讨如何衡量 推荐系统的有效性。课程内容分为基本概念和进展两部分:前者涉及协同推荐、基于 内容的推荐、基于知识的推荐、混合推荐方法,推荐系统的解释、评估推荐系统和实 例分析;后者包括针对推荐系统的攻击、在线消费决策、推荐系统和下一代互联网以 及普适环境中的推荐。课程中包含大量的图、表和示例,有助于学员理解和把握相关 知识等。

    1.协同过滤推荐

    2.基于内容的推荐

    3.基于知识的推荐

    4.混合推荐方法

    5.推荐系统的解释

    6.评估推荐系统

    7.案例研究

    课程三十、机器学习/深度学习研究员之硬技能-人工智能(选修)

    本课程主要讲解人工智能的基本原理、实现技术及其应用,国内外人工智能研究 领域的进展和发展方向。内容主要分为4 个部分: 第1 部分是搜索与问题求解,系 统地叙述了人工智能中各种搜索方法求解的原理和方法,内容包括状态空间和传统的 图搜索算法、和声算法、禁忌搜索算法、遗传算法、免疫算法、粒子群算法、蚁群算 法和Agent 技术等;第2 部分为知识与推理,讨论各种知识表示和处理技术、各种 典型的推理技术,还包括非经典逻辑推理技术和非协调逻辑推理技术;第3 部分为学 习与发现,讨论传统的机器学习算法、神经网络学习算法、数据挖掘和知识发现技术; 第4 部分为领域应用,分别讨论专家系统开发技术和自然语言处理原理和方法。通 过对这些内容的讲解能够使学员对人工智能的基本概念和人工智能系统的构造方法 有一个比较清楚的认识,对人工智能研究领域里的成果有所了解。

    展开全文
  • 忙了一个星期,把最近的笔试面试记录一下。京东前面单选多选题,后面3道编程题。小题考的很细,各种概率论统计数据库机器学习的知识点,很多都是蒙的,默默的把不会的题记下来,等再学会怎么做了以后发现蒙的都错了...

    忙了一个星期,把最近的笔试面试记录一下。

    京东前面单选多选题,后面3道编程题。小题考的很细,各种概率论统计数据库机器学习的知识点,很多都是蒙的,默默的把不会的题记下来,等再学会怎么做了以后发现蒙的都错了。。。。

    AC:

    def isluckytime(l):
        spl = l.split(':')
        if spl[0]==spl[1]:
            return True
        if spl[0]==spl[1][::-1]:
            return True
        if spl[0][0]==spl[0][1] and spl[1][0]==spl[1][1]:
            return True
        return False
    m = int(input())
    s = input().split()
    n = 0
    for i in range(m):
        if isluckytime(str(s[i])):
            n = n+1
    print(n)
    

    AC:

    t=int(input())
    Ns=[]
    for i in range(t):
        Ns.append(int(input()))
        
    def isXY(n):
        if n%2==1:
            print('No')
        else:
            x=n
            while x%2==0:
                x=x/2
            y=n/x
            print(int(x),int(y))
        
    
    for n in Ns:
        isXY(n)
    

    没做出来TAT

    顺便笔试已通过,收到一面通知了。

    展开全文
  • 1、多种数据库存储的特点与IO速度优化的原理; 2、 科学计算常用模块的使用(如Numpy、Pandas、MatplotLib);
  • 有朋友留言问:面试数据分析相关工作,面试官让我说说数据工程师数据分析师的区别在哪里,怎么回答?1.千万别用一句话就说完区别,而是通过多个维度比较来罗列出区别。这样不仅能让面试官看到你...

    有朋友留言问:面试数据分析相关工作,面试官让我说说数据工程师和数据分析师的区别在哪里,怎么回答? 

    1.千万别用一句话就说完区别,而是通过多个维度比较来罗列出区别。这样不仅能让面试官看到你真的懂这两个职位,还能让面试官看出你具备多维度拆解分析方法、对比分析方法的思维能力。 

    2.你可以从职责、日常工作内容、所需掌握的技能、发展方向这4个维度来展开比较。 

    3.职责维度来看,数据工程师偏重于清洗数据,使其可以被数据分析师和数据科学家使用。而数据分析师偏重于使用分析方法来分析已经清洗过的数据,从而得到对实际应用场景有意义和有指导价值的数据结论。可以很明显的看出来,数据工程师偏开发,数据分析师偏业务。 

    4.如果把数据比喻成食材,那么数据工程师就是负责建立冷冻柜(数据库),保证食材新鲜优质的供应商,而数据分析师就是负责将食材做成美味菜品的厨师。 

    5.日常工作内容维度来看,数据工程师的最终目的是实现数据管理,所以其工作是围绕将数据整理成标准格式,从而达到降低存储成本、优化查询效率以及备份方案等目标。

    而数据分析师是专门负责应用数据的,也就是从数据中找出能驱动解决业务问题的关键点,最后用可视化软件将结论展现给客户或高层领导。 

    6.从所需掌握的技能维度来看,数据工程师的工作重点在于数据架构、计算、数据存储、数据流等,所以开发能力和大规模的数据处理能力是作为数据工程师的一些必备技能。

    因为数据工程师还负责数据库设计、数据仓储,这就意味着他们必须十分熟悉现有的数据库技术和数据管理系统,比如和大数据有关的Hadoop与HBase 等。 

    而数据分析师更偏重于解决业务问题,所以了解业务、懂常用的分析方法、会跨部门沟通是他们需要的必备技能。 

    7.发展方向维度来看,数据工程师则可以往数据架构师、数据挖掘工程师等方向发展,而数据分析师可以往数据产品经理、数据挖掘工程师、业务经理等方向发展。

    它们还有一个共同的发展方向,那就是数据科学家。数据科学家就是同时具备数据工程师和数据分析师两种职业技能的人才。 

    推荐:如何从零学会数据分析提升职场核心竞争力?

    展开全文
  • 现在很多做数据分析的公司,做etl开发的全是女生,公司做技术岗三分一女生基本上都是在ETL工程师。 所以如果喜欢可以放心的去学习,现在etl开发的市场需求量大,目前在国内这个领域还是蓝海,职业前景方面工资也很...
  • 大数据行业经过几年的发展和沉淀,大数据项目岗位细分领域已经趋于完善,本文主要探讨在大数据分析这个领域,通过爬虫爬取各个招聘网站的相关数据,对细分岗位进行深入分析,本文的呈现,感谢科多大数据数据分析培训...
  • 数据分析师,BI开发人员,数据科学家和数据工程师的角色分别是什么?
  • 从程序媛到数据分析师,我靠数据可视化,月薪3W

    千次阅读 多人点赞 2019-12-06 10:11:30
    我是一个普通到不能再普通的一个大数据分析工程师,在数据岗位奋战了几年,已经从初入职场的小白变成了如今的老鸟,面对男同事“这个你能行吗”的质疑,我也只会切地一声,然后飞快地把数据分析好,只留下他们错愕的...
  • 学习Python的各位该如何选择自己的职业方向,算法工程师还是数据分析师?跟随本文一起看看吧! 01 数据获取与处理 本次样本数据采集于拉勾网,因为本文的重点是招聘数据分析,而在之前的文章中我们讲解过很多次...
  • 最近我身边很多同行都在感慨,这两年和数据相关的岗位特别多,而且薪资特别高。不过我们也都有一种感觉,虽然数据分析岗的重要性提高了,但大家也把数据分析的岗位需求提升了!115 年,会用个 E...
  • 数据工程师建设和优化系统。这些系统帮助数据科学家和...数据工程师建立了数据分析师和数据科学家依赖的基础。数据工程师对构造数据管道并且经常需要去使用复杂的工具和技术来管理数据负责。不想前面说的两个事业...
  • 数据分析师:基于业务,通过数据分析手段发现和分析业务问题,为决策作支持。 数据挖掘工程师:偏技术,通过建立模型、算法、预测等提供一些通用的解决方案,当然也有针对某业务的。 数据研发工程师:一般也叫数据...
  • 从需求分析师到数据仓库架构师、ETL工程师、数据分析工程师、报表开发工程师、数据挖掘工程师等,都可以称为BI工程师。 ETL工程师:从事系统编程、数据库编程和设计,掌握各种常用编程语言的专业技术人员。也称为...
  • 参与大数据平台的搭建和优化,包括Hadoop,spark,Kafka,ELK等软件的配置和系统优化。计算学习基础算法,使用Java语言和python语言实现数据处理,熟悉spark和MapReduce。了解AMOS,DEA,Frontier,统计分析的基本步骤
  • 数据分析师的岗位要求和工作流程

    千次阅读 多人点赞 2019-05-06 14:42:24
    数据正在变得越来越常见,而数据分析的价值也越来越凸显。那么数据分析师应该具备哪些技能? 要明确学习的路径,最有效的方式就是看具体的职业、工作岗位对于技能的具体需求。 从各大招聘网站上找了一些最具有...
  • oppo数据分析1面

    千次阅读 2019-05-12 17:37:27
    自我介绍 sql常用的操作(select groupby having caseone) 昨天的收入下降了5%如何分析 你认为数据分析师所应该具备的能力有哪些
  • 数据分析工作内容: a.临时取数分析,比如双11大促活动分析;产品的流量转化情况、产品流程优化分析,等等; b.报表需求分析–比如企业常见的日报、周报、月报、季报、年报、产品报表、流量转化报表、经营分析报表、...
  • 1. 大数据工程师  在互联网公司广泛招聘,偏平台业务方向,ETL和OLTP等,主要是基于Hadoop技术栈来处理大数据,算法要求不是特别高。  经典图书推荐:《Hadoop权威指南》《Hive编程指南》《Hbase权威指南》...
  • 数据科学家、数据工程师数据分析师已经成为大数据行业最热门的职位。它们是如何定义的?具体是做什么工作的?需要哪些技能 一、首先,看看这3个职业是如何定位的? 1.数据科学家是个什么样的存在 数据科学家是指能...
  • 大数据分析师 VS. 大数据工程师

    千次阅读 2018-11-07 10:19:47
    数据分析师 指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。 互联网本身具有数字化和互动性的特征,这种属性特征给数据搜集、整理、研究带来了革命性的突破...
  • 对于数据分析,有一句话说的非常好:spss/sql之类的软件、决策树、时间序列之类的方法,这些仅仅就都是个工具而已,最重要的是对业务的把握。没有正确的业务理解,再牛的理论,再牛的工具,都是白搭。做一名合格的...
  • 廖雪峰 数据分析全栈工程师 百度云 百度网盘下载 1快速入门:认知数据分析 数据分析概念 ·数据分析是什么:数据分析概念及应用场景 ·数据分析分析什么:分析方法、应用领域 数据分析价值 ·通过数据...
  • 7道常见的数据分析面试题

    万次阅读 多人点赞 2019-02-27 10:32:20
    数据分析师近几年在国内互联网圈越来越火,很多开发都因为薪资和发展前景,希望转行到数据分析岗。今天,我们就来聊聊面试数据分析师的那些事。 其实,数据分析能力是每个互联网人的必备技能,哪怕你没有转行数据...
  • 数据分析师一般用数据工程师提供的现成的接口来抽取新的数据,然后取发现数据中的趋势。同时也要分析异常情况。数据分析师以一种清晰的方式来概括和提出他们的结果来让非技术的团队更好的理解他们现在...
  • 不管是你使用Siri,google搜索,还是浏览facebook的好友动态,你都在消费者数据分析的结果。我们赋予了数据如此大的转变的能力,也难怪近几年越来越多的数据相关的角色被创造出来。 这些角色的职责范围,从预测未来...
  • 大数据时代已经来临,对复杂凌乱的数据进行整合分析,获取有用的信息,去支撑政策的制定、决策的形成以及...这个团队中可能包括数据工程师分析师、产品专员、市场专员和商业决策者等角色,共同完成从原始数据到商...
  • 从需求分析师到数据仓库架构师、到etl工程师数据分析,报表开发工程师、数据挖掘工程师、etc.,都可以称之为BI工程师。 etl工程师:是从事系统编程、数据库编程与设计,要掌握各种常用的编程语言的专业技术人员。...
  • 如何成为一名真正的数据分析师或者数据工程师

    万次阅读 多人点赞 2017-07-01 15:44:45
    数据分析的坑很大,一开始走上这条路,就要明确基本的方向,依托于核心的思想,不然只会越走越偏,最后觉得山太高水太深,不了了之。 1.数据与数据分析 数据其实就是对事物特征的定性指称以及量化描述,...
  •  不少朋友都很困惑,大数据工程师数据分析师有什么区别,哪一个的就业好薪资高? 首先我们来区别下大数据工程师数据分析师: 1、概念区别 数据分析师,是数据师的一种,专门从事行业数据搜集、整理、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 285,675
精华内容 114,270
关键字:

数据分析工程师

友情链接: ITlearner_CuteLink.zip