精华内容
下载资源
问答
  • 京东2019春招京东数据分析类试卷(来源:牛客网) 题型 客观题:单选27道,不定项选择3道 完成时间 120分钟 1. 在软件开发过程中,我们可以采用不同的过程模型,下列有关增量模型描述正确的() A. 已使用一种线性...

    开启一个新的系列 —— 「数据分析真题日刷」。七月临近,备战秋招,加油鸭!

    • 今日真题
      京东2019春招京东数据分析类试卷(来源:牛客网)
    • 题型
      客观题:单选27道,不定项选择3道
    • 完成时间
      120分钟

    ❤️ 「更多数据分析真题」

    《数据分析真题日刷 | 目录索引》

    1. 在软件开发过程中,我们可以采用不同的过程模型,下列有关增量模型描述正确的()

    A. 已使用一种线性开发模型,具有不可回溯性
    B, 把待开发的软件系统模块化,将每个模块作为一个增量组件,从而分批次地分析、设计、编码和测试这些增量组件
    C. 适用于已有产品或产品原型(样品),只需客户化的工程项目
    D. 软件开发过程每迭代一次,软件开发又前进一个层次

    正确答案: B

    ?增量模型

    增量模型也称为渐增模型,是把待开发的软件系统「模块化」,将每个模块作为一个增量组件,从而分批次地分析、设计、编码和测试这些增量组件。

    • 优点
      (1)将待开发的软件系统模块化,可以「分批次地提交软件产品」,使用户可以及时了解软件项目的进展。
      (2)以组件为单位进行开发「降低了软件开发的风险」。一个开发周期内的错误不会影响到整个软件系统。
      (3)「开发顺序灵活」。开发人员可以对组件的实现顺序进行优先级排序,先完成需求稳定的核心组件。当组件的优先级发生变化时,还能及时地对实现顺序进行调整。
    • 缺点
      (1)要求待开发的软件系统可以被模块化。如果待开发的软件系统很难被模块化,那么将会给增量开发带来很多麻烦。

    (来源:百度百科

    2. 一颗二叉树的前序遍历是ABCDFGHE,后序遍历是BGHFDECA,中序遍历是?

    A. GHBADFCE
    B. DGBAFHEC
    C. BADGFHCE
    D. BAGDFHEC

    正确答案:C

    ?二叉树的前序、中序、后序三种遍历
    在这里插入图片描述
    (来源:https://blog.csdn.net/qq_33243189/article/details/80222629)

    我个人的二叉树结构如下图,仅供参考。
    在这里插入图片描述

    3.关于TCP协议的描述,以下错误的是?

    A. 面向连接
    B. 可提供多播服务
    C. 可靠交付
    D. 报文头部长,传输开销大

    正确答案:B

    ?TCP协议

    TCP(Transmission Control Protocol
    传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC 793定义。

    (来源:百度百科

    对B选项, TCP不提供广播或多播服务

    ​对D选项,由于TCP要提供可靠的面向连接的传输服务,因此增加了许多开销,确认、流量控制、计时器及连接管理等

    4.以下命令用于设置环境变量的是:

    A. export
    B. cat
    C. echo
    D. env

    正确答案:A

    ?关于环境变量的命令
    export: 设置环境变量
    echo:查看是否成功
    env:显示所有的环境变量
    set:显示所有本地定义的Shell变量
    unset:清除环境变量

    5.数据库事务的特性不包含:

    A. 原子性
    B. 并发性
    C. 一致性
    D. 持久性

    正确答案:B

    ?数据库事务的四大特性:原子性、一致性、隔离性、持久性

    (1)原子性(Atomicity)
    原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的 操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影 响。

    (2) 一致性(Consistency)

    一致性是指事务必须使数据库从一个一致性状态变换到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态。

    (3)隔离性(Isolation)

    隔离性是当多个用户并发访问数据库时,比如操作同一张表时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离。

    (4)持久性(Durability)

    持久性是指一个事务一旦被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。

    (来源:百度知道《数据库事务四大特性是什么?》)

    6.索引是对数据库表中一个或多个列的值进行排序的数据结构,以协助快速查询、更新数据库表中数据。以下对索引的特点描述错误的是:

    A. 加快数据的检索速度
    B. 加速表和表之间的连接
    C. 在使用分组和排序子句进行数据检索时,并不会减少查询中分组和排序的时间
    D. 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性

    正确答案:C

    ?索引的特点

    • 创建索引的好处
      (1)通过创建索引,可以在查询的过程中,提高系统的性能
      (2)通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性
      (3)在使用分组和排序子句进行数据检索时,可以减少查询中分组和排序的时间
    • 创建索引的坏处
      (1)创建索引和维护索引要耗费时间,而且时间随着数据量的增加而增大
      (2)索引需要占用物理空间,如果要建立聚簇索引,所需要的空间会更大
      (3)在对表中的数据进行增加删除和修改时需要耗费较多的时间,因为索引也要动态地维护

    (来源:《数据库索引》https://blog.csdn.net/qq_36071795/article/details/83956068

    7. 如果ORDER BY子句后未指定ASC或DESC,默认使用以下哪个?

    A. DESC
    B. ASC
    C. 不存在默认值
    D. 其它选项都不对

    正确答案:B

    8.关于Python中的复数,下列说法错误的是()

    A. 表是复数的语法是real + image j
    B. 实部和虚部都是浮点数
    C. 虚部必须后缀j,且必须小写
    D. 方法conjugate返回复数的共轭复数

    正确答案:C

    ?Python中的复数
    (1)表是复数的语法是real + image j
    (2)实部和虚部都是浮点数
    (3)虚部后缀可以是 j 或 J
    (4)方法conjugate返回复数的共轭复数

    9.执行以下shell语句,可以生成/test文件的是(假定执行前没有/test文件):

    A. touch /test
    B. a=touch /test
    C. >/test
    D. echo ‘touch /test’

    正确答案:A B C
    (待解析,欢迎评论指导~)

    10. if [ $2 -a $2 = “test” ]中 -a是什么意思

    A. 大于
    B. 减
    C. 全部
    D. 并且

    正确答案:D

    ? Linux_shell的逻辑判断

    -a
    -o
    !

    11.文件目录data当前权限为rwx — ---,只需要增加用户组可读权限,但不允许写操作,具体方法为:

    A. chmod+050data
    B. chmod+040data
    C. chmod+005data
    D. chmod+004data

    正确答案:A

    参考解析:

    使用chomd命令改变文件权限。Linux文件基本权限有9个,owner,group,others三种身份对应各自read,write,execute三种权限。文件权限字符:“-rwxrwxrwx”三个一组。数字化r:4
    w:2 x:1 增加用户组可读,但不可写,第一组和第三组默认为0,只在第二组中添加r-x即可 chomd +050

    (来源:牛客网,https://www.nowcoder.com/questionTerminal/2276e48a891f4ddfaee6bbacec1d5860?orderByHotValue=1&page=1&onlyReference=false)

    (欢迎在评论区解析指导~)

    12.以下哪个模型是生成式模型:

    A. 贝叶斯模型
    B. 逻辑回归
    C. SVM
    D. 条件随机场

    正确答案:A

    ?生成式模型 ? 判别式模型

    (1)区别与联系
    生成式模型对联合分布P(x,y)建模,而判别式模型对P(y|x)建模。
    生成式模型可以通过贝叶斯公式得到判别式模型,而判别式模型不能得到生成式模型。

    (2)常见生成式模型
    朴素贝叶斯,隐马尔科夫模型,高斯混合模型,贝叶斯网络
    (3)常见判别式模型
    KNN,SVM,决策树,线性回归,boosting,条件随机场,感知机,传统神经网络,逻辑斯蒂回归,CART

    13. 下列关于计算机存储容量单位的说法中,错误的是()

    A. 1KB<1MB<1GB
    B. 基本单位是字节(Byte)
    C. 一个汉字需要一个字节的存储空间
    D. 一个字节能够容纳一个英文字符

    正确答案:C

    一个汉字需要两个字节,一个英文字符需要一个字节的储存空间。

    14.以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:

    A. logistic回归
    B. SVM
    C. 树形模型
    D. 神经网络

    正确答案:C

    ?归一化处理

    Tree-based models doesn’t depend on scaling

    Non-tree-based models hugely depend on scaling

    对数模型,数值缩放不影响分裂点位置,因此特征值排序的顺序不变,那么所属的分支以及分裂点就不会有不同。

    15. 从使用的主要技术上看,可以把分类方法归结为哪几种类型

    A. 规则归纳方法
    B. 贝叶斯分类方法
    C. 决策树分类方法
    D. 基于距离的分类方法

    正确答案:A B C D

    ?分类方法四种类型
    (1)基于距离的分类方法(最临近方法);
    (2)决策树分类方法(ID3和C4.5算法);
    (3)贝叶斯分类方法(朴素贝叶斯算法和EM算法);
    (4)规则归纳(AQ算法、CN2算法和FOIL算法)等。

    (待补充规则归纳的知识~)

    16.数据挖掘的挖掘方法包括:( )

    A. 聚类分析
    B. 回归分析
    C. 神经网络
    D. 决策树算法

    正确答案:A B C D

    17.检测一元正态分布中的离群点,属于异常检测中的基于( )的离群点检测

    A. 统计方法
    B. 邻近度
    C. 密度
    D. 聚类技术

    正确答案:A

    18. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:

    A. 1比特
    B. 2.6比特
    C. 3.2比特
    D. 3.8比特

    正确答案:B

    ?
    H=
    H = - 6 * (1/6) * log 2(1/6) = 2.58

    19. 以下相关关系取值,哪个蕴含了无关系?

    A. Cor(X, Y) = 1
    B. Cor(X, Y) = 0
    C. Cor(X, Y) = 2
    D. 其他都是

    正确答案:B

    20. 下列关于大数据的分析理念的说法中,错误的是()

    A. 在数据基础上倾向于全体数据而不是抽样数据
    B. 在分析方法上更注重相关分析我不是因果分析
    C. 在分析效果上更追究效率而不是绝对精确
    D. 在数据规模上强调相对数据而不是绝对数据

    正确答案:D

    21. 置信概率可以用来评估区间估计的什么性能

    A. 精确性
    B. 显著性
    C. 规范性
    D. 可靠性

    正确答案:D

    ?置信度

    置信度(置信水平)是也称为可靠度,或置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。是指正确的概率。(1-α 为置信度或置信水平其表明了区间估计的可靠性)

    (来源:https://blog.csdn.net/u014689510/article/details/50358258)

    22. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?

    A. 探索性数据分析
    B. 建模描述
    C. 预测建模
    D. 寻找模式和规则

    正确答案:B
    (待解析~)

    23. 下列关于普查的缺点的说法中,正确的是()

    A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象
    B. 误差不易被控制
    C. 对样本的依赖性比较强
    D. 评测结果不够稳定

    正确答案:A

    ? 普查的优缺点

    • 优点
      (1)由于是调查某一人群的所有成员,所以在确定调查对象上比较简单;
      (2)所获得的资料全面,可以知道全部调查对象的相关情况,准确性高;
      (3)普查所获得的数据为抽样调查或其他调查提供基本依据。
    • 缺点
      (1)工作量大,花费大,组织工作复杂;
      (2)调查内容有限;
      (3)易产生重复和遗漏现象;
      (4)由于工作量大而可能导致调查的精确度下降,调查质量不易控制。

    (来源:百度百科

    24. 数据科学家使用的统计方法有( )

    A. 马尔科夫过程
    B. 等价划分类
    C. 线性累加
    D. 不知道

    正确答案:A

    25.在下列算法中,对于缺失值敏感的模型为:

    A. 随机森林
    B. Logistic Regression(逻辑回归)
    C. C4.5
    D. 朴素贝叶斯

    正确答案:B
    AC基于树模型,对缺失值敏感度低;D朴素贝叶斯对缺失值也比较稳定;B逻辑回归是线性模型,对缺失值敏感。

    ?缺失值对模型的影响

    (1)树模型对于缺失值敏感度低,其本身就可以把缺失值当成一类;
    (2)基于距离度量的模型对于缺失值敏感度高,如K近邻算法(KNN)和支持向量机(SVM);
    (3)线性模型的代价函数(loss function)往往涉及到距离的计算,计算预测值和真实值之间的差别,这容易导致对缺失值敏感;
    (4)神经网络对缺失值不是非常敏感;
    (5)贝叶斯对缺失值也比较稳定,数据量小的时候推荐。

    总结来看,对于有缺失值的数据在经过缺失值处理后:

    • 数据量很小,用朴素贝叶斯
    • 数据量适中或者较大,用树模型,优先 xgboost
    • 数据量较大,也可以用神经网络
    • 避免使用距离度量相关的模型,如KNN和SVM

    26. 京东仓库中对某种商品进行合格性检验,已知这种商品的不合格率为0.001,即1000件商品中会有一件次品。现有现有一种快速检验商品方法,它的准确率是0.99,即在商品确实是次品的情况下,它有99%的可能抽检显示红色。它的误报率是5%,即在商品不是次品情况下,它有5%的可能抽检显示红色。现有有一件商品检验结果为红色,请问这件商品是次品的可能性有多大?

    A. 0.01
    B. 0.02
    C. 0.03
    D. 0.04

    正确答案:B

    ?考点:贝叶斯公式

    解析题目:
    已知 : P(次品)= 0.001, P(红|次品)= 0.99, P(红|正品) = 0.05
    则,
    P(正品)=1 - 0.001 = 0.999,
    P(红色且次品) = P(红|次品) x P(次品)
    P(红色且正品) = P(红|正品) x P(正品)
    P(红) = P(红色且次品) + P(红色且正品)=0.99x0.001 + 0.05x0.999=0.05094
    根据贝叶斯公式,
    P(次品|红)= P(红|次品) x P(次品) / P(红)= 0.99 x 0.001 / 0.05094 = 0.02

    27.有30个需要渡河,只有一条船,船每次最多载4人(包括划船的人),往返一次需要5分钟。那么,21分钟后,还有几个人在等待过河?( )

    A. 10
    B. 11
    C. 15
    D. 16

    官方答案:B
    民间答案:14
    (待解析~)

    28. 一批商品,甲乙合作生产需要10天完成,乙丙两人合作生产需要12天。现在油甲丙合作生产4天,剩下的交由乙单独生产,还需要12天才能完成。如果该批商品由乙单独完成,需要多少天?( )

    A. 15
    B. 18
    C. 20
    D. 25

    正确答案:A

    题目解析
    设甲乙丙单独完成分别需要x,y,z天,则
    10 *(1/x + 1/y )= 1
    12 * (1/y + 1/z ) = 1
    4 * (1/x + 1/z ) + 12/y = 1
    联立方程组,解得 y = 15

    29.下图显示的是2018年某产品在五个区域的经营状况,请问2017年哪个地区的产品产值最高?()
    在这里插入图片描述

    A. 东北
    B. 华北
    C. 华中
    D. 华南
    E. 西南

    正确答案:C

    ?考点:增长率

    题目解析
    倒推去年的产值,
    例如,东北2017 = 2471.5 / 1.0780 = 2292.67,以此类推计算。

    30. 下表为我国某产品2018下半年的进口额情况,请问6-12月当中,其中有几个月的增长率是超过了10%的?( )
    在这里插入图片描述

    A. 4
    B. 3
    C. 2
    D. 1

    官方答案:B
    民间答案:A

    ?考点:增长率
    6-7月份增长率 = 1551/1435 -1 = 0.0808
    以此类推计算。

    小结

    做的第一份套题,几点感受:
    (1)数据分析岗位的笔试内容还挺广泛的,远非统计学和机器学习,还有很多是自己不会的;
    (2)一些接触过的知识却掌握不扎实;
    (3)线上答题总是没选上答案,交卷前要检查。

    Anyway,只管努力,大家一起加油吧。

    展开全文
  • jdDA-data-analysis:京东数据分析系统---数据分析模块
  • 【笔试】京东数据分析暑期实习

    千次阅读 2019-04-20 17:22:50
    京东数据分析的笔试是20道选择+2道编程题。(都不是很难) 其他大厂如腾讯提前批5道编程,腾讯正式批是2、30道选择+2道编程,头条4道编程,网易游戏选择+问答(要写SQL和2道分析问题),阿里选择+SQL+2道分析。还...

    时间:2019年4月13日,晚上7:00~9:00

    京东暑期实习是我参加的最后一个公司的笔试,也是唯一过了的笔试。(因为一直忙的没时间准备,就直接拿笔试当学习机会。)京东数据分析的笔试是20道选择+2道编程题。(都不是很难)

    其他大厂如腾讯提前批5道编程,腾讯正式批是2、30道选择+2道编程,头条4道编程,网易游戏选择+问答(要写SQL和2道分析问题),阿里选择+SQL+2道分析。还在同一天考了中国银行,真的几乎就是公务员行测题+计算机基础。

    以上编程感觉还是用c/c++顺手,被迫无奈我又去翻了翻已经忘了的知识。

    (1)选择题主要是概率论和机器学习之类的,记不太清了。

    (2)编程题

    ①是一个以01组成的数,结尾可以选任意位数放到最前面,看最多有多少个连续的1,如11011,可以移动为11110,长度就是4。我写的只通过了27%,就不放代码了。

    ②大意是一组从1开始的顺序数字,可以把移动任意位置数放在最前面,输入一个序列,问最少几次变化可以得到它。如21345,就是由12345变换1次得到,34125是最少变换2次得到的。第一行输入n,第二行输入数组,最后输出几次(一个数字)。

    下面是我的代码,题比较简单,但我可能写的有一丢丢啰嗦,好在是通过了。

    #include <iostream>
    using namespace std;
    
    int main(){
        int n,i;
        cin>>n;
        int num[n];
        for(i=0;i<n;i++){
            cin>>num[i];
        }
        int flag;
        flag = 0;
        for(i=0;i<n-1;i++)
        {
            if(num[i]>num[i+1]){
                if(i+1>flag)
                flag = i+1;
            }
        }
        cout<<flag;
        return 0;
    }

    等我面试完再来记一下面试题。。。

    展开全文
  • 那么,要想在这寸金寸“流量”里杀出一条血路,京东商家该如何做好数据分析?做好数据分析的前提,就是先获取数据。慢慢买大数据「市场洞察」系统,支持查看京东平台全品类销售数据,包括行业、品牌、店铺、单品等多...

    在京东开店,不了解行情?商场如战场,想做好电商,不仅要掌握自己店铺的情况,还要了解市场的整体行情,让规划有的放矢;了解竞争对手,让决策万无一失。搞清楚行业竞品的数据,这样我们才能更好的去应对竞争挑战,从而在这个商战中占有我们的一席之地。

    在这里插入图片描述

    那么,要想在这寸金寸“流量”里杀出一条血路,京东商家该如何做好数据分析?做好数据分析的前提,就是先获取数据。慢慢买大数据「市场洞察」系统,支持查看京东平台全品类销售数据,包括行业、品牌、店铺、单品等多维度细分数据。

    一、行业分析

    要做行业分析,首先要了解行业整体的销售情况,要得出的结论是,该类目是处于一个上升的趋势还是下降的趋势?该类目是否还有潜力?该类目是否已经饱和?从而调整店铺产品的布局,提选合适的主推,做到顺势而为,事半功倍。

    使用「市场洞察」系统,京东商家就能查看到整个行业的大盘数据,包括销量、销额、均价、品牌数量、店铺数量、动销商品数及各个维度的环比变化情况。同时,所有数据最多都可查询到三级细分品类。

    在这里插入图片描述

    *数据源于慢慢买「市场洞察」

    其次,根据行业每个月,乃至每周的销售变化情况,我们就能掌握到行业整体的发展趋势。在「市场洞察」中,商家可以自行选择自2020年3月份开始的任意月/周数据进行销量、销额和整体大盘数据的阶段性对比。

    在这里插入图片描述

    *数据源于慢慢买「市场洞察」

    二、竞品监控

    有了整体规划后,还需全面了解一下业内的竞争对手。「市场洞察」会实时统计出店铺销量排行榜,根据榜单数据来对标自身店铺。且支持对京东同行店铺进行监控,仅需店铺名称即可监控到该店铺在指定时间内的动销商品数、销量以及销额数据。指定时间具体到天,当日数据在次日显示。

    在这里插入图片描述

    *数据源于慢慢买「市场洞察」

    除此之外,在「市场洞察」里还能看到实时爆款商品排行榜,进一步了解用户喜好和需求变化情况。同时,商家也能对自己和同行的商品进行监控。不但能知道自身产品的竞争情况,也为后续的产品开发提供了数据参考。知己知彼,百战百胜。
    在这里插入图片描述

    *数据源于慢慢买「市场洞察」

    三、品牌/店铺分析

    当然,掌握头部品牌的销售情况对自身品牌的发展也有比较重大的参考意义。一方面,帮助商家认清楚自己所处的行业位置;另一方面,更好地判断行业是否饱和,细分市场是否还有发展潜力。通过「市场洞察」系统,商家能看到具体的销量、销额排行榜数据。

    在这里插入图片描述

    *数据源于慢慢买「市场洞察」

    同时,「市场洞察」还依据品牌不同的价格段进行了更加细分的排名,最多可查看至销量/销额TOP100。对价格段销量/销额数据进行分析,能够更加准确定位产品,找到增长的突破口。

    在这里插入图片描述

    *数据源于慢慢买「市场洞察」

    店铺排行榜也是同理。「市场洞察」不仅会显示行业下头部店铺的销量/销额排行榜数据,最多可查看至销量/销额T0P100,还能查看到短期内销量增量飞速的飙升店铺,该店铺的销售数据会完整地显示出来。

    在这里插入图片描述

    *数据源于慢慢买「市场洞察」

    四、爆款分析

    查看爆款商品排行榜的意义就在于,帮助商家通过目前爆款商品的具体数据表现和趋势,有理有据地完成选款和测款,从而打造出自己的爆款。

    「市场洞察」系统不仅会提供京东平台的热销商品排行榜,显示每款产品的型号、销量、销额、环比率、价格走势等,还能查看到短期内销量增量飞速的飙升商品的各项具体数据和图表展示。
    在这里插入图片描述

    *数据源于慢慢买「市场洞察」

    任何情况下,想要做好品牌,做好店铺,做好产品,都必须有数据的支撑。慢慢买大数据「市场洞察」系统从行业、品牌、竞品店铺、爆款等几个维度的数据方向来辅助京东卖家解决运营上的难题,实现整体提升和增长。

    展开全文
  • 京东数据分析面试题

    千次阅读 2018-10-03 22:04:42
     3)数据仓库强调查询分析的速度,优化读取操作,主要目的是快速做大量数据的查询  4)数据仓库定期写入新数据,但不覆盖原有数据,而是给数据加上时间戳标签  5)数据库采用行存储,数据仓库一般采用列存储 ...

    1. 怎么做恶意刷单检测

    分类问题用机器学习方法建模解决,我想到的特征有:

        1)商家特征:商家历史销量、信用、产品类别、发货快递公司等

        2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号

        3)环境特征(主要是避免机器刷单):地区、ip、手机型号等

        4)异常检测:ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等

        5)评论文本检测:刷单的评论文本可能套路较为一致,计算与已标注评论文本的相似度作为特征

        6)图片相似度检测:同理,刷单可能重复利用图片进行评论

     

    2. 你系统的学习过机器学习算法吗?

    略。

     

    3. 选个讲下原理吧 K-Means算法及改进,遇到异常值怎么办?评估算法的指标有哪些?

        1)k-means原理

        2)改进:

            a. kmeans++:初始随机点选择尽可能远,避免陷入局部解。方法是n+1个中心点选择时,对于离前n个点选择到的概率更大

            b. mini batch kmeans:每次只用一个子集做重入类并找到类心(提高训练速度)

            c. ISODATA:对于难以确定k的时候,使用该方法。思路是当类下的样本小时,剔除;类下样本数量多时,拆分

            d. kernel kmeans:kmeans用欧氏距离计算相似度,也可以使用kernel映射到高维空间再聚类

        3)遇到异常值

            a. 有条件的话使用密度聚类或者一些软聚类的方式先聚类,剔除异常值。不过本来用kmeans就是为了快,这么做有些南辕北辙了

            b. 局部异常因子LOF:如果点p的密度明显小于其邻域点的密度,那么点p可能是异常值(参考:https://blog.csdn.net/wangyibo0201/article/details/51705966

            c. 多元高斯分布异常点检测

            d. 使用PCA或自动编码机进行异常点检测:使用降维后的维度作为新的特征空间,其降维结果可以认为剔除了异常值的影响(因为过程是保留使投影后方差最大的投影方向)

            e. isolation forest:基本思路是建立树模型,一个节点所在的树深度越低,说明将其从样本空间划分出去越容易,因此越可能是异常值。是一种无监督的方法,随机选择n个sumsampe,随机选择一个特征一个值。(参考:https://blog.csdn.net/u013709270/article/details/73436588

            f. winsorize:对于简单的,可以对单一维度做上下截取

        4)评估聚类算法的指标:

            a. 外部法(基于有标注):Jaccard系数、纯度

            b. 内部法(无标注):内平方和WSS和外平方和BSS

            c. 此外还要考虑到算法的时间空间复杂度、聚类稳定性等

     

    4. 数据预处理过程有哪些?

        1)缺失值处理:删、插

        2)异常值处理

        3)特征转换:时间特征sin化表示

        4)标准化:最大最小标准化、z标准化等

        5)归一化:对于文本或评分特征,不同样本之间可能有整体上的差异,如a文本共20个词,b文本30000个词,b文本中各个维度上的频次都很可能远远高于a文本

        6)离散化:onehot、分箱等

     

    5. 随机森林原理?有哪些随机方法?

        1)随机森林原理:通过构造多个决策树,做bagging以提高泛化能力

        2)subsample(有放回抽样)、subfeature、低维空间投影(特征做组合,参考林轩田的《机器学习基石》)

     

    6. PCA

        1)主成分分析是一种降维的方法

        2)思想是将样本从原来的特征空间转化到新的特征空间,并且样本在新特征空间坐标轴上的投影方差尽可能大,这样就能涵盖样本最主要的信息

        3)方法:

            a. 特征归一化

            b. 求样本特征的协方差矩阵A

            c. 求A的特征值和特征向量,即AX=λX

         d. 将特征值从大到小排列,选择topK,对应的特征向量就是新的坐标轴(采用最大方差理论解释,参考:https://blog.csdn.net/huang1024rui/article/details/46662195

        4)PCA也可以看成激活函数为线性函数的自动编码机(参考林轩田的《机器学习基石》第13课,深度学习)

     

    7. 还有一些围绕着项目问的具体问题

    略。

     

    8. 参加过哪些活动?

    略。

     

    9. hive?spark?sql? nlp?

        1)Hive允许使用类SQL语句在hadoop集群上进行读、写、管理等操作

        2)Spark是一种与hadoop相似的开源集群计算环境,将数据集缓存在分布式内存中的计算平台,每轮迭代不需要读取磁盘的IO操作,从而答复降低了单轮迭代时间

     

    10. XGBOOST

        xgb也是一种梯度提升树,是gbdt高效实现,差异是:

        1)gbdt优化时只用到了一阶导数信息,xgb对代价函数做了二阶泰勒展开。(为什么使用二阶泰勒展开?我这里认为是使精度更高收敛速度更快,参考李宏毅的《机器学习》课程,对损失函数使用泰勒一次展开是梯度下降,而进行更多次展开能有更高的精度。但感觉还不完全正确,比如为什么不三次四次,比如引进二次导会不会带来计算开销的增加,欢迎大家讨论指正。)

        2)xgb加入了正则项

        3)xgb运行完一次迭代后,会对叶子节点的权重乘上shrinkage(缩减)系数,削弱当前树的影响,让后面有更大的学习空间

        4)支持列抽样等特性

        5)支持并行:决策树中对特征值进行排序以选择分割点是耗时操作,xgb训练之前就先对数据进行排序,保存为block结构,后续迭代中重复用该结构,大大减少计算量。同时各个特征增益的计算也可以开多线程进行

        6)寻找最佳分割点时,实现了一种近似贪心法,同时优化了对稀疏数据、缺失值的处理,提高了算法效率

        7)剪枝:GBDT遇到负损失时回停止分裂,是贪心算法。xgb会分裂到指定最大深度,然后再剪枝

     

    11. 还问了数据库,spark,爬虫(简历中有)

    略。

     

    12. 具体案例分析,关于京东商城销售的

    略。

     

    13. Linux基本命令

        1)目录操作:ls、cd、mkdir、find、locate、whereis等

        2)文件操作:mv、cp、rm、touch、cat、more、less

        3)权限操作:chmod+rwx421

        4)账号操作:su、whoami、last、who、w、id、groups等

        5)查看系统:history、top

        6)关机重启:shutdown、reboot

        7)vim操作:i、w、w!、q、q!、wq等

     

    14. NVL函数

        1)是oracle的一个函数

        2)NVL( string1, replace_with),如果string1为NULL,则NVL函数返回replace_with的值,否则返回原来的值

     

    15. LR

        1)用于分类问题的线性回归

        2)采用sigmoid对输出值进行01转换

        3)采用似然法求解

        4)手推

        5)优缺点局限性

        6)改进空间

     

    16. sql中null与‘ ’的区别

        1)null表示空,用is null判断

        2)''表示空字符串,用=''判断

     

    17. 数据库与数据仓库的区别

        1)简单理解下数据仓库是多个数据库以一种方式组织起来

        2)数据库强调范式,尽可能减少冗余

        3)数据仓库强调查询分析的速度,优化读取操作,主要目的是快速做大量数据的查询

        4)数据仓库定期写入新数据,但不覆盖原有数据,而是给数据加上时间戳标签

        5)数据库采用行存储,数据仓库一般采用列存储

        6)数据仓库的特征是面向主题、集成、相对稳定、反映历史变化,存储数历史数据;数据库是面向事务的,存储在线交易数据

        7)数据仓库的两个基本元素是维表和事实表,维是看待问题的角度,比如时间、部门等,事实表放着要查询的数据

     

    18. 手写SQL

    略。

     

    19. SQL的数据类型

        1)字符串:char、varchar、text

        2)二进制串:binary、varbinary

        3)布尔类型:boolean

        4)数值类型:integer、smallint、bigint、decimal、numeric、float、real、double

        5)时间类型:date、time、timestamp、interval

     

    20. C的数据类型

        1)基本类型:

            a. 整数类型:char、unsigned char、signed char、int、unsigned int、short、unsigned short、long、unsigned long

            b. 浮点类型:float、double、long double

        2)void类型

        3)指针类型

        4)构造类型:数组、结构体struct、共用体union、枚举类型enum

     

    21. 分类算法性能的主要评价指标

        1)查准率、查全率、F1

        2)AUC

        3)LOSS

        4)Gain和Lift

        5)WOE和IV

     

    22. roc图

        1)以真阳(TP)为横轴,假阳为纵轴(FP),按照样本预测为真的概率排序,绘制曲线

        2)ROC曲线下的面积为AUC的值

     

    23. 查准率查全率

        1)查准率:TP/(TP+FP)

        2)查全率:TP/(TP+FN)

     

    24. 数据缺失怎么办

        1)删除样本或删除字段

        2)用中位数、平均值、众数等填充

        3)插补:同类均值插补、多重插补、极大似然估计

        4)用其它字段构建模型,预测该字段的值,从而填充缺失值(注意:如果该字段也是用于预测模型中作为特征,那么用其它字段建模填充缺失值的方式,并没有给最终的预测模型引入新信息)

        5)onehot,将缺失值也认为一种取值

        6)压缩感知及矩阵补全

     

    25. 内连接与外连接的区别

        1)内连接:左右表取匹配行

        2)外连接:分为左连接、右连接和全连接

     

    26. 欧式距离

        1)字段取值平方和取开根号

        2)表示m维空间中两个点的真实距离

     

    27. 普通统计分析方法与机器学习的区别

    这里不清楚普通统计分析方法指的是什么。

    如果是简单的统计分析指标做预测,那模型的表达能力是落后于机器学习的。

    如果是指统计学方法,那么统计学关心的假设检验,机器学习关心的是建模,两者的评估不同。

     

    28. BOSS面:关于京东的想法,哪里人,什么学校,多大了,想在京东获得什么,你能为京东提供什么,关于转正的解释,工作内容,拿到offer

    略。

     

    29. 先问了一个项目,然后问了工作意向,对工作是怎么看待的

    略。

     

    30. 问了一点Java很基础的东西,像set、list啥的

    略。

     

    31. 感觉一二面的面试官比较在意你会不会hive、sql

    略。

     

    32. 怎么判断一个账号不安全不正常了,比如被盗号了,恶意刷单之类的

    分类问题用机器学习方法建模解决,我想到的特征有:

        1)商家特征:商家历史销量、信用、产品类别、发货快递公司等

        2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号

        3)环境特征(主要是避免机器刷单):地区、ip、手机型号等

        4)异常检测:ip地址变动、经常清空cookie信息、账号近期交易成功率上升等

        5)评论文本检测:刷单的评论文本可能套路较为一致,计算与已标注评论文本的相似度作为特征

        6)图片相似度检测:同理,刷单可能重复利用图片进行评论

     

    33. 只是岗位名称一样,我一面问的都是围绕海量数据的推荐系统,二面就十几分钟,都是自己再说……感觉凉的不能再凉了

        1)基于内容

        2)协同过滤

        3)基于矩阵分解

        4)基于图

    其它包括冷启动、评估方法等

     

    34. 项目写的是天池比赛,只是大概描述了一下,特征工程和模型的选择

        1)数据预处理

        2)时间特征处理(sin化等)

        3)连续特征处理(分箱等)

        4)类别特征处理(onehot等)

        5)交叉特征

        6)特征hash化

        7)gbdt构造特征

        8)tfidf等对文本(或类似文本)的特征处理

        9)统计特征

        10)embedding方法作用于样本

        11)聚类、SVD、PCA等

        12)NN抽取特征

        13)自动编码机抽取特征

     

    35. GBDT原理介绍下

        1)首先介绍Adaboost Tree,是一种boosting的树集成方法。基本思路是依次训练多棵树,每棵树训练时对分错的样本进行加权。树模型中对样本的加权实际是对样本采样几率的加权,在进行有放回抽样时,分错的样本更有可能被抽到

        2)GBDT是Adaboost Tree的改进,每棵树都是CART(分类回归树),树在叶节点输出的是一个数值,分类误差就是真实值减去叶节点的输出值,得到残差。GBDT要做的就是使用梯度下降的方法减少分类误差值

        在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x),让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说,本轮迭代找到决策树,要让样本的损失尽量变得更小。

    GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。

    (参考:https://www.cnblogs.com/pinard/p/6140514.html

        3)得到多棵树后,根据每颗树的分类误差进行加权投票

     

    36. XGBoost原理介绍下

    见前文。

     

    37. 用滑动窗口是怎样构造特征的

    文本和图像数据中,设置窗口大小与滑动步长,以窗口为片段抽取特征。

     

    38. 简单的介绍随机森林,以及一些细节

        1)随机森林原理:通过构造多个决策树,做bagging以提高泛化能力

        2)随机方法包括:subsample(有放回抽样)、subfeature、低维空间投影(特征做组合,参考林轩田的《机器学习基石》)

        3)有放回抽样,可以用包外样本做检验

        4)也可以用OOB做特征选择,思路:

            a. 如果一个特征有效,那么这个特征引入杂质会明显影响模型效果

            b. 引入杂质会影响分布,所以更好的方式是对特征中的取值进行洗牌,然后计算前后模型的差异

            c. 但是我们不想训练两个模型,可以利用OOB进行偷懒。把OOB中的数据该特征取值洗牌,然后扔进训练好的模型中,用输出的结果进行误差检验

     

    39. 一个网站销售额变低,你从哪几个方面去考量?

        1)首先要定位到现象真正发生的位置,到底是谁的销售额变低了?这里划分的维度有:

            a. 用户(画像、来源地区、新老、渠道等)

            b. 产品或栏目

            c. 访问时段

        2)定位到发生未知后,进行问题拆解,关注目标群体中哪个指标下降导致网站销售额下降:

            a. 销售额=入站流量*下单率*客单价

            b. 入站流量 = Σ各来源流量*转化率

            c. 下单率 = 页面访问量*转化率

            d. 客单价 = 商品数量*商品价格

        3)确定问题源头后,对问题原因进行分析,如采用内外部框架:

            a. 内部:网站改版、产品更新、广告投放

            b. 外部:用户偏好变化、媒体新闻、经济坏境、竞品行为等

     

    40. 还有用户流失的分析,新用户流失和老用户流失有什么不同?

        1)用户流失分析:

            a. 两层模型:细分用户、产品、渠道,看到底是哪里用户流失了。注意由于是用户流失问题,所以这里细分用户时可以细分用户处在生命周期的哪个阶段。

            b. 指标拆解:用户流失数量 = 该群体用户数量*流失率。拆解,看是因为到了这个阶段的用户数量多了(比如说大部分用户到了衰退期),还是这个用户群体的流失率比较高

            c. 内外部分析:

                a. 内部:新手上手难度大、收费不合理、产品服务出现重大问题、活动质量低、缺少留存手段、用户参与度低等

                b. 外部:市场、竞争对手、社会环境、节假日等

        2)新用户流失和老用户流失有什么不同:

            a. 新用户流失:原因可能有非目标用户(刚性流失)、产品不满足需求(自然流失)、产品难以上手(受挫流失)和竞争产品影响(市场流失)。

            新用户要考虑如何在较少的数据支撑下做流失用户识别,提前防止用户流失,并如何对有效的新用户进行挽回。

            b. 老用户流失:原因可能有到达用户生命周期衰退期(自然流失)、过度拉升arpu导致低端用户驱逐(刚性流失)、社交蒸发难以满足前期用户需求(受挫流失)和竞争产品影响(市场流失)。

            老用户有较多的数据,更容易进行流失用户识别,做好防止用户流失更重要。当用户流失后,要考虑用户生命周期剩余价值,是否需要进行挽回。

    (参考@王玮 的回答:https://www.zhihu.com/question/26225801

     

    41. 京东商城要打5-6线渠道,PPT上放什么怎么放?对接人是CXO

    (我刚准备开口讲面试官让我先思考一下)

        1)根据到底是CXO再决定

        2)重点是了解CXO在这个打渠道行为中的角色,CXO关心的业绩指标是什么,然后针对性地展示 为了达成这个业绩指标 所相关的数据

     

    42. GMV升了20%怎么分析

    (我噼里啪啦分析了一通面试官笑嘻嘻地告诉我是数据错了,因为面试较紧张没有意识到这个问题,现在想想真是个大坑啊)

        1)参考该面试者经验,应该先估算一下数字有没有问题

        2)同样的套路:

            a. 两层模型:进行用户群体、产品、渠道细分,发现到底是谁的GMV提升了

            b. 指标拆解:将GMV拆解成乘法模型,如GMV=广告投放数量*广告点击率*产品浏览量*放入购物车率*交易成功率*客单价,检查哪一步有显著变化导致了GMV上升

            c. 内外部分析:

            a. 内部:网站、产品、广告投放、活动等

            b. 外部:套PEST等框架也行,或者直接分析也行,注意MEMC即可

        这一题要注意,GMV流水包括取消的订单金额和退货/拒收的订单金额,还有一种原因是商家刷单然后退货,虽然GMV上去了,但是实际成交量并没有那么多。

     

    43. 怎么向小孩子解释正态分布

    (随口追问了一句小孩子的智力水平,面试官说七八岁,能数数)

        1)拿出小朋友班级的成绩表,每隔2分统计一下人数(因为小学一年级大家成绩很接近),画出钟形。然后说这就是正态分布,大多数的人都集中在中间,只有少数特别好和不够好

        2)拿出隔壁班的成绩表,让小朋友自己画画看,发现也是这样的现象

        3)然后拿出班级的身高表,发现也是这个样子的

        4)大部分人之间是没有太大差别的,只有少数人特别好和不够好,这是生活里普遍看到的现象,这就是正态分布

     

    44. 有一份分析报告,周一已定好框架,周五给老板,因为种种原因没能按时完成,怎么办?

    略。

     

    展开全文
  • 京东前面单选多选题,后面3道编程题。小题考的很细,各种概率论统计数据库机器学习的知识点,很多都是蒙的,默默的把不会的题记下来,等再学会怎么做了以后发现蒙的都错了。。。。AC:def isluckytime(l): spl = l....
  • PO主已挂。。。 一面(20分钟左右): 我一面的面试官是商城的,偏业务方向。 1、自我介绍 ...xxx+学校专业+实习+为啥选这个岗位 ...①详细讲之前实习的项目,围绕...①流量下降你怎么分析 ②用没有用过埋点之类的 ...
  • 京东商智数据分析
  • 京东服装数据分析.zip

    2020-04-21 17:31:52
    此项目为scrapy爬虫,爬取京东服装数据。数据清洗还有数据分析等内容,最后部分通过少量数据建立决策树模型进行对比分析。
  • 学习数据挖掘,京东购买数据集,读入数据集,打印前3行数据。 2、查看数据集各个变量的数据类型及缺失值情况。
  • 京东手机数据分析.zip

    2020-03-21 17:33:03
    python实现项目代码,里面包括了python爬虫,运用框架scrapy,redis,以及数据剔除,数据分析,决策树回归分析的代码。采用的是pycharm软件,数据库对应的是SqlServer,也可以写到MongoDB。
  • 京东2018秋招数据分析工程师笔试题(来源:牛客网) 题型 客观题:单选18道,不定项选择12道 主观题:编程2道 完成时间 120分钟 牛客网评估难度系数 3颗星 写到「数据分析真题日刷」第七套真题,博客喜迎粉丝啦,...
  • 京东数据分析——以Python为主要工具 1.探索分析 import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline plt.style.use('ggplot') plt.rcParams['font.sans-serif'...
  • 网易2018校园招聘数据分析工程师笔试卷(来源:牛客网) 题型 客观题:单选51道,不定项选择12道 完成时间 120分钟 牛客网评估难度系数 3颗星 1. 在软件开发过程中,我们可以采用不同的过程模型,下列有关 增量模型...
  • 京东2019校招数据分析工程师笔试题
  • 京东2019校招数据分析工程师笔试题
  • 数据分析京东笔记本电脑

    千次阅读 2017-05-13 16:12:15
    数据来源使用八爪鱼采集器采集京东商城中笔记本的数据,共采集12030条,去除重复、无用数据后剩余5968条,本文主要分析标题、品牌、价格、评价数量。
  • 京东金融数据分析案例(一)-附件资源
  • 京东金融大数据分析平台总体架构的ppt,做架构的可以借鉴一下
  • 接着上一篇文章,这里对爬取到的数据进行简单的数据分析 开发环境:jupyter 导入依赖的包 %matplotlib inline # 数据处理 import pandas as pd import numpy as np # 绘图 import matplotlib.pyplot as plt # 分词 ...
  • 数据分析京东笔记本电脑-附件资源
  • 【全网首发】京东商业数据分析师培养计划.pdf
  • 京东商业化数据分析师培养计划.pdf
  • 【牛客】2018京东秋招数据分析工程师笔试解析 * 根据牛客网下方讨论整理(https://www.nowcoder.com/test/10630596/summary) 一、选择 1、有一个文件user.txt,每行一条user记录,共若干行,下面哪个命令可以...
  • 【秋招】京东_数据分析岗_面试题整理

    万次阅读 多人点赞 2018-05-23 11:34:50
     3)数据仓库强调查询分析的速度,优化读取操作,主要目的是快速做大量数据的查询  4)数据仓库定期写入新数据,但不覆盖原有数据,而是给数据加上时间戳标签  5)数据库采用行存储,数据仓库一般采用列...
  • 网易2018校园招聘数据分析工程师笔试卷(来源:牛客网) 题型 客观题:单选51道,不定项选择12道 完成时间 120分钟 牛客网评估难度系数 3颗星 1. 在软件开发过程中,我们可以采用不同的过程模型,下列有关 增量模型...
  • 京东金融大数据分析平台架构ppt 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 46,956
精华内容 18,782
关键字:

京东数据分析