精华内容
下载资源
问答
  • 机器学习算法工程师做什么

    万次阅读 多人点赞 2016-05-31 10:15:45
    机器学习不仅仅是模型产生这个问题的原因就是所有人都以为机器学习的模型就是机器学习本身,以为对那些个算法理解了就是机器学习的大牛了,但实际上完全不是这样的。模型是谁在玩呢?模型是科学家发明出来的, 是...

    机器学习不仅仅是模型

    产生这个问题的原因就是所有人都以为机器学习的模型就是机器学习本身,以为对那些个算法理解了就是机器学习的大牛了,但实际上完全不是这样的。

    模型是谁在玩呢?模型是科学家发明出来的, 是各个大公司的各个科学家,研究员发明出来的,这个发明出来是会出论文的,是他们用来虐我们的智商的,一般情况下,你发明不了模型吧(如果可以,可以不要往下看了,你可以走学术那条路)?你修改不了模型吧?

    所以说,学会了模型,只是刚刚刚刚入门,甚至还算不上入门吧

    那各个公司的那么多算法工程师在干嘛呢?我们以一个搜索排序的算法工程师为例,他们在做甚呢?他们在

    观察数据--->找特征--->设计算法--->算法验证--->洗数据--->工程化--->上线看效果--->goto 观察数据
    而且一个成熟的系统中,一般模型已经大概确定了,如果效果不是特别不好不会换模型,比如一个公司的搜索排序系统用了机器学习的逻辑回归模型,你要改成别的模型一般不太可能,那么只能做一些特征上的补充。

    好,我们通过这个流程来看看一个机器学习的算法工程师到底还要什么能力。

    观察数据

    小明每天就在工位上看数据,查数据,看表格,画曲线,发现像销量,收藏,点击等等这种能想到的特征早就被用了,就这么耗了三个月,没有任何进展,人都崩溃了,来了这么久,机器学习代码毛都没看到呢。

    第四个月,他发现一点问题,他发现有些商品,评论什么的都挺好,感觉产品质量也不错,但就是销量上不去,所以老排后面,于是,他把这些评论都是五星,但是销量比较差的商品滤出来了,想看看他们有什么共性。

    观察数据阶段,你说要什么能力?呵呵,只能告诉你,需要数据敏感性,其实也就是告诉你需要全面的能力,需要经验,需要产品经理的能力。

    除了这些,你还需要能随手编脚本代码的能力,遇到有些数据需要初步处理,可能需要随手编代码处理,而且编的要快,因为这些代码可能就用一两次就不用了,所以需要比较强大的脚本语言能力,那么python至少要熟悉吧,shell要会吧。

    找特征

    数据观察下来发现了问题,现在要找特征了,要找特征,也就是找什么因素导致销量上不去的,首先,需要想象力,然后去验证你的想象力。

    小明的想象力爆棚,即便这样,也搞了一个月才发现这些个商品有个共同特征,那就是图片都比较烂,让人一看就不想点。卧槽,要是能把图片质量加入到排序因素里面的话,是不是有奇效呢?图片质量作为特征,这之前可没人做过,终于找到一个特征了。

    所以在这一阶段,毕竟大家的想象力都是有限的,更多的是经验值,才能找到符合当前场景的特征。

    设计算法

    特征是找到了,但怎么把这个特征加到排序模型里面去呢?图片好不好,有多好,这些机器怎么理解呢?如果不能把图片质量变成一个数学上的向量,那永远都无法加入到排序模型里面去。

    这一阶段是真正考验算法工程师的地方了,那就是将特征向量化,小明观察到越好看的图像往往颜色变化更多,而质量差的图片往往颜色没什么变化,于是他想到一种办法,先把图像数据进行傅里叶变换,变成频域的数据,根据傅里叶变换的性质,高频部分的幅度高表示图像的颜色变化很明显,如果低频部分高,表示颜色变化不明显,这和观察到的图像信息基本能匹配上,这样一副图像的好坏,就可以用傅里叶变换后高频部分的幅度表示了,然后在做一些归一化的变化,就把图像向量化了,向量化以后就可以加入到排序模型去了。

    这一步,你可能会用到你学习的机器学习模型,但肯定只占了一小部分,大部分情况需要你根据当前场景自己建立一个数学模型,而不是机器学习模型,你说这一阶段需要什么技能?虽然我这里举的例子比较极端,但是数学抽象能力,数学建模能力和数学工具的熟练使用是必不可少的,并且同样需要较强的编程能力,这已不是上一步的脚本能力,是实打实的计算机算法编程能力了。

    算法验证

    算法是设计好了,还要设计一个算法的离线验证方法来证明给你的老大看说我的算法是有效果的,不然哪那么多机会让你到线上去试啊,这一步也是各种综合能力的组合,关键是在这一步上,你要用一种通俗的语言从理论上说服你的老大,这是一种什么能力?强大的语言表达能力。

    除了这个你还需要设计出一个上线以后的AB测试方案,能够很好的测试出你的算法是否真的有效。

    洗数据

    特征找到了,算法也设计得差不多能体现特征了,体力活来了,那就是洗数据,这是算法工程师的必修课,数据不是你想要什么样子他就长得什么样子的,所以要把数据变成你想要的样子,然后去掉无效的数据可是个体力活。

    像上面这个例子,首先可能大家的图片大小都不一样,要变成一个尺寸才好进行变换,有些商品有多个图片,可能需要找出质量最好的再处理等等等等。

    这一阶段首先也是要脚本语言处理能力,而且还需要掌握一些数据处理工具的使用,关键还要有足够的耐性和信心,当然,必不可少的是优秀的编程能力。

    工程化

    好了,前面的坑你全跨过来了,到了这一步了,呵呵,算法设计完了,数据也准备好了,估计半年过去了,那赶快放到线上去吧,你以为拿着一堆脚本就能上线了啊,得考虑工程化了,如果把你的算法嵌入到原有系统中,如果保证你的算法的效率,别一跑跑一天,代码的健壮性也要考虑啊,如果是在线算法,还得考虑性能,别把内存干没了。

    这一步,你才真正的用上了你上面学的机器学习的hadoop,spark工具,看了上面说的,要完成工程化这一步,得有什么能力不用我说了吧,这是一个标准的软件开发工程师的必要技能,还是高级开发工程师哦。

    上线看效果

    所有的都做完了,前前后后10个月了,终于可以上线了,好了,真正的考验来了,看看上线的效果呗,产品经理说,做个AB测试吧,结果呵呵了,点击率降低了,小明啊!这10个月忙活下来点击率还下降了???老板还不把你骂死,所以,你必须有强大的抗打击能力。

    呵呵,赶快下线吧,从头看看哪里出了问题,又花了一个月修改了算法,重新上线,恩,这次不错,点击率提高了0.2个百分点,继续努力吧,看看还有没有什么可以挖掘的,于是,你就goto到了看数据的那一步。

    别看这0.2,大的数据集合下,提高0.2已经是非常不错的提高了,所以花这么多钱,养算法工程师,要是一年能出几次0.2,那就是真值了。

    让我们总结一下

    上面这么多的过程,靠一个人全部完成确实有点困难,我说的有点夸张,中间有些步骤是有人配合的,观察数据的时候有产品经理配合你,洗数据的时候有数据工程师配合你,工程化的时候有系统工程师配合你,但是作为机器学习的算法工程师,整个过程你都得能hold得住啊,所以即便是你一个人应该也要能完成整个流程才行。

    这只是一个标准的算法工程师应该具备的能力,当然我这里是以搜索算法举例的,其他的算法工程师也差不太多,总跑不过上面几个过程,当然,你要是牛人,能根据场景修改这个机器学习的模型,甚至自己能想个模型,那就更厉害了。

    好,我们把上面的重点标记的部分取出来汇总一下,让我们看看一个算法工程师需要具备哪些技能:

    • 数据敏感性,观察力
    • 数学抽象能力,数学建模能力和数学工具的熟练使用的能力
    • 能随手编脚本代码的能力,强大的计算机算法编程能力,高级开发工程师的素质
    • 想象力,耐性和信心,较强的语言表达能力,抗打击能力
    • 然后,还有很关键的一点,你需要很聪明。

    当然,你如果能做到以上那么几点,基本上也会很聪明了,如果真能做到这样,反而那些机器学习的模型,理论和工具就显得不那么重要了,因为那些也只是知识和工具,随时都可以学嘛。

    你说,这些是靠看几篇博客,看几本书,上几次课就能具备的么??

    当然,我们这里讨论的是一般情况,如果你一心就是做研究的话,那么需要把上述技能熟练度再提高一个量级。

    最后,正在学习机器学习,励志做算法工程师的你,准备好踏这些坑了么??

    看到这篇文章很有感触。

    展开全文
  • 机器学习算法工程师校招面试题库 涵盖数学基础、机器学习算法、深度学习、自然语言处理、计算机基础项目等。
  • 2020年3月中国机器学习工程师的平均工资为22609元,工资中位数为20833元,其中95%的人的工资位于5250到50000元之间。 工资分布 教育及英语 机器学习工程师之中,硕士占了30%。不过,大家不要忘了,我这里统计的是...

    2020年3月中国机器学习工程师的平均工资为22609元,工资中位数为20833元,其中95%的人的工资位于5250到50000元之间。

    工资分布

    在这里插入图片描述

    教育及英语

    在这里插入图片描述
    机器学习工程师之中,硕士占了30%。不过,大家不要忘了,我这里统计的是招聘的要求。要求本科的,也会招硕士。我自己的感觉,身边的机器学习工程师都是硕士。

    学历和工资的关系如下:
    在这里插入图片描述

    英语也是比较重要的1/4的岗位要求英语,主要是要阅读英文文献。
    在这里插入图片描述

    城市

    在这里插入图片描述

    编程语言

    在这里插入图片描述
    机器学习工程师的第一语言,不是Java,而是Python。R虽然也是机器学习语言。但是,由于【靠大边】的原理,Python的市场占有率是R的十倍。

    机器学习工具

    在这里插入图片描述
    Tensorflow的市场占有率远远高于其他的工具。虽然sklearn的市场占有率只有5%,不过,如果是传统的机器学习,恐怕sklearn也是不二选择。

    大数据工具

    作为机器学习工程师,要处理大量的数据,所以也不可避免地要学习大数据技术。

    在这里插入图片描述
    Spark和Hadoop是市场占有率最多的。第三名是Hive。

    工作经验

    在这里插入图片描述
    工作十年,工资可以达到3万5。冲鸭!!!

    2020年3月程序员统计

    【数据说话】机器学习工程师要掌握那些技能,前景如何

    2020年3月全国程序员工资统计,平均工资13820元

    2020年3月中国编程语言排行榜

    代码

    https://github.com/juwikuang/china_job_survey

    展开全文
  • 机器学习 算法工程师面试指南,它提供了完整的面试知识点、编程题及题解、各科技公司的面试题锦等内容。文件是markdown格式,便于编辑。其中从机器学习到数学主要提供的是笔记与面试知识点,读者可回顾整体的知识...
  • 机器学习算法工程师面试考点汇总

    千次阅读 多人点赞 2019-07-01 08:44:45
    2019-06-29 10:41:12 ...本篇根据各个公司的机器学习相关岗位面试中问的问题进行总结,后面还会更新面试中考察所占比例。 知识点思维导图 数学基础: 1、微积分 1、SGD,Momentum,Adagard,Adam原...

    https://www.toutiao.com/a6707777153603207691/

     

    2019-06-29 10:41:12

    机器学习算法工程师面试考点汇总

     

    来源 | 牛客网
    编辑 | 小军
    

    前言

    本篇根据各个公司的机器学习相关岗位面试中问的问题进行总结,后面还会更新面试中考察所占比例。

    机器学习算法工程师面试考点汇总

    知识点思维导图

    数学基础:

    1、微积分

    1、SGD,Momentum,Adagard,Adam原理

    2、L1不可导的时候该怎么办

    3、sigmoid函数特性

    2、统计学,概率论

    1、a,b~U[0,1],互相独立,求Max(a,b)期望

    2、一个活动,n个女生手里拿着长短不一的玫瑰花,无序的排成一排,一个男生从头走到尾,试图拿更长的玫瑰花,一旦拿了一朵就不能再拿其他的,错过了就不能回头,问最好的策略?

    3、问题:某大公司有这么一个规定:只要有一个员工过生日,当天所有员工全部放假一天。但在其余时候,所有员工都没有假期,必须正常上班。这个公司需要雇用多少员工,才能让公司一年内所有员工的总工作时间期望值最大?

    4、切比雪夫不等式

    5、一根绳子,随机截成3段,可以组成一个三角形的概率有多大

    6、最大似然估计和最大后验概率的区别?

    7、什么是共轭先验分布

    8、概率和似然的区别

    9、频率学派和贝叶斯学派的区别

    10、0~1均匀分布的随机器如何变化成均值为0,方差为1的随机器

    11、Lasso的损失函数

    12、Sfit特征提取和匹配的具体步骤

    3、线性代数

    1、求mk矩阵A和nk矩阵的欧几里得距离?

    2、PCA中第一主成分是第一的原因?

    3、欧拉公式

    4、矩阵正定性的判断,Hessian矩阵正定性在梯度下降中的应用

    5、概率题:抽蓝球红球,蓝结束红放回继续,平均结束游戏抽取次数

    6、讲一下PCA

    7、拟牛顿法的原理

    8、编辑距离

    机器学习算法工程师面试考点汇总

     

    机器学习算法

    1、处理分类问题常用算法

    1、交叉熵公式

    2、LR公式

    3、LR的推导,损失函数

    4、逻辑回归怎么实现多分类

    5 、SVM中什么时候用线性核什么时候用高斯核?

    6、什么是支持向量机,SVM与LR的区别?

    7、监督学习和无监督学习的区别

    8、机器学习中的距离计算方法?

    9、朴素贝叶斯(naive Bayes)法的要求是?

    10、训练集中类别不均衡,哪个参数最不准确?

    11、你用的模型,最有挑战性的项目

    12、SVM的作用,基本实现原理;

    13、SVM的硬间隔,软间隔表达式;

    14、SVM使用对偶计算的目的是什么,如何推出来的,手写推导;

    15、SVM的物理意义是什么;

    16、如果给你一些数据集,你会如何分类(我是分情况答的,从数据的大小,特征,是否有缺失,分情况分别答的);

    17、如果数据有问题,怎么处理;

    18、分层抽样的适用范围

    19、LR的损失函数

    20、LR和线性回归的区别

    21、生成模型和判别模型基本形式,有哪些?

    22、核函数的种类和应用场景。

    23、分类算法列一下有多少种?应用场景。

    24、给你一个检测的项目,检测罐装的可口可乐,瓶装的可口可乐作为负样本,怎么弄?

    25、SVM核函数的选择

    26、SVM的损失函数

    27、核函数的作用

    28、SVM为什么使用对偶函数求解

    29、ID3,C4.5和CART三种决策树的区别

    30、SVM和全部数据有关还是和局部数据有关?

    31、为什么高斯核能够拟合无穷维度

    32、第二面完整推导了svm一遍,还有强化学习问的很多,dqn的各种trick了解多少,怎么实现知不知道。

    33、SVM所有核函数的了解应用,SVM的损失函数

    34、LR和SVM 区别

    35、朴素贝叶斯基本原理和预测过程

    36、LR推导

    37、交叉熵

    38、LR公式

    39、交叉熵公式

    2、处理回归问题常用算法

    1、L1和L2正则化的区别

    2、问题:Loss Function有哪些,怎么用?

    3、问题:线性回归的表达式,损失函数;

    4、线性回归的损失函数

    5、机器学习:知道哪些传统机器学习模型

    3、处理聚类问题常用算法

    1、什么是DBSCAN

    2、k-means算法流程

    3、LDA的原理

    4、介绍几种机器学习的算法,我就结合我的项目经理介绍了些RF, Kmeans等算法。

    5、KMeans讲讲,KMeans有什么缺点,K怎么确定

    6、Kmeans

    7、DBSCAN原理和算法伪代码,与kmeans,OPTICS区别

    4、推荐系统的常用算法

    1、 问推荐算法,fm,lr,embedding

    2、协同过滤的itemCF,userCF区别适用场景

    3、 推荐系统的大概步骤,解决冷启动。。。

    4、传统的机器学习算法了解吗

    5、用mapreduce实现10亿级以上数据的kmeans

    6、Kmeans

    7、A/B test如何进行流量分流

    8、协同过滤中的算法怎么细分

    9、FM公式

    10、FFM公式

    5、模型融合和提升的算法

    1、bagging和boosting的区别

    2、boosting和 bagging区别

    3、XGBOOST和GDBT的区别

    4、GDBT的原理,以及常用的调参参数

    6、AdaBoost和GBDT的区别,AdaBoost和GBDT的区别

    7、gbdt推导

    8、boosting和bagging在不同情况下的选用

    9、gbdt推导和适用场景

    10、说一下gbdt的全部算法过程

    11、rf和gbdt基分类器区别,里面的决策树分别长啥样,怎么剪枝

    12、随机森林和 GBDT 的区别

    13、xgboost的特征重要性计算

    14、xgboost的正则项表达式

    15、xgboost原理,怎么防过拟合

    16、xgboost,rf,lr优缺点场景。。。

    17、xgboost特征并行化怎么做的

    18、xgboost和lightgbm的区别和适用场景

    6、其他重要算法

    1、HMM隐马尔可夫模型的参数估计方法是?

    2、Bootstrap方法是什么?

    3、如何防止过拟合?

    4、EM算法推导,jensen不等式确定的下界

    机器学习算法工程师面试考点汇总

     

    机器学习

    1、Scikit-learn

    1、Focal Loss 介绍一下

    2、过拟合的解决方法

    3、方差偏差的分解公式

    4、问题:对应时间序列的数据集如何进行交叉验证?

    5、问题:正负样本不平衡的解决办法?评价指标的参考价值?

    6、迁移学习

    7、数据不平衡怎么办?

    8、AUC的理解

    9、AUC的计算公式

    10、生成模型和判别模型的区别

    11、过拟合的解决方法

    12、特征选择怎么做

    13、怎么防止过拟合

    14、L1和L2正则

    15、ID3树用什么指标选择特征

    16、特征工程的问题

    17、给了个链接线上写代码,要求写读文本、文本预处理、特征提取和建模的基本过程,不过写到特征就没写了

    18、softmax公式

    2、Libsvm

    1、 检测20类物体,多少张训练集,怎么训练

    2、 lightgbm优势

    3、Keras/tensorflow

    1、MXNet和Tensorflow的区别

    2、Tensorflow的工作原理

    3、Tensorflow中interactivesession和session的区别

    4、手写了tensorflow的图像分类代码,还有问之前线下笔试最后编程题的思路,算法复杂度,然后项目也问。

    机器学习算法工程师面试考点汇总

     

    深度学习

    1、BatchNormalization的作用

    2、梯度消失

    3、循环神经网络,为什么好?

    4、什么是GroupConvolution

    5、什么是RNN

    6、训练过程中,若一个模型不收敛,那么是否说明这个模型无效?导致模型不收敛的原因有哪些?

    7、图像处理中锐化和平滑的操作

    8、VGG使用3*3卷积核的优势是什么?

    9、Relu比Sigmoid的效果好在哪里?

    10、神经网络中权重共享的是?

    11、神经网络激活函数?

    12、在深度学习中,通常会finetuning已有的成熟模型,再基于新数据,修改最后几层神经网络权值,为什么?

    13、画GRU结构图

    14、Attention机制的作用

    15、Lstm和Gru的原理

    16、什么是dropout

    17、LSTM每个门的计算公式

    18、HOG算法原理

    19、DropConnect的原理

    20、深度学习了解多少,有看过底层代码吗?caffe,tf?

    21、除了GMM-HMM,你了解深度学习在语音识别中的应用吗?

    22、用过哪些移动端深度学习框架?

    23、Caffe:整体架构说一下,新加一个层需要哪些步骤,卷积是怎么实现的,多卡机制,数据并行还是模型并行?

    24、HOG算子是怎么求梯度的

    25、BN层的作用,为什么要在后面加伽马和贝塔,不加可以吗

    26、梯度消失,梯度爆炸的问题,

    27、Adam

    28、attention机制

    29、RNN梯度消失问题,为什么LSTM和GRU可以解决此问题

    30、GAN网络的思想

    31、1*1的卷积作用

    32、怎么提升网络的泛化能力

    33、什么是seq2seq model

    34、激活函数的作用

    35、为什么用relu就不用sigmoid了

    36、讲一下基于WFST的静态解码网络的语音识别流程?

    37、目标检测了解吗,Faster RCNN跟RCNN有什么区别

    38、SPP,YOLO了解吗?

    39、梯度消失梯度爆炸怎么解决

    40、RNN容易梯度消失,怎么解决?

    41、LSTM跟RNN有啥区别

    42、卷积层和池化层有什么区别

    43、 防止过拟合有哪些方法

    44、dropout咋回事讲讲

    45、relu

    46、神经网络为啥用交叉熵。

    47、注意力公式

    48、论文flow情况

    48、Flappy.Bird开发者,怎么利用DNQ方法强化学习你的游戏AI

    49、LeNet-5结构

    50、推导LSTM正向传播和单向传播过程

    51、LSTM原理,与GRU区别

    52、DNN的梯度更新方式

    53、 CNN为什么比DNN在图像识别上更好

    54、现场用collabedit写代码,一个怪异的归并算法。之前没遇到过,直接把归并写出来,但是说复杂度太高,优化了三遍还不行,最后说出用小顶堆解决了。

    55、LSTM和Naive RNN的区别

    56、神经网络为啥用交叉熵。

    57、注意力公式

    58、Inception Score 评价指标介绍

    59、使用的 CNN 模型权重之间有关联吗?

    60、CycleGAN 原理介绍一下

    61、训练 GAN 的时候有没有遇到什么问题

    62、CPM 模型压缩怎么做的?有压过 OpenPose 吗?

    63、用过哪些 Optimizer,效果如何?

    64、图像基础:传统图像处理方法知道哪些,图像对比度增强说一下

    65、介绍一下图像的高频、低频部分,知道哪些图像补全的方法

    66、百度实习:模型压缩的大方向。CPM 模型怎么压缩的,做了哪些工作?

    67、Depthwise 卷积实际速度与理论速度差距较大,解释原因。

    68、RetinaNet 的大致结构画一下

    69、RetinaNet为什么比SSD效果好

    机器学习算法工程师面试考点汇总

     

    数据结构与算法

    1、查找

    1、手写二分查找

    (1)算法题,单调函数求零点 (简单的二分法)

    2、特别大的数据量,实现查找,排序

    2、哈希

    1 Hash表处理冲突的方法

    2、一致性哈希

    3、Hash表处理冲突的方法

    4、apriori

    5、KM算法

    3、表达式、字符串

    1.中缀表达式转后缀表达式

    (1)算法题:翻转中间由各种符号隔开的字符串

    2、问题:A+B∗(C−D)/E的后缀表达式。

    4、栈与堆

    1.大顶堆怎么插入删除

    2、堆栈区别

    3、栈溢出有哪些情况

    5、树

    1、问题: 手撕代码,根据前序,中序创建二叉树。

    2、算法题:从右边看被遮挡的二叉树,求露出的node

    3、算法题,给前序和中序,求出二叉树

    4、算法题,trim二叉搜索树

    5、红黑树

    6、排序

    1、对一千万个整数排序,整数范围在[-1000,1000]间,用什么排序最快?

    2、堆排序的思想

    3、冒泡排序

    4、快速排序的最优情况

    5、抽了两道面试题目两道。8个球,1个比较重,天平,几步找到重的?

    (1)算法题: topK给出3种解法

    6、快排

    7、说一下小顶堆的调整过程

    8、算法题:2sum,3sum

    7、高级算法

    1、手撕代码:以概率p生成1、概率1-p生成0的rand函数,得到0-1等概率的rand函数,计算新的rand函数中:调用一次,while循环的期望次数

    2、Kruskal算法的基本过程

    3、BFS和DFS的实现思想

    4、关联规则具体有哪两种算法,它们之间的区别

    5、贪婪算法

    6、模拟退火,蚁群对比

    7、 算法题:名人问题,给出最优解法

    8、代码题:股票最大值。

    9、编辑距离

    8、链表

    1、如何判断单链表是否是循环链表

    (1)算法题,反转链表

    (2)算法题,单链表判断是否有环 (leetcode easy),以及判断环入口

    9、数组

    1、找出数组中只出现1次的数,其余数均出现2次,扩展,其余数出现2次以上

    10、动态规划

    1、最短描述数,10的最短描述数是3^2+1^2所以是2,求一个数的最短描述数

    2、跳台阶问题,每次只能跳1个台阶或者2个台阶,n个台阶共有多少种方式

    3、动态规划和带记忆递归的区别

    4、手撕代码:0-1矩阵的最大正方形

    11、遍历

    1、代码题:股票最大值。

    机器学习算法工程师面试考点汇总

     

    编程语言,工具和环境

    1、编程语言

    1、什么是python的生成器?

    2、Java抽象类和接口的区别?

    3、python中is和==的区别

    4、python方法解析顺序

    5、strcpy函数

    6、Ctrl+C程序挂掉还是抛出异常,如何判断两个dict是否一样,list头上删除元素,字符串拼接?

    7、6.pytorch中cuda()作用,两个Tensor,一个加了cuda(),一个没加,相加后很怎样?

    8、python中dict和list的区别,dict的内部实现

    9、C++的delete, delete[]的区别

    10、C++相关的问题虚函数

    12、如何写多线程的代码

    13、是否关注过caffe和pytorch是怎么写的吗?pytorch调用多GPU函数内核

    14、Java虚拟机内存的划分

    15、python dict按照value进行排序

    16、C++中static关键字的作用

    17、虚函数和纯虚函数的区别

    18、Python多进程

    19、深拷贝,浅拷贝,写一个出来(写了个自己认为对的版本)

    20、在程序里面智能指针的名字是啥?

    21、new,malloc区别

    22、纯虚函数怎么定义,写一个出来

    23、函数后面接const是什么意思?

    24、写一个函数指针

    25、抽象类和接口的区别,慢慢说

    26、有看过c++的一些库吗?

    27、c++你看的最久的一章是哪一章,c++primer最熟哪一章

    28、开发环境、语言的掌握

    29、Python 多进程

    30、Python 锁

    2、大数据相关

    1、Spark性能如何调优

    2、map reduce实现笛卡尔乘积

    3、 是否写过udf,问udaf,udtf区别和一些细节

    机器学习算法工程师面试考点汇总

     

    自然语言处理

    1、Word2vec

    1、Word2Vec中skip-gram是什么,Negative Sampling怎么做

    2、FastText和Glovec原理

    3、word2vec实施过程

    4、softmax的原理了解

    5、Wod2vec公式

    6、Wod2vec公式

    7、使用gensim的word similar方法预测句子

    机器学习算法工程师面试考点汇总

     

    计算机基础

    1、linux

    1、ELF的bss段

    2、计算机网络

    3、ip报文经过一个路由器改变哪些字段?

    2、TCP/IP算法,IP寻址

    3、操作系统

    1.如何将小端存储模式转为大端存储模式

    2、Python 锁

    4、数据库

    1 .count(*),count(1)和count(列名)的区别

    机器学习算法工程师面试考点汇总

     

    场景题

    1 .如何对10亿个词语进行排序,找出频率最高的100个

    (1)算法题,10亿个32位正整数,求不同值,只给1GB内存。

    2、AI能用在游戏的哪些方面。

    3、如果让我用AI技术怎么加入AI元素

    4、你觉得你的构想能实际实现吗?

    5、那这个技术加进去有什么实际上的意义?

    项目

    1、项目中涉及的算法有了解情况

    2、模型的搭建,后处理,数据中发现的特征,发现的亮点。

    3、数据量和涉及的算法,效果。

    4、你是怎么处理数据中经常存在的数据不平衡的问题。

    5、考察项目中的roi-pooling

    6、自我介绍

    7、项目介绍

    8、问了下项目怎么做的

    9、 问了一下项目和简历

    10、描述一个算法项目从kickoff-落地的全过程

    11、 扣项目,问简历,其中涉及的算法和上面差不多

    12、 对项目中一些技术选型产生质疑,并友好的一起讨论了这个问题

    13、扣简历的项目,扣的很细

    14、 扣简历

    15、扣简历,问得太细了,每个项目都要回答如果再做一次,有什么改进的地方,both算法上和模型选择上

    16、聊简历项目,对搜索推荐算法的了解

    17、简历上聚类项目用到的ISODATA算法比kmeans有哪些改进

    18、自我介绍,

    19、然后让我说一下自己最印象深刻的项目。问我项目的最终成果,分析失败的原因。

    20、主要是问项目,根据项目里问一些细的技术点,比如gan在实际实现中的loss是什么

    21、 第五轮面试:主要是问项目

    22、 第二轮技术面:两个面试官面我一个。

    23、看过的论文,讨论论文

    24、针对岗位需求和我简历里的内容进行提问

    25、 自我介绍

    26、项目经历介绍下

    27、项目中遇到的最大困难

    28、自我介绍

    29、针对简历里的第一个项目问的一些问题

    30、针对项目3,让解释下DOA估计

    33、你的C/C++怎么样?

    34、自我介绍?

    35、谈谈实习项目?

    36、项目难点?

    37、说一下你简历里的图像识别的项目

    38、来问我现在在做什么项目,然后我说OCR,然后介绍了一下

    39、自我介绍

    40、项目经历详细介绍:两种预测方式区别,pair的预测方式,整体项目有哪些可以提升的,遇到的困难之类的,整个项目用了哪些库?

    41、看过的论文,讨论论文

    42、论文flow情况

    43、自我介绍

    44、实习:项目介绍:台球识别和分类使用的方法,Hough 变换原理、后处理

    45、Kaggle 比赛:背景介绍,数据清洗、数据增强、类别平衡,最终成绩,与前几名差距在哪,有没有尝试集成的方法。

    46、GAN 小论文:做了什么,最终效果

    47、GAN 小论文,做了哪些工作,详细公式推一下,对 GAN 的具体应用有了解吗?

    48、简历上项目为何适用xgboost和lr,对比其他分类算法的场景优势。

    49、GAN小论文,你做了什么,有哪些改进,在哪些数据集上做过实验,分辨率是多少?

    50、实习:1)项目背景。台球检测和分类方法,球杆检测方法,球杆遮挡问题怎么处理,不用分类器,直接分割或计算图像差值会怎样?

    51、有什么问题想了解一下

    机器学习算法工程师面试考点汇总

     

    总结

    这几乎包括了机器学习面试中所有可能问到的问题,如果能比较好的掌握它们,拿一份机器学习算法工程师offer应该不难。

    展开全文
  • 只要一家互联网公司的营收超过 5 个亿,那我可以确定的说,这家公司需要具备机器学习的能力。为什么呢?因为大部分互联网公司的盈利模式基本都会围绕搜索、推荐和广告而去。就比如极客时间,他的课...

    只要一家互联网公司的营收超过 5 个亿,那我可以确定的说,这家公司需要具备机器学习的能力。为什么呢?因为大部分互联网公司的盈利模式基本都会围绕搜索、推荐和广告而去。

    就比如极客时间,他的课程越来越多,如果能准确的给每位用户推荐合适的课程,那他们课程的转化率自然会提高。这就像美团外卖一样,把对你味口的餐馆推荐给你,你自然会买。

    所以,前段时间有学弟还问我说,是不是机器学习行业已经达到饱和了,我就把上面的分析给他说了一遍。但是,我也清楚的知道,这个行业里一点都不缺初级的机器学习工程师,一点都不缺只会调包的算法工程师,因为这一点门槛都没有。你总不能说找不到好的工作,就说行业饱和了。难不成你到哪,哪的大环境都不好,感情你是环境破坏者? 

    当然,我们也不可否认,现在已经过了人工智能的红利期,企业在招聘时,更为看重的是候选人的实干能力。就像我一个朋友说的,企业要找的是能干活的人。而这类人,又需要具备三个能力,分别是编程实现、数学基本功以及是否有一套成熟的建模方法论。

    这些能力对于一个机器学习工程师至关重要,但又要如何具备这些能力呢?如何成为一个能落地的实干型机器学习工程师呢?

    不卖关子,我向你推荐我和极客时间合作的机器学习训练营,如果你想成为机器学习工程师,或者说想把机器学习当成一项提升自己竞争力的技能,那欢迎你的加入。

    1

    我是谁?

    我是王然,目前是众微科技 AI Lab 负责人,本科毕业于北京大学,后于阿姆斯特丹大学攻读数学和计量经济学双学位,并在蒂尔堡大学攻读营销模型专业。研究方向主要为贝叶斯理论以及泛函分析理论和应用,参与的项目方向包括结构化数据挖掘、NLP、强化学习的理论和应用等。

    曾担任百分点认知智能实验室技术负责人,带队开发了百分点的人机对话机器人和文书校对系统,该系统准确性和召回率均达到了业界前沿水平。主导建设了建设银行的风控营销,以及京东舆情分析等数据科学项目。

    在众微科技工作期间,将深度学习和基于强化学习的 AutoML 引入到了中小企业的违约系统中,相比于传统模型 AUC 提升了 10% 以上。

    2

    如何带你胜任机器学习工程师岗位?

    课程内容和设计

    我把课程内容分为四大模块:Python工程能力进阶、数学基础、经典机器学习模型实战、深度学习理论基础和模型调优技巧,通过 15 周的全程直播授课,着重带你提升三方面的能力:数据科学能力、数学基础、编程能力。

    具体大纲如下????


    上下滑动可查看大纲

    同时,为了让你学到的知识更加落地,我选择了 4 个贴近真实场景的工业级项目,带你提升实战能力:

    • 案例一:小微企业贷款额度测算的 Tobit 模型实战

    • 案例二:个人贷款违约预测 - 算法调参及 Stacking 实现

    • 案例三:个人贷款违约预测 - 特征工程实战

    • 案例四:个人贷款违约预测 - 深度学习模型实战

    学习服务

    考虑到大家在学习过程中经常遇到的障碍,比如“遇到问题无法及时解决、拖延症、缺乏实战”等等,我在训练营中也专门设计了相关的学习服务:

    直推就业

    极客时间团队会给每位毕业之后有跳槽需求的同学,一年内提供两次互联网大厂、600+ 鲲鹏会企业的内推服务。这项服务不局限北上广深,任何地区都可以。

    3

    学完后你能到什么水平?

    「机器学习训练营」课程设计对标阿里 P6 能力模型,教学贴近大厂实际工作场景,培养目标是大厂的资深机器学习工程师、高级机器学习工程师、机器学习技术专家,完整学完训练营课程可以达到 P6 水平,并胜任同级别的工作岗位。

    在学习过程中,训练营会带你提升工程能力、完善项目经验,并带你掌握机器学习工程师岗位的思维模型,保证你在实际工作中接到需求时,能够独立实现并部署项目上线。

    4

    如何报名?

    「机器学习训练营」第 0 期,采用全程直播授课的形式,将用 15 周时间,带你提升工程能力,成为能落地的实干型机器学习工程师。

    扫描下方二维码,回复“data”获取大额优惠

    名额有限,先到先得????

    5

    预约本周四直播

    本周四晚 20:00,众微科技 AI Lab 负责人王然跟你聊聊机器学习难吗?到底该怎么快速入门?》这个话题直播间还会狂撒现金红包!一定要来看哦!

    你将获得:

    • 机器学习工程师对数学、英语、学历的要求是什么?

    • 从宏观上理解,机器学习到底是在做什么事情?

    • 行业喜欢什么样的机器学习工程师?

    • 快速入门、精通机器学习的最佳路径是什么?

    微信扫码添加好友

    回复“data”预约直播????

    展开全文
  • 现在,就让我们开始了解成为一名机器学习工程师所需要注意的各种细节方面的事宜。我们会把这些信息分成两个基本点进行阐述:技能简介以及语言和库。首先我们将从技能介绍开始,在日后的内容中我们将介绍机器学习的...
  • 在深度学习中,计算机模型学习直接从图像、文本或声音中执行分类任务。深度学习模式可以达到新的精确度,有时甚至超过人类的表现。大多数深度学习方法使用神经网络的架构,这也是深度学习模型通常被称为深度神经网络...
  • 从16年九月份开始,参加了一些公司的算法工程师/机器学习工程师岗位的校园招聘,一些总结,希望可以给大家准备这个职位提供些信息。一、需要的基本技能 数据结构知识 掌握一门编程语言,c/c++/Java/Python 机器...
  • 一、机器学习算法工程师需要掌握的技能 机器学习算法工程师需要掌握的技能包括 (1)基础数据结构与算法 树与相关算法 图与相关算法 哈希表与相关算法 矩阵与相关算法 (2)概率和统计基础 ...
  • 文章目录内容介绍机器学习的误区如何进行机器学习入门业务中灵活的应用 内容介绍 本身很多小伙伴在入行 ...其实在我的眼中人人都是掌握 机器学习/深度学习 的算法工程师机器学习的误区 很多人都误解数学不好
  • 数据工程师建设和优化系统。这些系统帮助数据科学家和数据分析师开展他们的工作。每一个公司里面和数据打交道的人都需要依赖于这些数据是准确的和可获取的。数据工程师保证任何数据都是正常可接收的,可转换的,可...
  • 2018年机器学习算法工程师——秋招自我总结

    千次阅读 多人点赞 2018-10-23 16:40:08
    2018年机器学习算法工程师——秋招自我总结 (2018.3.12 ~ 2018.10.14) (1)简历 - 笔试 - 面试(一面,二面,……,HR面,加面) - offer ...
  • 而要成为一名合格的机器学习算法工程师(以下简称算法工程师)更是难上加难,因为在掌握工程师的通用技能以外,还需要掌握一张不算小的机器学习算法知识网络。下面我们就将成为一名合格的算法工程师所需的技能进行...
  • 尽管机器学习工程师毫无疑义地居于第一,但和去年相比却也是大幅下降,在 2018 年,机器学习工程师占比高达 94.2%,也直接对应了前文所说的「人工智能就业增长放缓」现状。 并且值得注意的是,深度学习工程师是第...
  • 机器学习工程师入门路线

    千次阅读 多人点赞 2016-10-02 17:47:05
    相信想学习机器学习的广大工程师们已经被那些算法大神的言论虐的怕怕的了吧?不用担心,我来带你们理理一个工程师需要入门机器学习,到底要走哪个路线? 一、 基础 不用多说,机器学习作为高门槛领域,基础还是需要...
  • 求职简历-机器学习工程师

    千次阅读 2018-08-12 14:52:00
    求职岗位:机器学习工程师(偏应用) 期望薪资:20000以上 姓名:雷坤 手机号码:18150382334 邮箱:474933858@qq.com 毕业院校:厦门大学软件学院 2.掌握技能 1.机器学习十大经典算法的初步理解(非应聘算法岗位) ...
  • 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx现在互联网行业很多开发工程师(包括前端开发、后端开发等等传统意义上的“码农”)会遇到...
  • 成为一名合格的开发工程师不是一件简单的事情,需要掌握从开发到调试到优化等一...而要成为一名合格的机器学习算法工程师(以下简称算法工程师)更是难上加难,因为在掌握工程师的通用技能以外,还需要掌握一张不
  • 150讲轻松学习Python网络爬虫

    万人学习 2019-05-16 15:30:54
    【为什么学爬虫?】        1、爬虫入手容易,但是深入较难,如何写出高效率的爬虫,如何写出灵活性高可扩展的爬虫都是一项技术活。另外在爬虫过程中,经常容易遇到被反爬虫,比如字体反爬、IP...
  • 机器学习算法工程师面试集锦(更新中)面试问题汇总训练决策树时的参数是什么在决策树的节点处分割标准是什么基尼系数的公式熵的公式是什么决策树如何决定在哪个特征处分割随机森林的优点有哪些介绍一下...
  • 360机器学习算法工程师面经

    千次阅读 2018-04-19 19:18:27
    运用机器学习 干嘛干嘛,数据平时也是时间序列数据,介绍了一下部门情况,然后问,你有什么要问我的吗? 我说:面试结果什么时候出来啊, 他说:大概一周吧,后续有进度会继续通知你的 然后,我说我感觉...
  • 大数据是人工智能和机器学习的基础 人工智能和机器学习将会对制造业产生巨大影响。有了这些技术,制造商将获得解决人类无法解决的问题所需的计算能力。最终将能够为制造商几个世纪以来一直在寻求的生产问题提供规范...
  • 前面一直在准备出国留学申请,中间投递了华为、腾讯、阿里三家公司。幸运的是拿到了华为多媒体算法岗, 腾讯机器学习算法岗,阿里巴巴菜鸟物流算法岗。...阿里巴巴-菜鸟物流:算法工程师(机器学习) 其...
  • 数据科学家Vs机器学习工程师原文: What are machine learning engineers?来源: https://tech.co/12-ways-advantage-big-data-2017-05导读:真正让“数据科学”发挥出了强大威力的,是在人们意识到,数据不仅止于...
  • 机器学习算法工程师笔试及面试总结

    千次阅读 多人点赞 2018-07-06 15:27:02
    一、机器学习算法工程师笔试题 机器学习笔试题目—-网易2016春招 BAT机器学习面试1000题系列 机器学习-算法工程师 -面试/笔试准备-重要知识点梳理 ...关于”算法工程师/机器学习工程师”的笔试和面试总结 ...
  • 现在在企业里的AI和数据科学家被统称为机器学习工程师,早些年,机器学习是个必要的角色。因为它确实能带来一笔非常可观的收入!但机器学习工程师也是因人而异的。 一部分看重本质的人认为机器学习工程师经常会用到...
  • 机器学习算法工程师面试问题

    千次阅读 2018-07-22 22:11:22
    一、OPPO提前批(岗位:机器学习算法工程师) 1.1 一面(通过) 2018.07.21 手写二叉树前序遍历 剑指offer青蛙跳台阶问题:一只青蛙一次可以跳上1级台阶,也可以跳上2级。求该青蛙跳上一个n级的台阶总共有多少种...
  • 1、多种数据库存储的特点与IO速度优化的原理; 2、 科学计算常用模块的使用(如Numpy、Pandas、MatplotLib); 3、 特工工程、特征提取、数据清洗、数据可视化与海量数据检索原理... 4、 了解机器学习原理与常用算法;
  • 揭秘机器学习工程师 一个致力于创造数据产品,运用数据科学于生产的新兴职业。 作者: Ben Lorica and Mike Loukides 译者: 何冰心 近十年来,“数据科学”和“数据科学家”备受争论。对于哪些人可以被称为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 127,314
精华内容 50,925
关键字:

机器学习工程师主要是做什么