精华内容
下载资源
问答
  • 基于大数据岗位需求 Python 课程教学改革探析.pdf
  • 分析了100份大数据岗位要求,总结出这4点.pdf
  • 大数据岗位的面试总结

    千次阅读 2017-05-03 15:36:19
    转载自:大数据岗位的面试总结 本人住在有人间天堂之称的城市,6年多开发经验,最近2年主要在做大数据相关的开发,最近考虑换工作,基本也只考虑大数据相关岗位。目前新工作已经找好,但想分享一下最近面试的失败...
     
    
    本人住在有人间天堂之称的城市,6年多开发经验,最近2年主要在做大数据相关的开发,最近考虑换工作,基本也只考虑大数据相关岗位。目前新工作已经找好,但想分享一下最近面试的失败一些经历(成功的那些就不讲了),吐槽吐槽,跟广大吃瓜群众分享一下过程中的经历心得,我的语文体育老师教的,还请大家莫怪。


    1.公司:国内知名电信运营商,其下面的大数据研究院,面两轮
    一面:技术人员面,先自我介绍,项目经验相关介绍,问比较细,问了一些Hadoop、HBase的问题,JAVA基础,JVM内存分配小于32G原因,G1和CMS对比,问关系型数据库事务级别,脏读、幻读意思。

    问题回答情况:其中G1与CMS区别我只讲了G1比CMS更耗CPU,但回收更快效果更好,两者内存划分设计不同,G1更适合大内存等,具体原因及细节没讲清;脏读、幻读只回答出跟数据库事务有关,面试当时忘记了具体什么叫脏读,什么叫幻读,有点分不清。这两个好像都没有答好,然后面试官问了我待遇期望。

    二面:隔了4天,打电话过来让我去二面,是部门经理面,其也是做技术的。上来让我自我介绍,然后就围绕我讲的开始问。讲到之前项目中通过hbase的coprocessor的endpoint方式在服务端通过jni调用c++写的算法库实现数据计算过滤功能,然后这位经理就问为什么你们图像识别相关的CV算法不用JAVA写,要用C++?

    我感觉有点懵逼,惊叹怎么会有这么小白的问题,但面上不能表现出来,简单回答说现在大部分算法都是通过C/C++写的,JAVA因为JAVA是完全面向对象的特性及jvm的关系,不适合做这么底层的事情,性能会有损耗。但似乎对方没有理解和听懂,表情带着不理解和质疑,半天从他嘴里吐出一个结论:你们不用JAVA写算法是因为你们公司搞算法那帮人只用C/C++去搞。

    我当时有点无语,不知道该怎么跟这种对CV算法一无所知的人解释(或许我该说很多算法库都是C/C++写的,让你用JAVA调用cuda的库你累不累),但对方又接着问下一个问题,你怎么看待大数据领域接下来的发展趋势?

    这个问题我从来也没想过,脑袋里突然冒出前阵子参加的云栖大会有个分会上讲得一些片段,糊里糊涂的瞎说了几句,说spark很热,使用的人非常多,后续也会集成流处理技术的一些新特性,另外说现在很多集群完全部署在云上,将来网络瓶颈解决有可能会往云上和云下自己管理的集群结合的这种方式发展。
    这个答得的确不好,有点以偏概全了,对方显然对我这个回答很不满意,又问你认为磁盘IO性能会是瓶颈吗?
    我回复说这个是目前大数据领域集群的主要瓶颈,但这个问题还好,应该会被克服改善(我想说可以把冷、热数据分离,热数据用速度快的SSD之类存储,但我没说出来)。
    对方的目光有点嘲弄的感觉,不是很友好,后来就是问一些期望待遇及让我提问之类的环节。
    结果:over,好吧,无所谓了,安慰自己,本来就不是很想去那边,因为自己偏实干型怕活太少(有点自虐),大概了解到的是对方的员工都过得偏安逸。


    2.公司:某跨境电商企业,为一些国家和地区的特色产品做电商服务。
    先跟他们HR聊,HR人不错,说话比较客气礼貌。

    接着是技术面,一共4个面试官,分4轮面。

    第1个哥们人挺逗,先让我自我介绍,看我简历上写着对CV相关算法有一定了解,好像跑了题似开始不断问我CV相关问题,我跟他说我工作早几年自己研究过一段时间这方面的东西,但不是很擅长,很长时间也没研究了,只是相比没接触过这方面的人来说要厉害一些,我也没有研究过Spark MLLib。不知道他哪根筋不对,问我你们公司深度学习相关的程序你有没有研究过,我说没,他又问我通常图像识别的一些流程,我大概说了一下,说得不是很细,他不停的惋惜的说道,哎呀,你这相比其他人没有特别的优势呀,你要是精通算法这方面再加上大数据就有亮点。我非常纳闷,心想难道你们公司是传说中人工智能和大数据结合的非常好的公司吗,莫非还是把无监督机器学习自我优化集成到你们的大数据系统中了吗?不应该呀,看你们的样子好像还没有那么NB,再说现在搞大数据的有几个会深度学习算法的,大多还是偏框架数据采集存储挖掘方面的。

    第2个哥们,是搞大数据相关的,不过他基本不像是在面试我,反而是在跟我吐槽他们公司,说自己也是刚来了3个月,公司哪里流程不对,自己意愿无法左右其他团队等,不过就简单跟我说了这么一通就完了。

    第3个哥们,具体是负责哪方面技术不是很清楚,感觉有点偏算法,就问了我一个题目,像是脑筋急转弯的编程题,题目是N个人围成一圈,从第1个人开始报数,第一个人报1,第二个人报2,依次下去,报到数字X的人退出圈子,下面的人继续报,请写个程序问最后留下的哪个人。我说这好像有一个便捷的方法或公式能计算最后一个人,不过我脑子想不出来,只能想一个简单的递归函数去实现,他说行,然后我就写了一个,写得马马虎虎。

    第4个,是他们CTO面,这人阴沉板着一副脸,还没说话就感觉气氛不对,估计他觉得我看着比较年轻竟敢要那么高薪水,这种人的表情我也没少见。语气有点冷,先让我自我介绍,我介绍的比较简单,然后又说了一些项目中的情况,产品数据流之类的。

    我们的产品的数据源是从ORACLE数据库里面定时去拿的,这个模块叫数据获取服务,流程很简单,就是定时读取数据后交给另一个模块,然后他说问怎么把这个数据获取服务拆分成两个模块,我很无语,说这个就是这么简单的去拿数据,没有可以再拆分的,他说就是要拆分成2个模块,我表示不知道他脑袋里怎么想的,说不知道。

    然后问了我做的一些架构经验,我说自己设计写过过一个分布式实时计算框架,是借助了一个RPC中间件去实现的,整体各模块有点类似Hadoop MapReduce,但更像Impala,不需要每次创建启动Job。我跟他简单说了一下这个RPC中间件,说了一些优缺点,例如它的消息发布订阅机制没有像Kafka那样有很好的持久化机制,程序退出了,这些消息就没了。

    他一脸的质疑,说怎么可能没有持久化,他问我那个中间件的名字,然后百度去搜,搜出来某个帖子上有人说的那个中间件的一些特性,讲到一个模块是专门做持久化的,然后他就拿来阴沉着脸质疑我说,你看,这不是持久化吗?我看他那样表情,不想再多解释什么,想说艹尼玛,有点常识好不,那帖子讲得完全不是一个东西,那个持久化不是指消息发布订阅的持久化,这中间件我好歹也用了小半年,你这么百度一搜就敢理直气壮质疑我,这水平真是CTO?

    结果:他们HR后来还打电话问我跟CTO聊完感觉怎么样,我感觉自己脾气太好了,没有抨击一下那个CTO,就说他不太清楚我做的东西。HR把我的期望压得很低问我愿不愿意去,我直接说不去了。见过这么奇葩的CTO,就算加薪让我去,我还得重新考虑。

    3.公司:某视频监控安防行业的知名公司,面试其下的大数据研究院的一个大数据开发岗位。
    面试我的是他们的一个技术主管和另外一个技术人员,上来先自我介绍,详细问了一些项目相关的信息,然后问了很多Hadoop、HBase的一些原理,项目中rowkey和分区设计,问了spark streaming 并发度、createDirectStream和createDStream的区别,一段时间内分别生成了几个RDD,问了Kafka分区各副本是如何在集群各台机器上分布的等。

    有好几个问题没回答清楚,感觉自己表现和准备不是很好。
    结果:等通知。后来隔了好多天通知我去HR面,鉴于我当时已经收到其他offer,而且面试情况不是很好,估计会被压offer,就委婉放弃了。


    4.公司:国内知名互联网公司,Hadoop研发工程师岗位。
    电话面试:面试了25分钟左右,问了很多大数据的基础的技术问题。如Map Reduce相关,Reduce时如何Sort,HBase优缺点,LSM相关,前面基本上全部答出来了,但是最后问到有没有做过用Map Reduce处理数据join,因为我之前做的项目大数据框架比较简单,没有多表关联的查询,当时对join概念也有点反应不过来,就说没做过,然后又问Map Reduce join有几种方式,也没答出来。

    结果:电面没过,就因为最后两个跟join有关的没答出来,就over了,尽管回去后恶补了这方面的知识。


    5.公司:某做数据营销广告大数据服务的公司,大数据研发岗位。
    面试我是的他们做大数据架构团队的主管,先自我介绍,讲了一些项目的东西,然后对方觉得我之前做得项目大数据架构比较简单,态度比较桀骜,然后又问了一些JAVA基础的东西,比如BIO与NIO特点与区别,问我有没有用过,我答得不是很好,但应该还过得去,然后又问Concurrent包下面有哪些类,ConcurrentHashMap与HashMap区别等等。我感觉他有点轻视我,不是一个公正的眼光在问我。然后又问我Linux命令熟不熟,吧唧吧唧问了好一些,我基本都答出来了。

    最后他冒出一句,我们现在这边大数据开发的岗位都基本招满了,还缺一个大数据运维的,除了部署维护大数据集群,还要写一下oracle的udf。我问他这跟开发工作关系密切吗,他说关系非常密切,只是他们大数据的研发都偏向于写代码,不愿干这活。感情他是在逗我,QTMD。
    结果:然后就没有然后了。


    6.公司:某车贷互联网金融公司,大数据研发岗位。
    先是电话面试:面试了25分钟左右,问了Hadoop Map Reduce资源配置、ElasticSearch原理的一些问题,问得比较简单,基本都没问题,问道Lucence如何实现对一个字段索引的时候,其实只要答倒排索引就好了,我比较二,把倒排索引怎么实现的大概讲了一下,细节还讲得不是很好。

    过了几天,然后是直接面试,这次面的内容还是比较简单,面试官人感觉不错,就是有点二,怎么说呢,理解能力不太好,比如问我HBase 不同colomn family跟关系型数据库中的列的区别,我答说colomn family在物理上是独立的store file,可以只查询某个

    column faimily,而关系型数据库一条记录是整行数据,查询的时候,需要整行数据都读出来,然后吧唧吧唧又扯出好多。结果你猜怎么着,他说我还是没有回答到点上,说
    column family是面向列的。我有点无语,我都把它怎么是面向列的底层存储结构都讲出来了,你竟然还说我没答出来。问了很多问题都基本答出来了,就是面试官总觉得我没有答到点上,说自己貌似明白我的意思了,问我是不是平常很少沟通问题。这种人真是活久见,明明一个意思,我答得更详细清楚,他非说我没答出那个标准答案名称,面试这么多次,这种情况真是第一次碰到。最后问了Hive相关的,问我有没有用过,我说没用过,但这种跟基本SQL差不多,问Hadoop Stream相关,我也说没怎么用过。问得问题都比较浅,没有什么深入的问题。

    结果:后来HR通知我说面试官觉得我技术深度不够,哎,有点搞笑的,其他几个面试下来要这么说我完全没意见,但是这位面试官问得那些问题我基本都答出来,而且他自己没怎么问我深入的问题。算了,奇葩总是有的。

    其他一些经历就不啰嗦讲了,个人总结有几点如下:
    1.现在做大数据相关的公司和人还不是很多,相比常见的如JAVA岗位面试官的水平明显要差很多,除了接触的几个知名点的大公司问题环节比较规范,不过这种现象应该接下来几年会有所改善。

    2.有些时候不是你技术不行,而是你的谈吐表达能力给他们的印象,像我自己表达语言组织能力只能算中等可能还偏差,表达条理不好容易被pass。
    3.感觉工作经历跳槽少的并不比频繁跳槽的受待见,像我6年只在2家公司待过,大家都知道,在一家公司工资是很难涨上去的,而对方人力往往以你当前薪资作为重要参考,就算你的水平比相同工作时间的人强很多,但对方公司不可能马上了解到,你想要跟这些相同工作年限人相同水平的薪资可能都比较困难,对方人力往往以此打压你开太高期望涨幅过大。
    End.
    展开全文
  • 导读年前,个人换了大数据岗位,目前主要从事大数据分析和大数据算法相关工作。在前期数据分析师岗位的基础上,虽然只是增加了一个"大"字作为前缀,但所涉及的技术栈和工作理念其实还...

    导读

    年前,个人换了大数据岗位,目前主要从事大数据分析和大数据算法相关工作。在前期数据分析师岗位的基础上,虽然只是增加了一个"大"字作为前缀,但所涉及的技术栈和工作理念其实还是有很大变化的,其中打交道最为频繁的当从一个关键词说起:Apache。

    Apache:世界上最大的开源软件基金会

    01 关于Apache

    Apache是一个成立于1999年的非盈利性组织,其所属软件基金会(ASF:Apache Software Foundation)致力于为开源软件项目(前提是该项目已列入到Apache项目)提供服务和支持,得益于其良好的管理和宏伟的愿景,Apache目前是世界上最大的开源软件基金会组织。当然,Apache软件基金会的资金主要来源于个人和企业的捐助。

    以上截图源于Apache官网

    从中可以看到这样一组数字:

    • 维护350+个项目和提案

    • 300+顶级项目

    • 管理227M+行代码(2.27亿+)

    • 4.2B+行代码更改(42亿+)

    • 3.9M+代码提交(390万+)

    • 社区参与人数46万+

    • ……

    作为一名程序员,看到这些以K、M、B(billion)来计数的内容,总是难免心生波澜心存敬畏……更重要的是不仅数量庞大,而且Apache所涉猎领域还众多,按照Apache官网分类有27个子类,我个人日常工作中涉及到的主要是big-data所在分类,所以本文就来简要介绍一下几个常用的Apache顶级项目,大多属于大数据范畴。

    02 频繁打交道的几个Apache顶级项目

    个人目前从事工作内容包括大数据分析、大数据算法以及部分大数据开发相关,所用到的技术栈主要包括:

    1)Hadoop:提起大数据想必人人皆知Hadoop,狭义的讲,hadoop是yarn资源调度+hdfs分布式存储+mapreduce两阶段分布式计算的技术集成;广义的讲,hadoop其实已经代表了以hadoop为核心的一套大数据技术生态,除了hadoop自身,还包括Hbase列式存储、Hive数仓、Spark分布式计算等等。在实际工作中,用到的主要是其hdfs存储和yarn资源调度功能;

    2)Hive:大数据的核心是存储和计算,hadoop的hdfs提供了底层的分布式文件存储,而对这些存储映射为结构化数据并提供类SQL查询的组件则是Hive,其与关系型数据库(RDB)在数据方式和查询语法上都较为相近,但同时又有着很多本质上的区别:例如Hive是OLAP(面向主题),记录了大量历史数据,可能存在重复和冗余,主要操作是插入和查询数据;而关系型数据库则是OLTP(面向事务),实时记录了最新数据,一般遵循数据库设计6大范式(至少遵循前3个范式),全面支持增删改查。正因为Hive的HQL语法与常用的SQL语法极为相近,所以学习成本较低,使用起来更容易上手;

    3)Spark:Hive提供了一定的数据分析能力,但在执行效率和功能方面都还存有一定短板,所以Spark出于Hive而胜于Hive(Spark的早期版本Shark是基于Hive的)应运而生,由于采用了内存式计算设计,相较于Hadoop中的MapReduce两阶段计算框架而言,有着上百倍的效率提升,更重要的Spark支持4种语言API(Java、Scala、Python和R),对标数据处理阶段涵盖批处理、流处理、机器学习以及图计算,可谓是提供了多语言一站式分布式计算方案,使用起来还是较为方便的;

    4)Parquet:parquet实际上只是一种数据存储文件格式,具有较高的压缩比,所以存储体积更为小巧。其标志性特点就是列式存储,读取和存储的parquet文件自带Schema信息,但是要求不能存在列名重复。与txt、csv类的通用文件格式不同,parquet文件可能也算是大数据中的一个标志性文件类型,甚至称的上是文件存储格式的标准;

    5)Maven:maven是一个项目构建工具,个人在构建Scala项目中会有所应用。通过Maven构建的Scala项目,其最大的优势在于项目文件目录更为清晰,严格按照src-main/test-scala类的格式建立和管理项目文件,更重要的是通过配置pom文件,可方便的管理项目中的依赖,实现自动下载和导入,使用起来更为简洁方便。


    6)Zeppelin:用Python做数据分析的应该都知道Jupyter,与之类似,用Spark做数据EDA的最好工具当属Zeppelin:通过设置不同的解释器路径,可以提供一个多语言的交互式分析环境,包括spark的各语言环境、scala、python以及SQL等,在SQL解释器下还支持简单的数据可视化能力。不过坦白的讲,对于习惯了jupyter的用户而言,可能会觉得zeppelin的快捷键支持和界面功能方面都还有待提升;

    当前zeppelin最新版本为0.9.0

    7)Airflow:Airflow是一个调度管理工具(因其最早源于Airbnb公司,所以名字含有air),现也是Apache顶级项目,功能有些类似于linux下的定时任务调度工具crontab,但功能更为完备,包括提供了多种类型调度任务、可通过WEB UI便捷管理、支持分布式多节点执行等。个人目前将其余mlflow配套使用,共同完成从数据预处理到特征构建直至算法建模输出整个流程的调度使用,目前仍在持续探索中。

    相关阅读:

    展开全文
  • 分析了100份大数据岗位要求,总结出这4点 随着大数据应用在生产生活中的普及,大数据人才的需求越来越多,据《中国经济的数字化转型:人才与就业》的报告显示,目前我国大数据技术人才缺口超过150万;尤其是兼具...

    分析了100份大数据岗位要求,总结出这4点

     

    随着大数据应用在生产生活中的普及,大数据人才的需求越来越多,据《中国经济的数字化转型:人才与就业》的报告显示,目前我国大数据技术人才缺口超过150万;尤其是兼具技术能力与行业经验的复合型人才,更加缺乏。

     

     

     

    正式市场的供不应求,导致大数据行业的性价比极高,各个大厂纷纷开出高额年薪抢夺人才。

     

     

     

    当然,这么高的薪水意味着大数据行业并不是说进就进的,它也有一定的门槛。我分析了近 100 个大数据岗位的要求,发现各个企业的要求大同小异,总体可以概括为以下四点:

     

    1. 熟悉 Java、Python 等开发语言;
    2. 掌握特定技术栈,如Hadoop、Hive、Spark、Flink 等;
    3. 有相关业务经验;

    4、大数量级的项目经验。

     

     

     

     

     

    其中,开发语言和大数据技术栈的掌握是基本要求,项目经验是证明个人能力最直观的方式,而业务经历就是加分项了,有相关业务经历意味着候选人能够快速上手,减少岗位磨合时间。

     

    由此可见,想要成为一名合格的大数据开发,光靠技术还是远远不够的,还需要相应的项目经验和业务理解能力。其中,项目经验尤其重要,也是自学转行的难点,自己在网上找的项目数量级一般很小,远远不能满足面试的需求。

    我收藏的一些大数据行业的内部资料,包括大数据工程师手册、大数据开发学习路线图,以及美团、字节等大厂的面试真题,想要的同学可以扫码免费领取。

     

     扫码获取资料

     

    展开全文
  • 大数据岗位最新面试题~3.18

    千次阅读 2019-03-18 16:32:09
    随着互联网时代的不断发展,现在越来越多的人都选择从事IT行业,然而能够在这个行业十几年,中间...下面分享我一个朋友在面试大数据岗位的时候所做的面试题,可以先看看: JAVA相关 List与Set的区别? HashMa...

     随着互联网时代的不断发展,现在越来越多的人都选择从事IT行业,然而能够在这个行业十几年,中间只换过两三次公司,那也算是行业界的一股清流,然而现在的公司并没有那么好做,都想进入BATJ,但是发现自己硬是差了很多,就连普通的企业都困难,这是为什么呢?

    难就难在面试题!下面分享我一个朋友在面试大数据岗位的时候所做的面试题,可以先看看:

    1. JAVA相关
      1. List与Set的区别?
      2. HashMap、HashTabale的区别及优缺点?
      3. String, StringBuffer,StringBuilder的区别
      4. 请使用JAVA实现二分查找
      5. Java中有两个线程怎样等待一个线程执行完毕
      6. 简单描述一下java的gc机制

     

    1. Linux相关

                   1.用shell命令在当前目录下找出包含字母a的文件

                   2.linux用什么命令查cpu,硬盘,内存的信息?

     

    1. Hadoop相关
      1. 简单概述hdfs原理,以及各个模块的职责
      2. 谈谈数据倾斜,如何发生的,并给出优化方案
      3. 怎样快速的杀死一个job
      4. Parquet数据格式理解
      5. N个datanode中有一个datanode出现错误会怎样?
      6. 怎样决定mapreduce的中的map以及reduce的数量

     

    1. Hive相关

                    1. hive是怎样保存元数据的

                    2. UDF函数,作用是什么,如何实现

                    3. hive分区表原理,动态分区有什么注意事项,作用是什么?

     

    1. Hbase相关

                   1. Hbase的rowkey怎么创建比较好?列族怎么创建比较好?

                   2 .Hbase常用过滤器

                   3 .Hbase预分区有什么好处?

                   4 .Hbase大量数据导入方式有哪些?导入太慢怎么办?

     

    1. Spark相关

                   1.如何理解Spark2的DataSet

                    2 .Spark链接kafka的方式并简单说明优缺点

                    3 .SparkStreaming有哪些调优操作

     

    百度百科也说过大数据对现在社会的影响是这样概述的:

    随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

    看到这,你是不是觉得大数据真的很神奇也很厉害,也许你肯定会想大数据肯定很难,但不要被这些吓到了!

     

    展开全文
  • Q:请问从事大数据这行,硕士学历有必要么? A:如果有条件,最好可以上到硕士,但不是说必须如此,大数据相关职位对行业知识和项目经验也比较看重,如果家庭经济情况允许,自己学习意愿比较强可以选择读研Q:我以前...
  • 大数据岗位笔试

    2020-12-21 15:49:11
    https://ks.wjx.top/jq/29096793.aspx
  • 大数据岗位分工

    2020-10-12 09:39:29
    现在来说,对数据分析和数据清洗需求更大
  • 大数据发展非常火热的时候,很多想加入大数据行业的小伙伴,犹豫和困惑最大的问题就是大数据岗位薪资情况,下面就给大家分析分析。数据开发在互联网岗位薪酬中,排名第二1、职位量大增,投递量增长更快从 2015 年到 ...
  •  老读者都知道,博主是大数据应用开发专业的,所以未来简历投的岗位也一定与大数据相关。在大数据的面试中,Java基础是必不可少的。由此,博主本期分享整理的53个Java面试题,希望大家能够受用。 文章目录1. java...
  • 大数据岗位招聘需求

    千次阅读 2018-01-07 00:00:00
    最近一年大数据火爆异常,各种培训班开课广告满天飞,很多做开发的朋友也想转到大数据这一行,在投递简历的时候进场被几个岗位搞迷糊,他们是大数据分析师,大数据研发工程师,大数据建模工程师,大数据挖掘工程师。...
  • 文章讲的是R语言领跑 大数据岗位霸占IT薪酬榜单,在过去一年中,技术行业的整体收入增幅约为3%,而熟悉大数据相关语言、数据库以及技能的人才则在其中扮演着薪酬领跑者的角色。  根据Dice网站最新公布的2013至2014...
  • 大数据岗位面试题:1、你们数据采用什么导入到数据库的?导入到什么数据库?2、你们业务数据量多大?有多少行数据?3、你们提交的job任务大概有多少个?这些job执行完大概用了多少时间?4、h...
  • 讨论哪个大数据岗位会火之前,我们先来简单的分析一下大数据领域的行情,这里重点说一下当前的情况。 2016年,互联网行业遇到了资本寒冬,抛开大公司不说,一些中小型的公司不断的缩减预算,因为很难融到钱。 但是从...
  • 这是一个很硬的转载博客,文章作者是博主原大学基友,现于中科院读直博,个人博客方向是python、爬虫以及自然语言处理。以下是原文链接: Python爬虫 抓取大数据岗位招聘信息(51job为例)...
  • 大数据开发入职之路~第一篇:大数据技术生态圈
  • 大厂大数据岗位面试随笔

    千次阅读 2019-07-10 12:54:07
    腾讯PCG事业部 大数据开发岗 技术一共三面: spark数据分发机制 Hadoop集群高可用机制阐述 Spark Streaming给个具体视频应用场景阐述开发思路及任务架构(期间会涉及到数据存储,查询,字段设计、及哪部分数据适合...
  • 大数据岗位薪资了解一下~

    千次阅读 2020-03-01 22:00:01
    大数据是IT界的行业术语,本名叫巨量数据集合。大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的...
  • Interview:人工智能&大数据岗位面试—【数据分析师】的简介、技能、待遇、进阶的详细攻略 目录 数据分析师的简介 1、网友经验之谈 数据分析师的待遇 数据分析师的技能 数据分析师进阶 数据分析师的...
  • 大数据与云计算的就职方向有哪些,其实在找工作的时候,我们不仅要看我们所学的专业名称,更要看看哪些岗位岗位要求符合我们所学的内容。  例如大数据开发工程师这一职位,其岗位职责包括:·采用现在技术开发...
  • 大数据是IT界的行业术语,本名叫巨量数据集合。大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量...
  • 用python爬取前程无忧网大数据岗位信息并分析

    千次阅读 多人点赞 2019-10-19 13:40:31
    2、前程无忧的招聘岗位信息数据固定的放在HTML的各个标签内,通过id选择器、标签选择器和组合选择器可以诸如公司名、岗位名称和薪资等11个字段的数据。 3、基于上述1和2,可以通过解析检索“大数据”得到的URL得到其...
  • 建表语句: create table ... cluster by user_id into 96 buckets
  • 项目目录项目要求工具软件具体知识点具体要求数据源爬取字段数据存储数据分析与可视化具体步骤分析网页实现代码抓取全部岗位的网址字段提取可视化分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均...
  • 本篇博客所分享的知识非常硬核,建议各位看官(尤其是大数据专业的同学啊),赶紧搬好小板凳,带好西瓜,我们边看边吃瓜。 说错了,是带着小本,边看边记下来 申明:本篇仅仅只是作为一个大纲目录,具体内容我会在...
  • 大数据相关的开发,最近考虑换工作,基本也只考虑大数据相关岗位。目前新工作已经找好,但想分享一下最近面试的失败一些经历(成功的那些就不讲了),吐槽吐槽,跟广大吃瓜群众分享一下过程中的经历心得,我的语文体育...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 33,389
精华内容 13,355
关键字:

大数据岗位