求职刷题神器

funit.cn

  • 面试公司:百融云创科技股份有限公司面试岗位:大数据开发面试难度:中等面试结果:通过面试问题:1.如何利用flume收集到kafka2.如何将数据从kafka存放到hbase中,3.如何在hive中利用hbase建立外部表4.如何将hive中提取的特征值写入mysql5.如何利用hive对kafka中数据进行处理、清洗。6.详细介绍一下画像项目。7.hive和hbase建表区别。8.hive,mysql,hbase区别。面试总结:除了用户画像答的不是很好,别的都还可以
    0 0 5
  • 面试公司:新纽科技有限公司面试岗位:大数据开发基本信息:坐标上海招商局大厦上海分公司,分公司有50多人,现在在兴业银行做项目。问的较多的是sql、hive优化、spark的一些算子、项目细节等。薪资区间:12-16k面试结果:第二天收到offer,整理了一下,供大家参考吧!面试问题:1.视频面试,主要是介绍项目流程,使用的框架,框架的特点,选择这个框架的理由,与同类型框架的对比的等。2.hive的优化3.spark的一些算子,如何会产生shuffle4.spark的调优5.ES的一些概念6.hive的MR,shuffle7.sql的distinct,排序,分组逻辑面试总结:项目一定要熟悉,对于可能会问道的问题要多准备,尤其是关于优化的问题;面试的过程中,感觉要找到聊天的感觉,就像是和朋友之间的聊天,当然把握分寸,全凭感觉,表现出技术之外的能力也可以加分。
    0 0 16
  • 面试公司:埃森哲(中国)有限公司基本信息:坐标上海兆丰广场,上海分公司,500强的外企。薪资18k,二面后三天内收到offer,流程较慢。面试岗位:大数据开发面试问题:1.经过两面,第一面是电话面试,是技术面,基本上学的都问了,MR,Hive,SQL,Kafka,Spark,Flink都问了,比较难回答的就是你在项目中的使用过的各种优化,不专门问哪个,就你熟悉的,而前面已经问过部分优化了。2.再就是面的时间比较长,技术面问的很全面,会的就回答,不会的问题就避开,就说不会就行。3.第二面稍微问了下项目,其他的主要了解你个人,比如离职原因,对本公司了解吗等等,然后问你想了解什么之类的。4.主要是流程很长,投简历到最后收到offer花了2-3周,最后上面也等了1-2周。面试总结:1.项目是核心中的核心,项目中的技术是一定会问的,项目中没用到的技术如果不会就说不会。2.项目中自己负责的那一部分,一定要非常清楚。比如能说出来具体做了什么,所以项目一定要自己确切的做过,而不是单纯的看以下老师的代码,要自己一个个敲,照着敲,理解就行。3.对于已经就业过了的,自己简历上的公司要熟悉,比如地址,待遇之类的。
    0 0 12
  • 面试公司:上海艾融科技有限公司面试岗位:大数据开发面试难度:简单面试结果:通过面试内容:1.都用过哪些技术?2.会用Linux吗?我说会用但太底层的没多大研究,只是一些日常的操作,那问几个常用命令3.Hive优化4.Sqoop优化5.Sqoop在导入数据的时候数据倾斜6.每天sqoop跑多大的数据量7.数据采集架构8.Hive常用文件格式介绍一下Orc和Parquet9.都分析过哪些指标10.Java的一些操作,我说我们公司java开发不是我负责的,掌握的只是一些基础,没有像java程序员那样研究的那么透彻面试总结:主要是java部分不太熟,其他的都还可以都是数仓方面的。
    1 0 20
  • 面试公司:北京数洋智慧科技有限公司公司信息:数洋智慧致力于以数字化、智能化技术助力企业、行业的数字经济发展。在当前中国产业自主创新、转型升级的关键时刻,数洋智慧成为“行业数字化转型的领航者”,为中国经济腾飞和民族崛起贡献力量。公司目前的产品服务已覆盖政务、能源、交通、建筑、安全、化工等重要行业,为国家部委、各地政府、央企等大型客户提供大数据、区块链解决方案和相关服务。面试岗位:大数据开发面试问题:1、简单说一下hive、spark的生产优化2、为什么kafka可以实现高吞吐?单节点kafka的吞吐量也比其他消息队列大,为什么?3、Hive自定义那些UDF函数,你们都处理过哪些??4、Spark那些算子是在map端聚合的,简单说要几个·5、Kafka的偏移量offset存放在哪儿,为什么?你们都放在哪里?6、Linux命令查看内存、磁盘、IO、端口、进程7、flink支持的数据类型8、flink数据倾斜是怎么解决的面试总结:他们主要是用flink和spark去处理一些生产问题,然后对于算子这块问的比较多。还有一些常见的生产问题。挺好的,等后面通知<
    0 0 18
  • 面试公司:软通动力信息技术(集团)股份有限公司面试岗位:大数据面试时间:7月份面试难度:难面试结果:未通过面试问题:1.用户注册量、日活?2.spark如何处理小文件?3.kafka如何保证生产者端只生产一次?4.kafka为什么比别的消息中间件优秀?5.Sparksql对信息进行过哪些处理?6.kettle的原理?7.hadoop小文件多会产生什么后果?hadoop:元数据信息会占用NameNode很多资源,hadoop并不是为处理小文件而存在的,主要是为了访问流式访问大文件而设计的。MR:每个小文件都会开启一个maptask,这样job的时间会慢很多倍。解决方式:hadoop中有一些特性可以用来减轻这种问题:可以在一个JVM中允许taskreuse,以支持在一个JVM中运行多个maptask,以此来减少一些JVM的启动消耗(通过设置mapred.job.reuse.jvm.num.tasks属性,默认为1,-1为无限制)。另一种方法为使用MultiFileInputSplit,它可以使得一个map中能够处理多个split。8.JVM了解吗?</d
    0 0 20
  • 面试公司:中科软科技股份有限公司面试岗位:大数据开发面试难度:中等面试结果:通过面试问题:1、常见shell脚本2、Oracle和mysql的区别3、kettle是以什么方式进行输入和输出的4、为什么使用hive(hive的优点)5、sql的优化6、hive的运行流程7、mysql中字段区不区分大小写8、一个sql查询问题9、一些其他问题。面试总结:oracle没学过,别的除了优化答的不是很好,别的都还可以
    0 0 33
  • 面试公司:中科创达软件股份有限公司面试岗位:大数据开发面试难度:中等面试结果:待定面试内容:1:hive的优化?2.写hive建表语句?3.简单说下hive?4.底层实现?5.hive的表类型?6.hive创建表的几种方式?7.udf和udaf都写过哪些?8.介绍下udaf?自己写过吗?9.hive用哪个版本?10.hive窗口函数?11.写sql:1月100,2月200,3月100,4月200.统计如下效果:1月100,2月300,3月500,4月600.【就是每月统计一次前面所有的月的总额】加个over,就可以orderby与partitionby类似?12.hive2.0llliptz了解吗?新特性?13.hive时,怎么合并小文件来着?14.列出了三张关联的表,其中一张表有点击数量的统计。让我们算一天的所有点击数量写出hivesql,我没写出来?15.Hive的优化?面试总结:面试的问题全部都是针对hive去进行提问,还涉及一些实际操作的,因为没有真的做过,所以说的时候问题都能回答处,但是有的没有回答的非常准确
    0 0 37
  • 面试公司:上海动力天成科技有限公司面试岗位:大数据面试难度:中等面试结果:未知面试问题:1.hive执行sql时的工作流程?2.hive的默认分隔符?3.hiverank(以某个字段分组,在组内排序,找出各组的TOPk)?4.问到了hive的优化?5.怎么解决HIVE产生的数据倾斜问题?6.问我Hive具体怎么用的?7.HIVE中UDFUDAFUDTF的区别。数据倾斜问题怎么解决?表连接有几种类型?8.HIVE怎么优化?HIVE常用的几个配置是哪些?9.Hive什么时候不能用combiner?10.添加自定义UDF的时候都是临时的,怎么永久添加?11.怎么保证kafka传过来的数据之正确的处理一次?-----结合Storm事务来思考12.flume和kafka什么区别?13.kafka为什么要分多个partition?14.kafka和sparkStreaming的整合?怎么保证数据kafka里的数据安全?(丢失)----磁盘存储,数据使用完后的删除的策略15.kafka的key为null可以吗?16.怎么往kafka集群写数据的?kafka用到的什么设计模式?----发布订阅模式17.kafka的原理?如果生产数据是消费数据100倍,该如何处理?18.flume与kafka区别?19.有很多消息队列技术,为什么选择kafka?----kafka的特性方面回答20.kafka为什么可以支持那么大的吞吐量,怎么实现的,我直接说不知道。?----顺序读写,partition的分布式存储21.flume什么时候用?22.Flume处理日志重复问题?23.flume监控问题?24.Flume是如何拿数据的?25.flum
    0 0 28
  • 个人信息:本人是2018年大专毕业,黑马程序员学完大数据保险项目,复习两天直接开干,靠面试进行总结提高。面试公司:德科信息外派平安寿险时间:9月份面试城市:深圳公司情况:德科信息外派平安寿险,德科信息是一家外包公司,外包到平安寿险面试,视频面试。面试岗位:大数据薪资范围:15-20K面试问题:1、自我介绍+项目介绍2、数据倾斜3、sqoop导入大文件时一天数据导入不完怎么解决这个问题?4、spark-任务提交流程5、MR流程6、分区表和分桶表7、项目出现问题和解决方案8、kafka的消息丢失9、kafka的ISR(同步副本机制)10、职业规划问题11、hive中sql语法notin后面不可以跟子查询问题怎么解决?12、对于某些NULL值的字段引起的数据倾斜怎么处理?(这里面的某些业务字段是要保留的.不能随便删除)13、sqoop全量和增量导入的有哪些表?面试总结:除了第10题和12题没答好,其他基本OK,职业规划问题就业老师说过其实考察的还是近期的稳定性,当时有点紧张没想起来合适的回答。
    0 0 37
  • 面试公司:深圳中联创新科技有限公司面试城市:深圳面试岗位:大数据公司情况:主要经营产品:控制器,读卡器,4门控制器,单门控制器,八门控制器薪资范围:9K-13K面试问题:1.自我介绍2.数据库的了解3.工作中遇到的问题4.雪花算法5.两个单链表有交点,怎么快速找到交点6.docker问题7.加密算法
    0 0 35
  • 面试公司:华泰期货有限公司面试城市:深圳个人情况:本人是2017年大学毕业,之前在公司从事的是运维相关的工作公司情况:华泰期货有限公司是中国首批成立的期货公司之一,是一个大型的期货交易公司,对大数据有需求。薪资范围:20-35K面试形式:三人面试,开发加技术leader加部门主管、现场面试。面试岗位:大数据开发面经问题:1.自我介绍/项目介绍2.问我之前的主要工作内容3.聊了下业务4.MySQL的优化5.Flink整合kafka6.数据建模Topic的确定7.谈谈对数据治理的理解8.谈谈对数仓的理解9.对金融产品了解吗10.职业规划和薪资要求我问的问题:1.业务方向2.部门人员构成3.数据量4.工作内容面试总结:技术问的不算很深入,但是需要对对金融业务有所了解,还好学了今日指数项目,顺利拿下offer。
    0 0 30
  • 面试公司:中电金信软件有限公司面试岗位:大数据时间:8月份面试难度:简单面试结果:通过面试问题:1.mr读写流程2.HDFS的读写流程3.你的开发是怎么使用的,比如在java上面写的程序怎么使用到服务器上了,格式是什么4.你常用的数据库是什么,介绍一下,有什么优化吗5.你业务宽表怎么做,你为什么要做拉链表,拉链表具体怎么做?6.hdfs上面的命令,问了很多,比如在hdfs创建文件一共三级目录,实际没有第二,第三级目录能创建成功吗。命令怎么写,mkdir前面+-吗,dfs前面呢,你确定吗7.你说几个项目指标,怎么计算的,sq1怎么写8.sq1:表A字段有一千条,表B有同样的字段100条,问题:除去B字段100条,求剩下的A字段900条面试总结:很多实际操作上面的问题,大多课程里面有学过
    0 0 51
  • 面试公司:博彦科技股份有限公司面试岗位:大数据开发面试难度:中等面试结果:通过面试问题:1.首先自我介绍2.说一下你最熟悉的项目3.画一下项目架构图4.服务器配置,一天的增量,峰值,每个批次的数据量,你们电商网站是哪个,面试官对我的数据量表示惊讶(你们这网站不小啊)5.如果接受到的kafka数据有延迟如何解决,限制吞吐量如何计算(maxrateperpartition)6.不用offset,如何用kafka消息的时间来进行拉取数据7.spark底层运行程序的方法(job.run()),task是如何划分的(从kafka取出来后如何划分)8.sparksql底层实现流程,转换task的过程9.spark提交模式,流程说一下10.sparkcore和dataframe的默认数据存储格式,有哪些数据格式11.写sql,两个字段(id,zhanghao)每个id有多个账号,统计每个id总共有几个账号12.listbuffer和list的区别13.scala怎么实现函数和方法的转换,MapList集合的使用,scala和java一些集合类的转换需要导哪些包,区别14.structstreamiing的有界表和无界表15.spark序列化和不序列化的区别,默认的序列化是什么格式16.如何计算出你清洗了多少条数据,处理了多少条数据17.spark内存模型,具体描述一下有哪些,动态是什么样的18.esterm和match的区别,querymatch和querybool的区别,logstash特点描述一下用什么来写的19.解释
    0 0 59
  • 面试公司:北京中恒博瑞数字电力科技有限公司成立于2003年,是中恒电气(股票代码:002364)的全资子公司,是国家认证的高新技术企业和软件企业。中恒博瑞的业务范围涵盖了继电保护定值计算、电力生产精益管理、电网规划设计、电力物联网监控等四大专业方向,提供完整的信息化解决方案以及IT技术支持。面试岗位:大数据开发面试问题:1、你们spark哪个版本,可以简单介绍一下吗?2、sparkStreaming如何和Kafka对接3、Kafka消费过的消息如何再消费,数一下过程4、cdh版本多少,对应组件都是什么版本的?5、集群怎么部署的6、用idea写快速排序7、手写sparkwc8、解释Scala的模式匹配9、谈谈Scala隐士转换10、spark一个excutor给多大内存面试总结:聊了一会,他们不是外包和面试官确认了一下。主要是考察业务能力和编码能力多一些。重实战。
    0 0 43
  • 面试公司:明觉科技(北京)有限公司面试岗位:大数据面试难度:难面试结果:通过面试问题:1.因为面试的岗位要求是应届生和在校生,对项目经验不是很看重。2.问的技术问题主要是关于离线数仓的问题3.有多少台物理机,集群规模4.项目的人员组成:大数据部门:2人,java:2人5.问了几个离线数仓和hive的相关的问题(1)历史数据怎么保存的:拉链表(2)项目中拉链表大概有哪些,怎么创建的拉链(3)给了我几个具体的业务场景让我计算,比如算每个部门的人员的工资top100(使用row_number()+over(partitionby..orderby..))(4)项目中使用kettle主要干什么的(主要做数据的导入导出)(5)项目中的supperset的一些使用(6)星座模型,雪花模型,星型模型的区别(7)缓慢变化维(8)主要负责项目中的什么职责面试总结:聊得还不错问的都回答上来了,薪资也问了
    0 0 46
  • 面试公司:北京快乐茄信息技术有限公司公司信息:茄子科技(海外SHAREitGroup)作为一家全球化互联网科技公司,主要从事移动互联网软件研发与互联网服务等业务。茄子科技秉持着“让数字内容被平等获取”的企业愿景,始终立足于服务全球用户,结合用户多元诉求,不断创新产品形式,丰富产品矩阵,旨在搭建“人与内容”连接的优质平台,消除断层,让数字娱乐内容变得无国界,触手可得。旗下拥有以SHAREit(国内茄子快传)为代表的多款广受欢迎的工具和数字娱乐内容应用,多元化产品矩阵全球累计安装用户数近24亿,覆盖200多个国家和地区,涵盖全球45种语言,名列2020年AppAnnie东南亚十大应用发行商排行榜Top2。面试岗位:大数据开发面试问题:1、hdfs的小文件优化2、sparkstreaming消费Kafka的偏移量怎么维护3、Spark的UDAF函数4、对hive的理解和优化策略5、Hive有没有自己写过UDF函数6、Spark生产上用过没?你们提交的是全量的jar包还是分开jar包有依赖包spark里面试总结:整体面了大概有三个小时吧,就这几道题印象比较深刻。问的比较生产,理论也考察,主要是考察spark多一些。
    0 0 41
  • 面试公司:中科软科技股份有限公司面试岗位:大数据开发面试难度:简单面试结果:通过面试问题:1.数据传输过程,namenode挂了怎么办。datanode挂了怎么办。会出现什么情況,详细说一下,比如数据会发生什么情況,怎么处理2.你写sq1遇见过什么问题3.casewhen/怎么用,请举例说明4.hive你印象最深的问题是什么。怎么解决5.hive的优化,说出5个说出怎么使用解决了什么问题详细一点6.spark的组件有哪些。用过哪些7.介绍一下flume8.你们sq1怎么执行,脚本具体怎么执行,用的什么命令9.什么情況下使用分区和分桶10.具体介绍一下hive(元数据放在哪,特点,是什么之类的)11.hive.spark.mysq1区别12.zk选举机制,如何保证数据一致性面试总结:共问了1小时问题,这只是一半问题。提醒大家也得看看java得应用,程序怎么跑
    1 0 41
  • 面试公司:博彦科技股份有限公司面试岗位:大数据开发面试难度:难面试结果:通过面试问题:1.用户注册量、日活?2.spark如何处理小文件?3.kafka如何保证生产者端只生产一次?4.kafka为什么比别的消息中间件优秀?5.Sparksql对信息进行过哪些处理?6.kettle的原理?7.hadoop小文件多会产生什么后果?8.hadoop:元数据信息会占用NameNode很多资源,hadoop并不是为处理小文件而存在的,主要是为了访问流式访问大文件而设计的。9.MR:每个小文件都会开启一个maptask,这样job的时间会慢很多倍。面试总结:基本上都回答上来了
    0 0 37
  • 面试公司:上海中软华腾软件系统有限公司面试岗位:大数据开发基本信息:坐标上海徐汇区漕河泾开发区这边,部门是保险事业部,大概有五百多个人,目前还在招人中,大概每天会有两三个人入职。主要问的是Spark方面的问题,薪资的话是16,这边招人比较急,所以面试完第三天就入职了,整理了一下,供大家参考吧!面试问题:1.面试官说话不太清晰且声音有点小,有的问题我都是猜着回答的2.上来就为什么来上海(我的回答就是比较常规的,希望提升自己嘛)3.因为我填的是5月份离职,所以接下来就问我为什么两个月了还没找到工作(我的回答就是离职完没有立刻来上海,家里有些事情需要处理,来这边也就不到一个月,还强调了下离职不是因为工作能力的原因,而是私人问题)4.hive的元数据管理5.spark计算过程中产生大量小文件的影响怎么解决(影响的话就是网络IO,解决方案我回答的是Consolidate机制)6.问了spark任务的执行流程(这个就是照着之前老师给的资料背的)7.Mysql的b数和b+数(当时没答上来,感觉问的频率挺高的)面试总结:面试官问问题一般比较快,第一次面的同学经常会出现听不清紧张的情况,这个时候就找你知道的类似的问题回答就可以了。
    0 0 31
  • 面试公司:优酷网公司简介:优酷网是由古永锵于2006年6月21日创立,12月21日正式上线的视频平台。优酷现为阿里巴巴集团数字媒体及娱乐业务的核心业务之一,也是阿里巴巴集团“DoubleH(健康与快乐)”策略的组成部分。优酷现支持PC、电视、移动三大终端,兼具版权、合制、自制、用户生成内容(UGC)、专业生成内容(PGC)及直播等多种内容形态。优酷的日均付费用户规模正持续健康增长,于截至2020年3月31日止财政年度同比增长超过50%。面试岗位:大数据开发面试问题:1、java内存模型;2、java垃圾回收机制;3、编译好的scala程序,运行的时候还需要scala环境吗;4、object中有哪些方法;5、如何监测集群中cpu,内存的使用情况,比如说:有一个spark特别占资源,特别慢,怎么排查这种情况;6、ArrayList中Array的长度超了是怎么增加的,一次增加多少;面试总结:一面的话,问题都是一些基础的内容,这样的公司对于java有些要求。也考察了一些算法,但是因为面了大概2个小时,有些问题记不清了
    0 0 38
  • 面试公司:博彦科技股份有限公司面试岗位:大数据面试难度:中等面试结果:未知面试问题:1.数据清洗流程(源,过程)2.sqoop导数据是否了解sqoop3.sqoop底层(我说不参与)4.埋点怎么弄?5.nginx了解吗?(没搞过,不负责)6.你具体负责哪一块?7.hdfs了解多少?读写流程,架构8.写流程中备份三,其中一个写失败了怎么弄的?9.hdfsHA(过程,启动流程)10.简单说下hive11.底层实现12.数据清洗怎么发现的13.hive的表类型14.hive创建表的几种方式15.清洗完后面都有哪些要求16.sparkSQL介绍下(RDD、DataFrame)17.DSL和SQL用哪个比较多18.udf和udaf都写过哪些19.介绍下udaf20.自己写过吗?21.spark运行在Yarn上流程(cluster)22.介绍下yarn23.spark调优24.shuffle主要介绍下25.宽窄依赖26.为什么会发生数据倾斜,你怎么知道发生数据倾斜的27.shuffle怎么落地的?28.kafka和sparkStreaming的整合29.怎么保证数据kafka里的数据安全?(丢失)30.kafka的key为null可以吗3
    1 0 32
  • 面试公司:博彦科技股份有限公司面试难度:简单面试岗位:大数据开发面试结果:通过面试问题:1.自我介绍加加项目介绍2.项目中的人员配置状况,项目中你负责的主要业务3.你负责的指标和维度,挑几个说一下,并说一下怎么算的4.SQ题目:关于TopN,还有表的关联(给了我两个题目,让我说下大致思路5.每天的数据量有多少还有数据来源说一下6.你们对数据怎么分层的,每层具体做什么和每层数据量大小7.hive调优简单介绍一下,有哪些调优参数?8.介绍一下你们数仓有哪些系统9.表的分类10.udf,udaf,udtf的区别11.数据质量的分类和维度12.说一下你来公司具体能做什么13.对本公司有什么问题嘛面试总结:对于项目中以及对数仓,建模,hive优化问的问题比较多。
    0 0 42
  • 面试公司:北京品星信息技术有限公司面试难度:简单面试结果:通过面试问题:1.leftioin限制条件写入到on里面和写到where里面结果一样吗?不一样的区别?2.SQL实例问答3.hive小文件怎么处理?4.scoop脚本5.对ETL工具了解多少?比如kett1e等6.维度跟指标概念7.项目中mysq1导入到hive时,数据中出现转行符怎么处理?8.面试官貌似是台湾的,问我去东海大学时对台湾有什么感觉?9.删除外部表是删除了什么?保留了什么?面试总结:对离线部分问的较多,整体面下来一会,大多都能回答上来,面试还是比较轻松的。
    0 0 28
  • 面试公司:北京无双科技有限公司公司简介:无双科技短时间内抢得市场先机;AG竞价助手所涵盖的各种专项分析功能,能随时随地帮助客户调整投放策略,节省了大量的时间成本;完善的报表功能以及新颖的数据分析模型实现高效、实时、多维度的数据解读,配以技术领先的自动竞价功能,每位客户在无双科技(AnG)的帮助下实现了千万量级关键词的精确调价。面试岗位:大数据面试问题:1.spark为什么比hadoop快?2.rdd的处理过程是什么,不要说概念3.日志表中的数据使用hive怎么实现,mapreduce怎么实现?4.请使用awk,sed命令对文本文件中第二列和第三列取出来?5.请说出你在spark中的优化方案?6.你在项目中使用的技术,解决了什么问题?7.说说hbase的API都有哪些filter?面试总结:提问到生产细节比较多,对于简历上的内容从上到下全部过了一遍,他们对于英语这块有些要求,对于口语这块,技术的话,hbase和spark有些要求<d
    0 0 26
  • 面试公司:昆山华信软件技术有限公司面试岗位:大数据开发面试难度:中等面试结果:通过面试问题:1.介绍一下上个项目2.数据量,数据结构3.数据在kafka的分层4.设置watermark水印的时间5.离线项目也问了一下,主要是数仓设计6.Hbase的读写,7.Region的热点问题,8.Shell语言熟悉不?9.了不了解阿里云?面试感受:还是比较简单的
    0 0 31
  • 面试岗位:大数据面试公司:平安公司信息:平安项目组非常多,有离线项目组和实时项目组,离线项目组问的较多的是hadoop底层原理、hive数仓分层及调优、hql函数、Oozie及Sqoop问题偏实际应用,因为实际用到的就是这些工具。另涉及常用Linux命令、Hbase相关理论。面试问题:1.自我介绍及介绍最近项目情况,介绍的spark项目但是基本没有问相关内容。2.hdfs读写流程,mapreduce原理3.hive中用到哪些函数,开窗函数有哪些,作用是什么。4.说几个Linux命令,说了两三个后让再说几个。5.针对两个离线项目都问了分层怎么分的,每层具体怎么做的,数据怎么清洗的,导数怎么导的。6.hive调优怎么做,随后问到join优化实际怎么做的,说了几点都不满意,回答将小表广播到每个节点避免每次都加载竟然说不错不错。。7.Oozie底层原理,Oozie怎么判断前置依赖已经完成.8.Sqoop导数怎么导的,实际怎么导全量数据和增量数据,怎么区分是全量导数和增量导数。9.Hbase你们用来干嘛,为什么用Hbase,数据怎么导到Hbase。面试总结:问的问题基本都是离线框架这块的知识点,与实际应用贴合比较紧密;个人觉得不用每个问题都必须回答的上来,有几个让面试官觉得回答得很不错的点基本就能通过。平安离线项目组现在的大数据人员缺口较大,所以面试通过概率应该也比较大。
    0 0 57
  • 面试公司:国美控股集团有限公司面试岗位:大数据开发公司信息:1998年,国美在中国家电零售行业,成立了以高度信息化为平台的物流系统,取消门店库房,过渡到集中配送模式,提高物流系统的运作效率。2005年10月,国美在总部成立了物流机构。国美物流中心下设项目部、运营管理部、检查培训部三大部门。项目部对全国仓储资源的整合,负责引进物流新技术并规划国美物流系统的发展方向。运营管理部负责全国的商品调拨、市内配送指导、库存商品进行全程跟踪监督与管理;截至2013年2月,国美在全国由49个分部物流中心,200多个二、三级市场外设库。面试问题:1.项目中数据仓库是怎么分层的?2.怎么保证数据仓库每层之间的数据完整性?3.原始数据层中,用于存储原始数据的hadoop高可用架构的主备namenode节点之间是怎么保证数据同步的?4.为什么要将主节点的写操作对应的editlog文件放在共享文件中,而不是直接让备节点去主节点中拉取文件同步呢?5.namenode主备同步的共享文件保存在哪里?在主备节点还是另外一台机器?6.namenode主备同步的共享数据文件是怎么保证高可用的?7.数据仓库中层与层之间,怎么保证某一层数据出现变化,该层的下游能够感知到?(数据血缘)8.产品问你,你通过sparksql计算出的数据,如何保证是正确的,该如何回答?(数据质量如何保证)9.spark的计算过程是怎样的?10.sparksql转化为spark的具体任务,转化的过程是怎样的?面试总结:国美这边主要是三轮面试,问题的内容除了简历上的生产细节还考察了一下算法的内容。总体来说还是不错的。
    0 0 41
  • 面试公司:小麦文化面试岗位:大数据开发面试难度:难面试结果:未通过面试问题1、spark的RDD?怎么生成RDD?2、spark常用的算子?3、spark提交任务遇到过哪些问题,怎么解决?4、怎么解决数据倾斜??5、spark的UDF、UDAF、UDTF6、spark的shufflemanager?7、spark的DAG可变吗?描述DAG?8、flume是做什么用的?9、关于flink的了解?面试总结:全是spark和flink的内容,spark回答的挺好,flink没学
    0 0 38
  • 面试公司:上海新致软件股份有限公司面试岗位:大数据课程面试难度:简单面试结果:通过面试问题:1.简述Hadoop的几个默认端口及其含义2.Linux中vim编辑器你了解多少?3.mapReduce有几种排序及排序发生的阶段4.MapReduce怎么实现TopN?5.kafka数据丢失问题,及如何保证6.在Kafka中broker的意义是什么?7.你们集群多少个节点,kafka多少个?8.内部表和外部表的区别?9.Sqoop底层是如何执行的?10.四个By的区别和作用?面试总结:对于面试来说整体大部分的问题课程里都有涉及,只不过有部分没有准备好,有几个没有答上来。
    0 0 45
  • 快速扫码进群
    加入职友圈
下一步
知道了