求职刷题神器

funit.cn

讨论区 > 求职面经 > 北京盛唐科技大数据工程师面经 offer已入囊

北京盛唐科技大数据工程师面经 offer已入囊

一蓑烟雨任平生
发布于2020-11-18 11:54:50 277浏览

坐标北京北四环,公司大概有几百人。问的较多的是Hadoop大数据分析、spark、kafka等。 一周内收到offer,整理了一下,供大家参考吧!


技术面考察的问题很多:

1.请列出你所知道的hadoop,spark调度器,并简要说说期工作方式

2.描述hbase存储架构和读写过程

3.Hadoop优化有哪些方面

4.HDFS和一般文件系统有何差别?哪些是HDFS能做但是一般文件系统做不了的?哪些是HDFS无法做到但是一般文件系统能做到的?原因是什么

5.大量数据求topN(写出mapreduce的实现思路)

6.如何理解分布式服务?分布式服务需要有哪些功能组件?列举

7.请列出正常工作的hadoop集群中hadoop都分别启动哪些进程,它们的作用分别是什么,尽可能写的全面些。

8.请列出常用的一些hadoop调度器,并简要说明其工作方法。

9.Hadoop总job和Tasks之间的区别是什么?

10.Hadoop中通过拆分任务到多个节点运行来实现并行计算,但某些节点运行较慢会拖慢整个任务的运行,hadoop侧用何种机制面对这个情况?

11.两个类TextInputFormat 和KeyValueInputFormat的区别是什么?

12.在一个运行的hadoop任务中,什么是InputSplit?

13.hadoop框架中文件拆分是怎么被调用的。

14.Kafka和SparkStreaing如何集成?

15.什么是DStream?

16.描述一下RDD,DataFrame,DataSet的区别?

17.描述一下Spark中stage是如何划分的?描述一下shuffle的概念。

18.描述用机器学习的方法解决分类问题的过程

19.UC是什么?

20.列举Kafka的优点,简述Kafka为什么可以做到每秒数十万甚至上百万消息的高效分发?

21.Spark算子中做连接操作时,join与cogroup的区别

22.通常来说,Spark与MapReduce相比,Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制?并请列举常见spark的运行模式?

23.Streaming优化的方法有哪些

24.hadoop框架中文件拆分是怎么被调用的。

25.请说明什么情况下使用combiner,什么情况下不会使用?

26.请简述并画出kerberos的认证流程

27.列举一些kerveros常用的命令

28.简单描述一下HDFS的系统架构,怎么保证数据安全的?

29.简要的描述一下,客户端怎么向HDFS读数据和写数据的,可以举例说明。

30.在通过客户端向hdfs中写数据的时候,如果某一台机器宕机了,会怎么处理

31.简单描述一下HIVE的功能?用hive创建表有几种方式?hive表有几种?

本文首次发布于趣IT ,转载请注明出处,谢谢合作

北京盛唐科技大数据工程师面经 offer已入囊

全部评论1
  1. 深情&似海 2020-11-18 13:54:45
    楼主你在盛唐科技经历了几面?
    2 全部回复(1) 举报
    • 一蓑烟雨任平生 2020-11-23 11:31:24
      一面+技术面+HR面,具体几次有点忘了,主要记录了技术面试环节
      0 举报

还可以上传7

表情
  • 快速扫码进群
    加入职友圈
下一步
知道了