求职刷题神器

funit.cn

讨论区 > 求职面经 > 北京迪科数据咨询~大数据工程师面经

北京迪科数据咨询~大数据工程师面经

梦晴天
发布于2020-11-18 11:52:07 164浏览

坐标公司:北京迪科数据咨询有限公司

本人专业:本科网络工程

面试岗位:大数据开发工程师

面试感觉:很好

面试难度:4星吧


以下是技术面试问的问题。顺序可能不太对,但是大概就这些:


1.介绍几种垃圾回收算法

2.介绍一下jvm 内存区域划分

3.如何查看某个进程里的某个线程cpu利用率?

4.如何判断一个进程出现线程死锁?

5.如何查看进程内部内存结构?

6.如果查看进程的yong gc、full gc

7.Scala中协变逆变的应用场景?

8.Spark中隐式转化的应用场景?

9.Spark中基于standalone还是Yarn?计算引擎是什么?

10.说一下对对RDD的理解?

11.对DAG怎么理解的?怎么形成的?划分不同的stage的依据是什么?

12.Spark2.11默认的消费引擎是什么?

13.SparkStreaming怎么做到流式计算?

14.DSStream是一个什么样的结构?里面有哪些对象?

15.Kafka如何保证数据不会出现丢失或者重复消费的情况?

16.在Standalone模式中Master worker driver三者是怎么协同的?程序出错了会跟谁汇报?

17.Yarn模式下,资源是怎么分配的

18.用递归实现斐波那契数列第100项的值(第一项和第二项分别为0和1),手写

19.算法和数据结构了解到什么程度、知道多少?

20.Spark做缓存时缓存在哪里?

21.是否看过Hadoop源码,简单说一下

22.Linux系统 常用命令说一下?

23.MapReduce数据倾斜和内存溢出怎么办?

24.HDFS原理,以及各个模块的职责?

25.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?

26.两个类TextInputFormat和KeyValueInputFormat的区别是什么?

27.如何决定一个job的map和reduce的数量?

28.如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?

29.什么样的计算不能用mr来提速,举5个例子

30.mapreduce 跑的慢有哪些原因?

31.HDFS小文件的优化方法

32.Hadoop会有哪些重大故障,如何应对?至少给出 5个

33.你认为 hadoop 有哪些设计不合理的地方?

34.你们公司业务数据量多大?有多少行数据?

35.一个网络商城1天大概产生多少 G 的日志?

36.大概有多少条日志记录(在不清洗的情况下)?

37.你们的集群规模(服务器多少台、CPU几个、内存多大)?

38.你在项目中遇到了哪些难题,是怎么解决的?

39.上千万或上亿数据(有重复),统计其中出现次数最多的钱 N 个数据

40.怎么在海量数据中找出重复次数最多的一个?

本文首次发布于趣IT ,转载请注明出处,谢谢合作

北京迪科数据咨询~大数据工程师面经

全部评论1
  1. 深情&似海 2020-11-18 14:23:56
    楼主你有几年大数据工作经验啊?
    0 全部回复(2) 举报
    • 哀伤的猫 2020-11-18 14:25:47
      同问,我干了一年多,有些问题还是回答不好。
      0 举报
    • 梦晴天 2020-11-23 11:33:01
      我有两年工作经验哦
      0 举报

还可以上传7

表情
  • 快速扫码进群
    加入职友圈
下一步
知道了