社区 > 求职面经 > 北京宇信科技据大数据工程师面试题

北京宇信科技据大数据工程师面试题

不知火舞. 发布于2020-11-17 11:43:14   69浏览

公司:北京宇信科技集团股份有限公司 公司大概有5000多人,为银行提供IT服务解决方案的,很大的一家公司,在海淀区用友软件园,面试的大数据,问了很多,目前已通过技术面~围绕项目的问题比较多~


个人情况简单说一下,我是大学自学了hadoop、python,后来又学了Java,大学毕业在一家创业公司呆了两年做数据开发方面,后来又专门去学了大数据。以下是我上半年面试的,整理了一下,分享给大家。


以下是我技术面试过程中的问题:

1.简述synchronized和java.util.concurrent.locks.Lock的异同?

2.Spring中自动装配的方式有哪些?

3.大型网站在架构上应当考虑哪些问题?

4.用过的网站前端优化的技术有哪些?

5.你使用过的应用服务器优化技术有哪些?

6.什么是XSS攻击?什么是SQL注入攻击?什么是CSRF攻击?

7.你知道的排序算法都哪些?用Java写一个排序系统。

8.写一个二分查找(折半搜索)的算法?

9.全排列:给出五个数字12345的所有排列

10.输入某年某月某日,判断这一天是这一年的第几天?

11.输入一个整型数组,数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)

12.简述HDFS一次文件append过程?

13.HDFS性能监控有哪些点?

14.hadoop的块大小,从哪个版本开始是128M?

15.Hadoop数据倾斜问题,是什么原因造成的?

16.flume有哪些组件,flume的source、channel、sink具体是做什么的?

17.kafka的balance是怎么做的?

18.kafka的消费者有几种模式?

19.ETL是哪三个单词的缩写?

20.RDD、DataFrame、DataSet的区别?

21.介绍一下spark中driver和worker的通信框架

22.akka和netty通信框架的区别?

23.spark算子类型,它的工作机制?

24.你对于Spark官网哪里印象比较深刻?

25.reduceByKey和groupByKey的区别

26.spark的job的提交,处理过程

27.sparkStreamingUpdateStateByKey底层是如何实现保存数据原来的状态的?

28.ETL是哪三个单词的缩写?

29.你做的用户都有哪些标签,这些标签是怎么设定的,标签是什么打的

30.标签都有哪些设计规则(比如用户等级,都怎么打标签)

31.每张表都有哪些字段,总共打了多少标签,然后又几张表(然后+一下看够不够)

32.你做的这个用户画像有什么用,以后是怎么推荐的

33.你们项目有多少个map,多少个reduce?

34.你的数据是怎么清洗的,你数据清洗用mapereduce为什么不用scala清洗

35.你的kafka有几个消费组,每个消费组都写什么业务?

36.你设置的过滤规则是怎么进行匹配?难道都是写死的?

37.你多张表构建时,他们的执行顺序你是怎么定义的?

38.你hive是怎么优化的

39.你flume是怎么配置的?

40.你的数据仓库是怎么构建的?

41.一个udf-8的文件,怎么转化成gbk?

42.任务提交你用多大的内存?

43.Yarn资源的提交你描述一下?

评论( 0
我要评论

还可以上传7

表情
热帖排行
热门话题
  1. 01 288人参与
  2. 02 182人参与
  3. 03 111人参与
  4. 04 55人参与
  • QQ扫码
  • 微信扫码