求职刷题神器

funit.cn

讨论区 > 求职面经 > 华为大数据开发岗位一面面经

华为大数据开发岗位一面面经

時雨和风
发布于2021-04-06 17:45:53 82浏览

面试公司:华为

面试岗位:大数据开发

面试时长:1h

面试问题:

1、(手撕代码)一个情境题,用sql和spark rdd算子两种方法做

有一个表,内有四个字段

Userid、day、algotype、score

其中algotype是算法标记字段,假设共有算法1和算法2两个字段,每天每个用户的相关数据可能用来算法1也可能用来算法2来计算最终得分,还有可能两种算法都用了;假如只用了一种算法那就以此算法作为最后的结果,如果两种算法都用了,那就以算法二的结果作为最终结果。数据格式如下:

1 2020-03-19 1 85
2 2020-03-19 1 72
2 2020-03-19 2 75

2、(手撕代码)关于上面问题的修改:要求过滤出只包含最终结果的数据行

3、实际工作中最擅长的是哪一部分?

4、实时的都分析过哪些逻辑?

5、恶意登录的逻辑定义是什么?

6、工作中有哪些问题出现比较让人头疼的,然后通过调优或者其他手段解决的?

7、离线数仓中参与过哪些有关维度划分的工作吗?划分维度用细化粒度是什么、模型最终呈现是什么样的?

8、flink中滑动窗口和滚动窗口的区别,实际应用的窗口是哪种?用的是窗口长度和滑动步长是多少?

9、讲一下sparkstreaming的offset 和flink的状态后端机制

10、Flink你们大部分时间用的是checkpoint吗?了解flink的savepoint吗?讲一下savepoint和checkpoint的不同和各有什么优势

11、flink如何做到exactly-once的?

12、有没有用sparkstreaming或者flink写过自定义的一些消息队列,如何写的?

13、说一说spark的三种join机制,比如广播join、hashjoin等

14、spark的两个代表join的话,分布式的处理内部如何实现的?

15、spark的重分区算子以及区别


本文首次发布于趣IT ,转载请注明出处,谢谢合作

华为大数据开发岗位一面面经

全部评论0

成为第一个评论的人

还可以上传7

表情
  • 快速扫码进群
    加入职友圈
下一步
知道了