后边有收到结果嘛,我这边也接到邀约了,可以方便聊聊嘛。
公司:北京兴财信息技术有限责任公司 ,公司有上百人,是一家老公司,他们说92年成立的,聊了一下大数据分析和spark方面的问题,又问了一些关于项目的,感觉面试官比较nice,希望能加入~
1.简单概括安装hadoop的步骤
2.简单概述hadoop中的角色的分配以及功能
3.对调度怎么理解.? 用什么工具吗?
4.你们数据中心开发周期是多长?
5.你们hbase里面是存一些什么数据
6.spark开发分两个方面?哪两个方面呢?
7.比如 一个读取hdfs上的文件,然后count有多少行的操作,你可以说说过程吗。那这个count是在内存中,还是磁盘中计算的呢?磁盘中。
8.spark和Mapreduce快? 为什么快呢? 快在哪里呢?
9.内存迭代。
10.RDD设计。
11.算子的设计
12.怎么解决卡夫卡的数据丢失
13.mr的工作原理
14.如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?
15.什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?
16.如何判别mapreduce过程有好的负载均衡?什么是负载均衡?
17.Hadoop的机架怎么配置的?
验证码登录>
验证码登录>
自动登录 | 忘记密码?
密码登录>
自动登录