本人二本计算机毕业,后来报班学习了大数据,面试地点是在深圳,公司:深圳市酷开网络科技有限公司,公司有500-1000人规模,薪资福利很不错,对自己的面试打80分~不知道能不能通过,整体的面试体验还是不错的,我们家新买的电视就是酷开,还是蛮希望进的,HR说一周有通知,估计要凉。
1.数据库为什么查询快?
2.一个语句查询半天一直没有结果你怎么优化?
3.为什么有索引数据库查询的就快?
4.Yarn 资源的调度流程是什么样的?
5.我处理一个用户姓名,时间,地址,我想查用户在某个地点出现一次,有多少人,出现两次有多少人?
6.a表一个字段两个值都是1,b表一个字段一个值是1,他们全关联,左关联,右关联结果分别是什么?
7.Hive的分组排序函数怎么写?
8.hbase的热点问题怎么形成的
9.sparkSQL调优
10.sparkStreaming调优
11.scala的隐士转化
12.foreach与foreachPartition的区别
13.spark的checkpoint
14.广播变量的使用及为何使用,原理
15.spark Core与spark的内存设置,上限,与原则
16.一个数组 100万个整数 无序,奇数放右边,偶数放左边,
17.建立招聘者与面试者的hive表结构,更好从而促进面试机率
18.spark的节点和数据量
19.mysql和redis的数据量及结构
20.hive的压缩格式,
21.Hbase存放那些数据,多大量
22.scala的集合,arrayBuffer
23.创建DataFream有几种方式,他与DataSet还有RDD区别和优缺点
24.spark的缓存,cache,prisist
25.Hbase的rowkey设计
26.scala的元组元素的个数上限
27.请简述一下Hadoop/MapReduce, Spark , Strom , Hive的特点及适用场景?
28.Hive的条件判断有几种?
29.请适用hive写出查询某网站日志中方位多页面a和页面b的用户数量的语句:
30.曾经有没有down机过,如果集群down了,怎么恢复,会不会有数据丢失
验证码登录>
验证码登录>
自动登录 | 忘记密码?
密码登录>
自动登录