1.关于店铺网站页面访问流分析这一块,里面的基础的数据需求是怎么来的?
2.你们这些指标力度主要是在pv、uv、ip是嘛?在哪些维度上会产生?
3.数据提取是怎么提取的?有没有用比如一些第三方的一些服务?
4.这个PIO模式是怎样?PIO入库
5.你们在数据清洗的过程是怎样做的?
6.14) 除了产品外,会提一些数据方面的要求,还是你们自己制定?
7.广播变量的使用及为何使用,原理
8.数据清洗和入库这一块是怎么去做计算的
9.hbase的热点问题怎么形成的
10.kafka为什么要设5个分区
11.sparkstreaming的开窗函数
12.产生shuffle的算子
13.hashMap与hashtable的区别
14.redis集群宕机的问题
15.创建scalaMap有—>和元组两种
16.spark的collect收集的数据在DriverJVM内存中
17.hdfs的存储格式:parquet 压缩使用snappy
18.hive的存储格式以及对集合的操作
19.sparkStreaming的容错
20.spark缓存的数据放到哪里,计算的数据放到哪里
21.项目中遇到的问题,以及解决思路
22.Hbase存放那些数据,多大量
23.创建DataFream有几种方式,他与DataSet还有RDD区别和优缺点
24.ArrayList与LinkedList区别
25.Kafka的数据积压和数据倾斜问题
本人大学毕业一年,自学大数据,之前是非计算机专业,后来转的。公司在北京朝阳望京,没有融资,几十人规模。创业型公司,技术人才很多,对于刚入行来说是个不错选择~
验证码登录>
验证码登录>
自动登录 | 忘记密码?
密码登录>
自动登录