云计算大数据

121节课程 5人已学
第1章  Java语言
1.1

内存调整大小,具体的依据是什么?比如一台虚拟机,内存就是6G,分配给tomcat的jvm大内存应该是多少?
1.2

HashMap 时间复杂度?
1.3

ArrayList、LinkedList、Vector区别
1.4

String、stringbulider、stringbuffer的区别
1.5

了解什么是JUC么
1.6

了解fail-fast机制么
1.7

列举Java中的基本数据类型
第2章  Scala语言
2.1

说说Scala伴生对象
第3章  数据库
3.1

说明临时表用途以及种类
3.2

举例说明varchar型和char型区别
第4章  ZooKeeper
4.1

Zookeeper主从服务器如何通信
4.2

Zookeeper端口说明
4.3

Zookeeper HA原理
4.4

谈谈你对Zookeeper选举机制的理解
4.5

工作中哪些地方用到了Zookeeper?
4.6

你怎么理解Zookeeper?
第5章  Hadoop
5.1

MapReduce如何调优
5.2

Hadoop处理数据时,出现内存溢出的处理方法?
5.3

flume怎么同时采集多台服务器的数据,你们是怎么配置的
5.4

Hadoop三种运行模式的适用场景
5.5

Hadoop参数调优,性能优化
5.6

简述Hadoop实现jion的几种方法
5.7

Hadoop中的Sequence File(序列文件)是什么?
5.8

你所知道的Hadoop调度器,并简要说明其工作方法?
5.9

在Hadoop开发过程中使用哪些算法?其应用场景是什么?
5.10

用mapreduce怎么处理数据倾斜问题。
5.11

Hadoop和Spark都是并行计算,那么他们有什么相同和区别?
5.12

请列出正常的Hadoop集群中Hadoop都分别需要启动哪些进程,他们的作用分别都是什么,请尽量列的详细一些。
5.13

请简述Hadoop怎样实现二级排序(就是对key和value双排序)
5.14

Shuffle过程中排序用的什么算法
5.15

如果Reduce个数和分区数不一致时,会发生什么
5.16

讲一下MapReduce的Shuffle过程
5.17

Combiner,partition作用,如何设置Compression
5.18

Datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要namenode 执行格式化操作,这样处理的原因是?
5.19

fsimage和edit的区别?
5.20

HDFS上传文件的流程
5.21

Hive和HBase和MySQL的区别、列存储优缺点。
5.22

什么是combiner
5.23

在一个运行的Hadoop任务中,什么是inputSplit
5.24

两个类TextInputFormatand和KeyValueInputFormat的区别是什么
5.25

说一说你对Shuffle机制的理解
5.26

说一说你对ReduceTask工作机制的理解
5.27

说说mr执行过程
5.28

大数据如何存储?举例说明
5.29

给定a,b两个文件,各存放50亿个url,每个url长度为1-255字节,内存限制是4g,让你找出a,b文件共同的url,说明思路和执行方法。
第6章  Hive
6.1

在Hive中如何处理小文件合并问题
6.2

海量日志数据,提取出某日访问百度次数 多的那个IP
6.3

根据什么对Hive表进行分桶分区,为什么
6.4

insert into和override write区别?
6.5

CRM项目,怎么跟Spark结合?
6.6

数据仓库如何同步,使用什么工具,根据什么进行实时同步
6.7

在Hive开发中为什么建议使用外部表?
6.8

Hive数据仓库中的建模方式,为什么选择这种建模方式
6.9

Hive如何控制权限?
6.10

Hive数据仓库的设计,项目中分了几层,每层有什么意义
6.11

如何保证Hive中数据的质量
6.12

是用什么ETL工具进行Hive中数据的ETL
6.13

Hive的存储格式,以及压缩算法
6.14

请说明Hive中Sort By、Order By、Cluster By,Distribute By各代表什么意思,以及具体的应用
6.15

数据建模用的哪些模型?
6.16

ORC、Parquet等列式存储的优点
6.17

运维如何对Hive进行调度
6.18

数据仓库是怎么建设的?(bdm,fdm,gdm和adm),分别介绍一下
第7章  Kafka
7.1

谈谈对Kafka的理解,Kafka如何保证数据不丢失
7.2

消费Kafka数据的时候,如果遇到了脏数据,或者是不符合规则的数据等等怎么处理呢
7.3

在Kafka 集群中怎么指定读取/写入数据到指定broker或从指定broker的offset开始消费
7.4

Kafka 重启是否会导致数据丢失
7.5

采集数据为什么选择Kafka
7.6

Kafka数据怎么保障不丢失
7.7

Kafka的数据是放在磁盘上还是内存上,为什么速度会快Kafka使用的是磁盘存储为什么速度快呢
7.8

Kafka消费过的消息如何再消费
7.9

用什么方式对接的Kafka
第8章  HBase
8.1

Hbase flush的过程
8.2

请描述如何解决HBase中region太小和region太大带来的结果。
8.3

Hive和HBase的区别。
8.4

Redis,传统数据库,HBase,Hive 每个之间的区别
8.5

简述HBase的瓶颈
8.6

怎样将MySQL的数据导入到HBase中?
8.7

HBase是怎样预分区的?
8.8

HBase宕机了如何处理?
8.9

HBase过滤器实现原则
8.10

HBase如何优化
8.11

HBase怎么实现Scan查询的
第9章  Spark
9.1

说一下spark的shuffle阶段和mr的shuffle阶段分别是什么?区别是什么?
9.2

Spark为什么比Hive快
9.3

Spark中的RDD是什么,有哪些特性?
9.4

Spark为什么比Mapreduce快?
9.5

SparkSql去获取hdfs上的数据会出现的问题有哪些?会出现重复消费吗?怎么解决的?
9.6

SparkSQL调优,SparkStreaming调优
9.7

说说Spark中的累加器
9.8

说说Spark中的广播变量
9.9

Spark 如何防止内存溢出
9.10

Flink、Storm与Spark Stream的区别
9.11

Spark工作机制
9.12

Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?
9.13

Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景??
9.14

Spark master使用Zookeeper进行HA,有哪些源数据保存到Zookeeper里面
9.15

Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么
9.16

Spark的driver的功能是什么
9.17

Spark有几种部署模式,每种模式有什么特点
9.18

Spark中的Work主要工作是什么
9.19

Spark算子 transformation和action算子的区别
9.20

请简要描述Spark任务中的宽依赖窄依赖是什么,以及每个Spark任务的stages是如何划分的
9.21

简要描述Spark任务提交后的执行流程
9.22

你用Sparksql处理的时候 你处理过程中用的dataframe还是直接写的sql?为什么?
9.23

Hive on Spark 和Spark on Hive的区别
第10章  Flink
10.1

Flink是如何实现exactly-once语义
10.2

Flink中watermark生成的规则是什么,怎么用来处理乱序数据
第11章  机器学习
11.1

在处理大数据过程中,如何保证得到期望值
11.2

协同过滤算法的底层实现是什么?
11.3

有了解过哪些机器学习的算法?
第12章  数据结构
12.1

JVM加载类的过程主要有哪些,具体怎么加载
12.2

RPC的原理
12.3

数组和链表的区别,能否用伪代码实现链表
12.4

现有海量日志数据保存在一个超级大的文件中,该文件无法直接读入内存,要求从中提取某天出访问百度次数最多的那个IP
12.5

有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词。
12.6

求一个数组的第二大值?
12.7

给定一个数和一个有序数组,求有序数组的两个数的和满足这个数?(已知这两数存在)/有序数组中寻找和为n的两个元素
12.8

求数组所有可能的子数组?
12.9

二叉树前序、中序、后续遍历方式(非递归)
12.10

二叉树前序、中序、后续遍历方式(递归)
< 上一节
1.1内存调整大小,具体的依据是什么?比如一台虚拟机,内存就是6G,分配给tomcat的jvm大内存应该是多少?
下一节 >

(1)问题分析

    无

(2)核心答案讲解

    JVM内存分配不能分配所有的内存,因为要考虑到 垃圾回收器,其垃圾回收时有新生代和老年代之分,回收时会复制一份数据到内存中,然后这部分是会占用内存,所以是需要安装一定的比例来划分内存空间的。

(3)问题拓展

    无

(4)结合项目中使用

    无

评论( 0
我要评论

还可以上传7

表情
  • QQ扫码
  • 微信扫码