求职刷题神器

funit.cn

  • 公司:深圳软通动力信息技术有限公司,在我眼里已经是个大厂了,公司60000多人,ZooKeeper、kafka轮番问,紧张了并有点认怂,希望大家把我失去的机会补回来~1.你怎么理解zookeeper?2.zookeeper应用场景3.zookeeper选举机制4.Kafka数据怎么保障不丢失?5.spark中如何划分stage6.kafka的Leader是怎么产生7.spark创建RDD怎么创建的8.工作中什么工具监控kafka的运行状况?9.Kafka集群中如何平衡Topics?10.怎么查看某一个topic的详情?
    5 3 110
  • 公司:时代金典(北京)装饰工程有限公司,问了很多数据分析与优化方面的问题,自己感觉通过几率50%,/笑哭1.多个字段在join或者union中你如何判断字段和其他表的join关系?2.用什么方式对接的kafka3.说一下hive底层转为mr,底层是怎么转的4.hiveonspark和sparkonhive的区别5.在hiveset中如何设计动态分区如何打开?6.分区中区分静态分区和动态分区,怎么定义静态分区和动态分区?还有有什么区别吗?7.建表语句中分区怎么分?8.sql语句中在hivesql中如何创建索引?9.你用sparksql处理的时候你处理过程中用的dataframe还是直接写的sql?为什么?10.说说mr执行过程
    4 1 104
  • 一面(40min)1、自我介绍?2、Spark任务调度(源码)?3、Kafka基本原理说一下(生产消费模型,存储,Leader选举,ISR…)4、ConsumerGroup中Consumer和Partition的对应关系?5、Kafka支持什么语义(三种语义),怎么实现ExactlyOnce?6、SparkStreaming和Flink的区别?7、Scala的模式匹配和Java有什么区别?8、用Kafka的过程中有过什么问题,怎么解决?9、实习做了什么?10、撕代码:有序链表合并,n*m的带有数字的矩阵,从左上角走到右下角,问最短的路径上经过的数字的和是多少?(dp)二面(1h20min)1、自我介绍?2、Java多线程了解吗?写个生产者消费者模型吧?3、线程池熟悉是吧?写个线程池?4、Java线程同步啥的,不太记得了。5、Flink了解吗,基本的概念说一下?6、撕算法:给一个不带分隔符的IP字符串,要给出所有的可能的IP地址,返回一个List(懵逼,用回溯写了个大概)。三面(40min)1、自我介绍2、实习做了什么?3、Kafka基本原理说一下,和其他的MQ相比的优势?4、Kafka消费者怎么从Kafka取数据的?5、消费者怎么保证ExactlyOnce?6、Kafka消费者怎么保证有序性?7、Kafka生产者怎么保证不丢不重复(幂等)?8、Kafka生产者写入怎么保证有序?9、撕算法:两字符串最长公共子串?差不多就这样结束,三面面试官赶着开会,就匆匆结束了。
    4 2 135
  • 公司情况公司:北京宇动源网络有限公司,面试官介绍说是公司创始人基本都是海归,技术背景了得,公司专注做BI,感觉公司前景不错~面经汇总1.举例说明varchar型和char型区别2.oracle数据库中varchar和char类型有什么区别?请举例说明?3.大数据如何存储?举例说明4.说明临时表用途以及种类?5.说明触发器用途和种类?6.在oracle数据库中视图和物化视图区别及用途?7.oracle数据库中with语句的用途?8.列举数据库集合运算带的语句9.使用sql语句遍历树形结构各级节点的方法10.列举Java中的基本数据类型
    6 2 104
  • 1、自我介绍?2、聊一下最近的项目,项目过程中遇到哪些问题,是怎样解决的?3、Linkedhashmap和hashmap的区别?LinkedHashMap是继承于HashMap,是基于HashMap和双向链表来实现的;HashMap无序,LinkedHashMap有序,可分为插入顺序和访问顺序两种,可基于访问顺序实现缓存4、说一下java虚拟机垃圾回收机制?对象回收算法包括引用计数法和可达性分析算法。引用计数法简单高效,唯一缺点是当两个对象互相引用时无法被回收。可达性分析算法是通过一系列gcroot的对象作为起点,搜索走过的路径形成引用链,当一个对象没有与任何引用链相连,表示对象不可达,可以内存回收垃圾回收算法包括标记、清理算法、复制算法,标记整理算法,分代回收算法,其中新生代一般采用复制算法,老生代采用标记整理算法5、Final修饰的int.stingmap可以改变吗?Final修饰基本数据类型值不可以改变,但是String,Map,数组等,都可以改变其内部的值,因为他们隶属于类,而类里面的属性还是可更改的。6、Spark工作中你会用到哪些rdd?工作中常用到map、flatmap、filter、sortBy、join7、Map和mapPartition的区别?Map整体遍历,mapPartition按照每一个分区进行遍历,效率更高8、Spark有遇到过内存溢出吗?Map过程中产生大量对象会导致内存溢出;数据分布不平衡在Shuffer过程中会导致内存溢出9、Spark调优有了解吗?基本调优和高级调优10、讲一下mrshuffer的过程?首先map生成k.v键值对会收集在环形缓冲区中,当缓冲区达到80%会溢出到本地磁盘,在溢出过程中会按照key进行分区以及排序,然后reducer会根据自己的分区号去本地读取数据文件,读到后会进行合并以及排序,然后进入reducer流程11、Shuffer过程中的排序算法了解吗?Map溢出过程中用到的是快排,时间复杂度是nlogn,空间复杂度最优为logn12、来写个sql吧,不记得具体的sql了......13、有什么想了解的吗?
    3 2 118
  • 公司简介公司:北京睿科伦智能科技有限公司,是一家做AI企业服务的科技公司,技术牛人多的地方,作为计算机系的我们梦寐以求啊!祈祷我能过吧~面经汇总1.项目中为何选取Hbase而没有使用Redis2.协同过滤如何计算用户相关度3.网站的日活是多少4.azkaban的特点5.elasticsearch的使用6.spark实际工作中遇到哪些问题7.spark的调优怎么做的?调参都有哪些参数?8.决策树的原理9.网站日均pv是多少10.Hadoop和Spark处理数据时,出现内存溢出的处理方法?
    3 1 104
  • 本人二本计算机毕业,后来报班学习了大数据,面试地点是在深圳,公司:深圳市酷开网络科技有限公司,公司有500-1000人规模,薪资福利很不错,对自己的面试打80分~不知道能不能通过,整体的面试体验还是不错的,我们家新买的电视就是酷开,还是蛮希望进的,HR说一周有通知,估计要凉。1.数据库为什么查询快?2.一个语句查询半天一直没有结果你怎么优化?3.为什么有索引数据库查询的就快?4.Yarn资源的调度流程是什么样的?5.我处理一个用户姓名,时间,地址,我想查用户在某个地点出现一次,有多少人,出现两次有多少人?6.a表一个字段两个值都是1,b表一个字段一个值是1,他们全关联,左关联,右关联结果分别是什么?7.Hive的分组排序函数怎么写?8.hbase的热点问题怎么形成的9.sparkSQL调优10.sparkStreaming调优11.scala的隐士转化12.foreach与foreachPartition的区别13.spark的checkpoint14.广播变量的使用及为何使用,原理15.sparkCore与spark的内存设置,上限,与原则16.一个数组100万个整数无序,奇数放右边,偶数放左边,17.建立招聘者与面试者的hive表结构,更好从而促进面试机率18.spark的节点和数据量19.mysql和redis的数据量及结构20.hive的压缩格式,21.Hbase存放那些数据,多大量22.scala的集合,arrayBuffer23.创建DataFream有几种方式,他与DataSet还有RDD区别和优缺点24.spark的缓存,cache,prisist25.Hbase的rowkey设计26.scala的元组元素的个数上限27.请简述一下Hadoop/MapReduce,Spark,Strom,Hive的特点及适用场景?28.Hive的条件判断有几种?29.请适用hive写出查询某网站日志中方位多页面a和页面b的用户数量的语句:30.曾经有没有down机过,如果集群down了,怎么恢复,会不会有数据丢失
    5 1 113
  • 公司:北京理工资产经营有限公司,围绕spark和数据库问的较多,感觉不算难!坐标城市:北京面试公司:北京理工资产经营有限公司面试岗位:大数据开发面试时间:大概7月份本人情况:二本大学网络工程下面是技术面试过程一些问题,没有记录全,供参考吧:1.spark的shuffer的过程2.spark的调度流程3.mr的数据倾斜你处理过哪些?4.spark的数据倾斜你处理过那些?5.spark的宽窄依赖是怎么划分的!?6.sparkSql的调优7.spark算子你用过哪些?8.javaspring实现原理9.java反射机制和动态代理讲解一下10.java的多态你是怎么了解的!?11.java的设计模式你了解哪些?12.注解生成对象和new对象的区别13.mysql存储过程和原理
    4 1 101
  • 公司:北京固鸿科技有限公司,源于清华大学的一家公司,技术背景很牛,公司有几百人,但是我的要求也并不是很高,工作能有助于成长是最主要的。非常认真的准备了面试,信心满满,等待明天他们的回复。1.storm的ack机制;2.Hadoop是否遵循UNIX模式?3.fsimage和edit的区别?4.列举几个配置文件优化?5.kafka消息分发与文件存储机制;6.spark常用算子操作,flatmap和map的区别;7.storm的ack机制;8.spark常用算子操作,flatmap和map的区别;9.sparksql又为什么比hive快呢?10.怎么解决kafka的数据丢失?
    2 1 111
  • 前言公司:北京奇艺世纪科技有限公司,问了好多Hadoop大数据分析、spark方面的内容,总结一下:信心不大!面经1.说一下你对hadoop生态圈的认识。2.yarn的理解3.数据来源的方式4.fsimage和edit的区别?5.MapReduce中排序发生在哪几个阶段?这些排序是否可以避免?为什么?6.hadoop的优化?7.RDD中reduceBykey与groupByKey哪个性能好,为什么8.rdd怎么分区宽依赖和窄依赖9.sparkstreaming读取kafka数据的两种方式10.kafka的数据存在内存还是磁盘
    6 1 89
  • 微信扫码加好友进群