求职刷题神器

funit.cn

  • 面试公司:启云数联时间:4月份面试难度:难面试结果:未通过面经内容1:简单的自我介绍。2:知道mapreduce么,阐述一些什么是mapreduce,以及原理。3:你所知道的排序关键字有哪些。4:sortby和oederby有什么区别。5:hive中都有那些表。6:了解spark吗?7:distinct和groupby那个去重好。8:查看当前目录-删除命令-怎么查看后几行数据。9:hbase和hive的区别。10:说一下项目的个人负责模块。11:思维逻辑题(真是不了解,就让她给我讲了下)有一栋100层高的大楼,给你两个完全相同的玻璃球。假设从某一层开始,丢下玻璃球会摔碎。那么怎么利用手中的两个球,用什么最优策略知道这个临界的层是第几层??面经总结问的更多的是一些基础理论的知识点,还是对原理性的东西掌握的不是很熟,之前考虑更多的是业务的问题,接下来在复习一下理论知识
    1 0 38
  • 面试公司:携程旅行网面试岗位:大数据开发工程师面试问题:1.flink计算资源分配2.flink精确一次语意3.说说Flink的常用算子?4.flink某个任务卡住了怎么处理5.Flink中在使用聚合函数GroupBy、Distinct、KeyBy等函数时出现数据热点该如何解决?6.hive调优7.Flink任务延迟高,想解决这个问题,你会如何入手?8.Flink有没有重启策略?说说有哪几种?9.sql笔试:连续三天登录的用户思路:三次自联结查询即可selecta.usernamefromlogtablea,logtableb,logtablecwherea.time=b.time+1andb.time=c.time+1anda.action='loging'andb.action='loging'andc.action='loging'anda.usernaem=b.usernameanda.username=c.username10.Flink中水印是什么概念,起到什么作用?11.Flink是如何保证Exactly-once语义的?12.Flink计算资源的调度是如何实现的?13.Flink分布式快照的原理是什么?
    3 0 68
  • 面试公司:美团面试岗位:大数据开发工程师一面|1h10min1.自我介绍2.项目简介因为我的项目都是离线计算的,主要用的是hive和spark。讲完第二个项目,面试官问了我开发中有没有遇到过性能问题,做过调优么?我回答的是spark的资源参数调优,然后他问我为什么会想到这几个调优参数,依据是什么?3.问答环节(1)Spark的执行流程了解么?说一下(2)Java的垃圾回收的算法有了解么?(4种)(3)说一下你对HashMap的理解吧?(我是基于jdk1.8讲的,没说1.7)(4)讲一下LinkedList和ArrayList,区别是什么?(5)MySQL索引了解么?说一下?继续问:回答过程中我说了B+Tree,然后面试官问为什么MySQL用B+Tree,它比起B-Tree的优点在哪?MySQL索引的问题会有哪些?(6)Linux用过么?Linux查找文件的命令是什么?我回答说不知道,然后面试官问我你都用过哪些命令。然后我巴拉巴拉说了一些很简单的,然后他说了解了。4.coding环节(1)数组最小和问题定义:一个数组从0~N-1,每个元素的左侧小于或等于该元素的所有元素之和称之为该元素的最小和。数组中所有元素的最小和称之为数组的最小和。求给定数组的最小和。我想了5分多钟,然后想不出来解决办法。然后用暴力法,面试官看到之后给你个提示归并排序。然后问我归并排序的思路知道么?我简单解释了一下,然后我又想了两分钟跟他将归并我理解的不好,然后他就说那咱们下一题吧。(2)单链表反转我写出来之后提交通过率只有百分之80,然后面试官问我写完了么?我说写完了,然后他就说好,先这样。(内心PS:我好慌,我明明写的思路对的,为什么每AC)5.反问环节二面|1h40min面试官那边网络信号不好,说话也听不清楚,面试体验
    3 0 126
  • 面试公司:华为面试岗位:大数据开发面试时长:1h面试问题:1、(手撕代码)一个情境题,用sql和sparkrdd算子两种方法做有一个表,内有四个字段Userid、day、algotype、score其中algotype是算法标记字段,假设共有算法1和算法2两个字段,每天每个用户的相关数据可能用来算法1也可能用来算法2来计算最终得分,还有可能两种算法都用了;假如只用了一种算法那就以此算法作为最后的结果,如果两种算法都用了,那就以算法二的结果作为最终结果。数据格式如下:12020-03-1918522020-03-1917222020-03-192752、(手撕代码)关于上面问题的修改:要求过滤出只包含最终结果的数据行3、实际工作中最擅长的是哪一部分?4、实时的都分析过哪些逻辑?5、恶意登录的逻辑定义是什么?6、工作中有哪些问题出现比较让人头疼的,然后通过调优或者其他手段解决的?7、离线数仓中参与过哪些有关维度划分的工作吗?划分维度用细化粒度是什么、模型最终呈现是什么样的?8、flink中滑动窗口和滚动窗口的区别,实际应用的窗口是哪种?用的是窗口长度和滑动步长是多少?9、讲一下sparkstreaming的offset和flink的状态后端机制10、Flink你们大部分时间用的是checkpoint吗?了解flink的savepoint吗?讲一下savepoint和checkpoint的不同和各有什么优势11、flink如何做到exactly-once的?12、有没有用sparkstreaming或者flink写过自定义的一些消息队列,如何写的?13、说一说spark的三种join机制,比如广播join、hashjoin等14、spark的两个代表join
    2 0 73
  • 面试公司:作业帮面试岗位:大数据研发工程师一面1.先是两分钟左右的自我介绍,你有什么优势?2.数据库索引结构有哪些?3.紧接着又问了如何定位并优化慢查询sql?4.索引是建立的越多越好吗?5.说一下你知道的垃圾收集算法和垃圾收集器6.堆内存是怎么分配的?7.你看过flink源码?(因为简历中有写看过部分源码)直接问我Flink作业的执行过程了8.然后就问了java中强引用,软引用,弱引用,虚引用有什么用?9.Http和https的区别是什么,https的数据传输过程?10.GET请求和POST请求的区别?11.算法只问了一道关于二叉树按层打印的算法题。12.反问二面1.又是自我介绍环节…….2.问了TCP/IP的三次握手和四次挥手?3.当你在浏览器输入网址后会发生什么?4.HashMap的put方法的执行逻辑?5.数据库事务的四个特性?6.介绍你的项目7.每天可以容忍的并发量指标8.Source端数据量过大,ES本身没有一个很好*(数据流)动态反压机制,来不及反压,就会在日志中会报timeout错误,如何解决?9.StreamingWordCount的执行过程?10.flink中为什么没有类似的feekback机制?11.credit-based如何进行反压的?12.state如何进行存储的?13.如果遇到value值很大的极限场景怎么办?14.看你用到了elasticsearch,知道多少?15.最后就聊天式的问了下为什么转行到编程的问题?</p
    2 0 84
  • 面试公司:阿里巴巴面试岗位:大数据研发工程师一面1.免去自我介绍,上来介绍一下实习时kafka在项目中的使用。2.Kafka架构3.Kafak如何保证数据一致性4.系统设计题:设计一个数据存储系统,如何保证每天同步的业务数据不丢失等。5.Jvm垃圾回收算法6.ArrayList与Linklist区别7.Hashcode与equals方法区别,结合集合使用说一说。8.介绍一下SparkStreaming使用9.计算机网络常见状态码是否了解,比如404500301等10.面试官自我介绍,以及你有什么想问的。个人感觉面试官对kafka特别精通,一直在问kafka比较深入的问题。二面二面是突击面大晚上9点半面试官竟然打来电话,没有任何准备。面试官上来就会要你自我介绍,后来才知道这是阿里非常常见的面试形式。1.介绍一下数据挖掘比赛的情况,并针对比赛提出一系列问题。2.Hadoopmapreduce过程3.JavaStringBuffer与StringBuilder区别4.MybitsPlus实现原理5.SpringMVC实现流程6.Java集合源码相关问题,put方法过程。7.说说未来个人职业规划以及有什么想问的。三面1.自我介绍2.说一说实习项目经历。3.说一下Java与c++的区别。4.详细阐述Jvm垃圾回收与类加载机制。
    1 0 64
  • 面试公司:字节跳动面试岗位:大数据开发一面:1、exector分为几种内存?原理都是什么2、堆外内存不会被gc回收的,都是用来作什么的3、flatmap和mapPartition的区别?4、partition分为hashpartition和rangepartition?各自的实现原理5、sqoop怎么实现增量导入的?6、场景模拟:sql实现行转列和列转行?sparkcore怎么实现?7、groupby的数据倾斜问题怎么解决?8、会问到hashmap的相关问题9、找出两个数组中和为K的元素,两个for循环嵌套实现?时间复杂度为多少​更优化的方案?map实现?空间复杂度多少?10、二叉树实现左右子节点的交换,代码落地!11、还有项目中的相关的问题,注重的解决问题的思路和方法!12、当然算法也问到了,实现思路说一下就行了,逻辑回归,决策树等13、sql就是考察的开窗和相关的优化,尤其是shuffle要尽量少,stage尽量优化为一个!二面:1、map、reduce的个数是有什么决定的?2、A表:useridsession,B表:useridorder求useridcount(session),count(order),尽量优化3、NameNode和SecondaryNameNode的区别和作用4、数仓建设流程5、union和unionall的区别6、数据倾斜的解决方案,多种,他会质疑你的方法或者私立,问你有没有更好的思路7、星型模型和雪花模型的区别8、业务实现:抠细节!很具体,很注重思路!(具体的情况实现,会不会出现的问题,比如数据量比较大的情况下会出现的问题,解决方案等)9、HDFS写数据
    0 0 95
  • 面试公司:字节跳动面试岗位:大数据开发工程师一面(Java+项目)1.倒排索引2.讲讲redis里面的哈希表?3.happen-before的规则?4.volatile修饰符,synchronize锁5.java单例模式的实现,懒汉、饿汉?6.进程与线程的区别,多进程和多线程的区别?7.HashMap原理,为什么用红黑树,红黑树的特点?8.快排时间空间复杂度,最好最坏的情况,优化方案?9.TCP的拥塞控制,具体过程是怎么样的?UDP有拥塞控制吗?如何解决?10.讲讲了解的垃圾回收算法和回收器,什么时候执行STOPTHEWORLD?11.了解Go语言吗?二面(大数据+项目)1.Kylin的项目架构2.Paxos和ZAB协议3.CAP理论,分区容错性的意义4.大表Join小表优化,如何处理数据倾斜?5.讲一下最大堆和最小堆6.HDFS的读取、写入,容错处理。(源码)7.MapReduce的过程(第一版和第二版的)8.MRshuffle,Sparkshuffle。9.namenodeHA,脑裂,Yarn的调度机制。10.Hive的内部表和外部表区别、数仓建模模型、数仓分层、雪花模型和星型模型。11.了解ClickHouse吗?它与Kylin的区别?三面(算法+场景题)1.LRU算法实现(伪代码)
    4 0 65
  • 面试公司:字节跳动面试岗位:大数据开发面试过程:一面:·自我介绍数仓维度建模·深挖事实表维度表构建sparkjoin,·mapreduce原理·spark常用算子·mapflatmap·有没有实际做过数仓项目算法题:给定数组包含正负数(数量至多差1),要求将其排列成正负彼此相邻形式,要求时间复杂度O(N),空间复杂度O(1)二面:·自我介绍·介绍实习项目·数据倾斜怎么解决的·如果需要变回原来粒度怎么办算法题1.1-N个数字,找出字典序第K大的数字,要求空间O(1),时间O(K),举例1-19字典序为1,10,11,12,13,14,15,16,17,18,19,2,3,4,5,6,7,8,9写过hive没有来个hive题spark区别来个题2.两个栈模拟队列要高效主动介绍实验室项目·反问三面:·自我介绍·模拟彩票抽奖中奖,每个人有n张票,有100个奖品·介绍当前面试界面涉及的网络技术·介绍最近一个有挑战的项目·最近学习上的计划安排<d
    2 0 98
  • 面试公司:爱奇艺面试岗位:大数据开发工程师一面(20min)1.自我介绍2.Sparkjoin的分类,实现过程,得到的结果3.Sparkmapjoin的实现原理4.SparkShuffle过程5.SQL会写吗,写一个统计每个学科的前三名6.实习主要做了什么,用什么技术栈7.Python方法的参数带两个*是什么意思8.Java反射生成对象9.Java对象的生命周期(这个我是真没准备到,顶不住,就瞎说了)二面(20min)1.自我介绍2.问了下实习做什么3.问了下在校项目4.数仓分层,每层做什么5.SparkStreaming和Flink的区别6.MapReduce熟吗(不熟,了解)7.JavaGC说一下,我从内存模型开始说的写了几个题:8.给了两个表三个SQL,把每个结果写出来,其实主要是join,不同join的结果9.从一个String列表中移除大于某个String的元素(其实不知道为什么要出这个题)10.图,最小代价生成树,什么算法,什么思想。三面(20min)主管面,自我介绍1.说下Spark任务调度吧(不亏我啃了半个礼拜的源码)2.SparkTask失败要从头开始重试吗3.遇到过什么困难,怎么解决的4.HBase特点,应用场景5.实习做什么(每次都问)6.说了一下部门的概况7.拿了什么offer8.能实习吗,工作地点偏好四面HR,就不说了。下午面完,晚上给了口头offer,可能三面面试官评价比较高,平台和薪资也算比较满意
    2 0 68
  • 微信扫码加好友进群