求职刷题神器

funit.cn

  • 面试公司:字节跳动面试岗位:大数据开发工程师面试过程:一面:·项目经验·二叉树逐层打印·1亿条数据找出前1000条最大的数据二面:·sql优化:谓词下推、优化规则实现·join实现:小表缓存;如果不是大小表的join如何实现?·16进制数相加三面:·每个文件1g,文件名为日期,文件中存储用户id;内存只有1g,根据某个用户id查询出该用户的日期;·批处理sql加速hr面:·上一份工作为什么要换·为什么选择字节跳动·对之前几轮面试的看法面试总结:1、侧重于算法等通用型基础知识2、面试官很和蔼,会一步步的引导3、关于一些大数据知识或者项目里具体的实现不怎么细问
    4 0 84
  • 面试公司:爱奇艺面试岗位:大数据研发工程师一面(20min)·自我介绍·Sparkjoin的分类,实现过程,得到的结果·Sparkmapjoin的实现原理·SparkShuffle过程·SQL会写吗,写一个统计每个学科的前三名·实习主要做了什么,用什么技术栈·Python方法的参数带两个*是什么意思·Java反射生成对象·Java对象的生命周期(这个我是真没准备到,顶不住,就瞎说了)二面(20min)·自我介绍·问了下实习做什么·问了下在校项目·数仓分层,每层做什么·SparkStreaming和Flink的区别·MapReduce熟吗(不熟,了解)·JavaGC说一下,我从内存模型开始说的写了几个题:给了两个表三个SQL,把每个结果写出来,其实主要是join,不同join的结果从一个String列表中移除大于某个String的元素(其实不知道为什么要出这个题)图,最小代价生成树,什么算法,什么思想。三面|主管面(20min)·自我介绍·说下Spark任务调度吧(不亏我啃了半个礼拜的源码)·SparkTask失败要从头开始重试吗·遇到过什么困难,怎么解决的·HBase特点,应用场景·实习做什么(每次都问)·说了一下部门的概况·拿了什么offer·能实习吗,工作地点偏好四面HR,就不说了。下午面完,晚上给了口头offer,可能三面面试官评价比较高,平台和薪资也算比较满意。
    4 0 69
  • 面试公司:中国平安财产保险公司面试岗位:大数据开发工程师一面1、hive接触过哪些文件存储类型,text的优劣、列式存储的好处、SequeceFile的好处、RCFile有没有用过2、对mr的理解3、内部表和外部表的区别,对应的应用场景4、mapjoin和reducejoin的区别5、写过最复杂的sql,场景是什么,工作中什么样的sql写的比较多6、hive的数据倾斜,怎么解决7、宽依赖和窄依赖的理解shuffle、stage,发生shuffle就会划分stage,产生宽依赖8、日志数据、交易数据的数据量9、数仓的理解,我从分层角度回答、元数据管理10、数据治理,怎么监控数据是否跑错11、对项目的理解,项目经历的职责二面1、Kafka的数据通知方式2、Kafka的数据消费方式3、hive的优化4、hive几种join5、hive算子、hive转换成mr的过程6、map-join讲一讲7、两张大表,join的key是有序的,怎么优化8、数据如何拉通?设计上要注意哪些?9、数据架构如何设计?数仓分层10、拉链表是什么,解决了些什么问题,用来解决什么,应用场景
    1 0 48
  • 面试公司:字节跳动面试岗位:大数据研发工程师一面1、数据不一致有没有遇到过,怎么解决的。回答:遇到过,最常见,同一个指标,多个人多个团队出,口径不一致;或者相同逻辑多个地方维护,复制粘贴,改一个地方另一个地方忘记改追问解决办法:指标体系,复用数据:按照业务线将一个业务线设计到的所有维度和指标统一建模到一张hive表,上层所有应用或者对商分暴露的表都是同源的,且直接取不用再计算规则引擎,复用逻辑:相同的字段加工逻辑抽离到规则引擎中进行配置,保证一处修改,处处运行2、一道sql的题,一张表,用户id和登录日期,查找连续两天登陆的用户。回答:按照用户idgroupby,编写UDAF补充红:(性能高),拿到一个用户的所有登录日期,判断是否有连续的面试官补充:不用UDAF,就纯SQL,可以用表自关联,关连建为user_idselectdistincta.uidfromtb_logaleftjointb_logbona.uid=b.uidand<spanclass="
    6 0 90
  • 面试公司:深圳虾皮信息科技有限公司面试岗位:大数据开发一面(视频面试)面试官直接说一面主要问基础,让自我介绍后就随机问问题。主要是各种大数据组件(HDFS、Yarn、Flink、Hbase、Kafka、Elasticsearch、Flume等)的各种读写流程,特性、原理,都是一些常见的面试题,涉及面算是比较广的。一面一问一答加起来有好几十个问题,下面是我没怎么回答清楚的:1.Flink支持JobMaster的HA吗?原理是怎样的?3.Flink同一个作业重复启动多次,Checkpoint相互之间会有什么影响?4.HdfsNameNode的功能?SecondNameNode的功能?5.HDFS的写流程和ES的写流程有什么区别?6.HBase的Compaction了解吗?7.数据采集方面的工具了解哪些?Flume的原理?Sqoop原理?Logstash原理?8.KafkaConsumerGroup选主流程?9、最后一道手写easy编程题:找出两个单链表的第一个公共节点。PS:面试完会收到一封面试体验的调查问卷,不要慌,正常流程,不是挂了。二面(视频面试)二面主要问项目和业务,所以要对自己的项目非常熟悉。面试官一上来就让讲一下项目,整体架构怎么样的,讲一下自己负责的最有挑战性的地方,有什么亮点。之后就是让讲清楚业务细节,面临哪些问题,用什么方案解决的,为什么要这么做,为什么要选这个不要选那个。等他理解你的业务之后,会出题:要实现某个功能,设计一下方案。HR面(电话)问各种信息,学校、公司经历、项目经历、为什么离职、目前薪资、期望薪资等常规问题。之后会要一年的银行流水,提交后他们会把你的信息提交给他们的薪酬部门去定薪,一般需要3天或1周,Offer,没有argue环节。
    2 0 143
  • 面试公司:新致软件面试岗位:大数据开发工程师基本信息北京市海淀区上地十街1号院5号楼7层720-1,上市外包公司,公司人数4000多。问的较多的是项目实战的内容,仅供参考面经内容1.自我介绍2.看了工作年限,问我这几年一共做过多少个项目,每个项目都负责哪一块3.按照我的简历项目一个一个的看,一个一个的问。先让介绍,然后问其中负责的部分,然后问用什么框架,问工具的使用和自己他们之间的区别kettle,smartbi,informatic(我不会),flume都问了。然后我说有的我自学的,还会问用了多久学会的5.数据库的调优,oracle调优,hive调优6.数据量过大怎么办7.问了java会不会8.工作中遇到的最难的问题以及解决办法面经总结差不多就这样。。感觉他们很注重语句调优和遇到问题是否有快速的解决办法还有对业务的梳理能力。
    4 0 58
  • 面试公司:北京国双科技有限公司面试岗位:大数据开发工程师基本信息:北京市海淀区北四环中路229号海泰大厦4层南401号,公司大概不到200人。问的较多的是基础内容,比如说java的数组和集合区别,scala的基本用法,hive和hbase的基础语法还有就是一些项目实战用法,可能更多的是偏向于java吧大概整理了一下,仅供参考。面经内容:1.java中数组和Arraylist的区别2.手写冒泡排序3.scala手写wordcount4.Scala中模式匹配和java中switchcase的区别5.scala中的数组和集合6.scala元组7.hive处理数据倾斜8.hbase组件9.SQL查询出所有课程都及格的人员的姓名10.为什么使用kettle。11.项目日增多大,表中有多少条数据面经总结在自我介绍的时候已经和面试官说过很久没做过java开发了,但是在聊过项目之后,一直再问java相关的知识,包括集合,数组。但是自己这块在复习的时候忽略了。
    5 0 61
  • 面试公司:北京启云数联科技有限公司面试岗位:大数据开发工程师基本信息北京市海淀区知春路113号0706号,公司大概不到100人。问的较多的是数据库相关的技术还有就是mr和hive已经hbase的内容,大概整理了一下,仅供参考面经内容1.简单的自我介绍。2.知道mapreduce么,阐述一些什么是mapreduce,以及原理。3.你所知道的排序关键字有哪些。4.sortby和oederby有什么区别。5.hive中都有那些表。6.了解spark吗?7.distinct和groupby那个去重好。8.查看当前目录-删除命令-怎么查看后几行数据。9.hbase和hive的区别。10.说一下项目的个人负责模块。11.思维逻辑题(真是不了解,就让她给我讲了下)有一栋100层高的大楼,给你两个完全相同的玻璃球。假设从某一层开始,丢下玻璃球会摔碎。那么怎么利用手中的两个球,用什么最优策略知道这个临界的层是第几层??面经总结问的最多的就是一些理论题,可以多看看一些面试宝典,多在趣IT刷题。
    3 0 56
  • 面试公司:东方网力科技股份有限公司面试岗位:大数据开发工程师基本信息北京市海淀区学院路35号世宁大厦4层408室,上市公司,公司大概1000多人。问的较多的是Hadoop大数据分析、spark、kafka、还有就是一些底层,大概整理了一下,仅供参考。面经内容1.首先简单的自己介绍2.对哪些大数据组件了解3.HDFS里面,如果两个namenode都变成startby模式,怎么处理?4.hive里面的分区和分桶5.hive的内部表和外部表的区别6.spark运行模式大概有几种,每种模式的区别7.在yarn上运行,运行模式是什么8.spark里面的job,stage和task区别9.介绍一下spark运行流程10.平时在开发spark的时候遇到什么问题(比如内存溢出)11.spark中堆内存和对外内存在什么地方用到?我们为什么要调整堆内存和堆外内存的使用?12.有两个数比较大,没有办法用常规的数据结构存储起来,把它放在string里面,位数比较多,可能有成千上万位,做一个加法器,把这两个数加起来,入参数两个string类型的,出参是string类型,如果让你设计的话,怎么设计?13.有一个数组,数组里面可能是字符串,里面的数有些会重复出现,有些只会出现一次,给你一个好的算法,来设计一下,怎么能找到只出现一次的这种情况。面经总结主要还是对自己知识点的理解,因为问的最多的就是一些知识点理论题。
    3 0 55
  • 面试公司:奇虎360面试岗位:大数据开发工程师一面43min:·自我介绍·问了两个项目,问了下项目中如何实现的Mysql和hdfs数据同步·讲一下对Hadoop的了解·讲了下HDFS原理、MapReduce的过程,想讲HDFS检查点机制没让讲。·Spark和MapReduce的区别?是不是用了Spark就不需要MapReduce了?(答得不太好)·问对Hive的了解?自己提了下数据倾斜·如果有海量数据,如何求Top10?(说错了一块,后来又改过来了)·Linux平常用的指令?说了ls、ll、df、nohup、ps、kill等等·Hadoop用到的指令Hadoopfs-ls、mkdir、hdfsfsck(查看块信息)·用什么语言比较多?(我用的py比较多)Python常用的数据类型?list和tuple的区别?·回答了下不可变对象和可变对象·常用的python库(requests、bs4、keras等等)如何安装包·算法题:数组去重上台阶、动态规划和递归的区别·还有什么问题要问我吗?(问了下缺不缺hc、主要工作内容)二面23min全程问项目,同时问了很多有没有看过Spark源码、ES源码、Flask源码(都没看过)。各个项目问的比较深,算法模型等等。HR面30min·可以实习多久·如何解决做项目和社团和日常生活的平衡问题·简单介绍下流计算的sparkstreamingstormflink的优缺点·未来发展等等<
    3 0 66
  • 微信扫码加好友进群