小麦公社面试题
(1)Scala中协变逆变的应用场景。
(2)Spark中隐式转化的应用场景
(3)Spark中基于standalone还是Yarn?计算引擎是什么?
(4)Jdk1.7hashmap怎么设计的,为什么引入红黑树?链表的查找方式和红黑树的查找方式有什么不同?
(5)Java并发安全是怎么理解的?
(6)Map和 FlatMap区别 对结果集的影响有什么不同
(7)对RDD的理解
(8)Transformation和action的区别
(9)常用的RDD?HadoopRDD MapPatitionRDD
(10)对DAG怎么理解的?怎么形成的?划分不同的stage的依据是什么?
(11)对DAGSchedular 和TaskSchedular的理解?
(12)Spark里面怎么提交job的 大概涉及到哪些类 怎么提交的
(13)Spark2.11默认的消费引擎是什么?
(14)Shuffle是一个挺消耗资源的操作,对shuffle有什么优化措施?如何避免数据倾斜?产生数据倾斜的原因是什么?什么情况下会进行重新分区?重新分区调用什么方法?如何做到既能重新分区又不产生shuffle?
(15)SparkStreaming怎么做到流式计算?工作原理是什么?DSStream是一个什么样的结构?里面有哪些对象?
(16)Kafka里面用的什么方式 拉的方式还是推的方式?如何保证数据不会出现丢失或者重复消费的情况?做过哪些预防措施,怎么解决以上问题的?Kafka元数据存在哪?
(17)在Standalone模式中Master worker driver三者是怎么协同的?程序出错了会跟谁汇报?
(18)Yarn模式下,资源是怎么分配的
(19)Hive做过哪方面的优化?Spark中怎么优化?BroadCast广播变量
(20)SparkSQL底层对catalyst做了哪些优化
(21)千万级的数据落地到MySQL中,MySQL查询比较慢,落地到ES中,检索快。
转载自原文链接, 如需删除请联系管理员。
原文链接:小麦公社大数据面试题,转载请注明来源!