首页 » 技术分享 » 小麦公社大数据面试题

小麦公社大数据面试题

 

小麦公社面试题

小麦公社大数据面试题

 

(1)Scala中协变逆变的应用场景。

(2)Spark中隐式转化的应用场景

(3)Spark中基于standalone还是Yarn?计算引擎是什么?

(4)Jdk1.7hashmap怎么设计的,为什么引入红黑树?链表的查找方式和红黑树的查找方式有什么不同?

(5)Java并发安全是怎么理解的?

(6)Map和 FlatMap区别 对结果集的影响有什么不同

(7)对RDD的理解

(8)Transformation和action的区别

(9)常用的RDD?HadoopRDD MapPatitionRDD

(10)对DAG怎么理解的?怎么形成的?划分不同的stage的依据是什么?

(11)对DAGSchedular 和TaskSchedular的理解?

(12)Spark里面怎么提交job的 大概涉及到哪些类 怎么提交的

(13)Spark2.11默认的消费引擎是什么?

(14)Shuffle是一个挺消耗资源的操作,对shuffle有什么优化措施?如何避免数据倾斜?产生数据倾斜的原因是什么?什么情况下会进行重新分区?重新分区调用什么方法?如何做到既能重新分区又不产生shuffle?

(15)SparkStreaming怎么做到流式计算?工作原理是什么?DSStream是一个什么样的结构?里面有哪些对象?

(16)Kafka里面用的什么方式 拉的方式还是推的方式?如何保证数据不会出现丢失或者重复消费的情况?做过哪些预防措施,怎么解决以上问题的?Kafka元数据存在哪?

(17)在Standalone模式中Master worker driver三者是怎么协同的?程序出错了会跟谁汇报?

(18)Yarn模式下,资源是怎么分配的

(19)Hive做过哪方面的优化?Spark中怎么优化?BroadCast广播变量

(20)SparkSQL底层对catalyst做了哪些优化

(21)千万级的数据落地到MySQL中,MySQL查询比较慢,落地到ES中,检索快。

大数据培训

转载自原文链接, 如需删除请联系管理员。

原文链接:小麦公社大数据面试题,转载请注明来源!

0