小麦公社面试题

（1）Scala中协变逆变的应用场景。

（2）Spark中隐式转化的应用场景

（3）Spark中基于standalone还是Yarn？计算引擎是什么？

（4）Jdk1.7hashmap怎么设计的，为什么引入红黑树？链表的查找方式和红黑树的查找方式有什么不同？

（5）Java并发安全是怎么理解的？

（6）Map和 FlatMap区别对结果集的影响有什么不同

（7）对RDD的理解

（8）Transformation和action的区别

（9）常用的RDD？HadoopRDD MapPatitionRDD

（10）对DAG怎么理解的？怎么形成的？划分不同的stage的依据是什么？

（11）对DAGSchedular 和TaskSchedular的理解？

（12）Spark里面怎么提交job的大概涉及到哪些类怎么提交的

（13）Spark2.11默认的消费引擎是什么？

（14）Shuffle是一个挺消耗资源的操作，对shuffle有什么优化措施？如何避免数据倾斜？产生数据倾斜的原因是什么？什么情况下会进行重新分区？重新分区调用什么方法？如何做到既能重新分区又不产生shuffle？

（15）SparkStreaming怎么做到流式计算？工作原理是什么？DSStream是一个什么样的结构？里面有哪些对象？

（16）Kafka里面用的什么方式拉的方式还是推的方式？如何保证数据不会出现丢失或者重复消费的情况？做过哪些预防措施，怎么解决以上问题的？Kafka元数据存在哪？

（17）在Standalone模式中Master worker driver三者是怎么协同的？程序出错了会跟谁汇报？

（18）Yarn模式下，资源是怎么分配的

（19）Hive做过哪方面的优化？Spark中怎么优化？BroadCast广播变量

（20）SparkSQL底层对catalyst做了哪些优化

（21）千万级的数据落地到MySQL中，MySQL查询比较慢，落地到ES中，检索快。

转载自原文链接, 如需删除请联系管理员。

原文链接：小麦公社大数据面试题，转载请注明来源！