网友您好, 请在下方输入框内输入要搜索的题目:

题目内容 (请给出正确答案)

有一个键值对RDD,名称为pairRDD,它包含4个元素,分别是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),则pairRDD.reduceByKey((a,b)=>a+b)执行结果得到的RDD,它里面包含的元素是

A.(“Hadoop”,2),(“Spark”,1),(“Hive”,1)

B.(“Hadoop”,1),(“Spark”,2),(“Hive”,1)

C.(“Hadoop”,2),(“Spark”,2),(“Hive”,2)

D.(“Hadoop”,1),(“Spark”,2),(“Hive”,2)


参考答案和解析
A
更多 “有一个键值对RDD,名称为pairRDD,它包含4个元素,分别是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),则pairRDD.reduceByKey((a,b)=>a+b)执行结果得到的RDD,它里面包含的元素是A.(“Hadoop”,2),(“Spark”,1),(“Hive”,1)B.(“Hadoop”,1),(“Spark”,2),(“Hive”,1)C.(“Hadoop”,2),(“Spark”,2),(“Hive”,2)D.(“Hadoop”,1),(“Spark”,2),(“Hive”,2)” 相关考题
考题 RDD的intersection方法用于求出两个RDD的共同元素。() 此题为判断题(对,错)。

考题 RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。() 此题为判断题(对,错)。

考题 Spark只有键值对类型的RDD才能设置分区方式。() 此题为判断题(对,错)。

考题 RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器数组、列表等中的所有元素构成新的RDD。() 此题为判断题(对,错)。

考题 Spark中的每个RDD一般情况下是由()个分区组成的。 A.无数B.多C.1D.0

考题 PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。() 此题为判断题(对,错)。

考题 键值对RDD由一组组的键值对组成,这些RDD被称为PairRDD。() 此题为判断题(对,错)。

考题 以下属于spark启动后进程的是()A、rdd是由一系列的partition组成的B、原子性C、算子作用在partition上D、每个rdd都会提供一批最优的计算位置

考题 spark中的rdd是一个()数据集A、弹性分布式B、弹性计算C、运送数据D、心跳

考题 spark中以下哪些特性是rdd的特性()A、计算移动B、数据不移动C、数据移动D、计算不移动

考题 map算子返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成

考题 spark在进行数据切分的时候,决定了partition的哪些属性()A、冗余性B、一致性C、rdd之间具有依赖性D、每个rdd都会提供一批最优的计算位置

考题 spark架构中的rdd相当于java中的()概念A、类B、接口C、方法D、内部类

考题 Spark中,以下哪些是rdd的特性()A、partition大小B、partition个数C、partiton的所有者D、parrtition的一切

考题 rdd是spark中个哪个架构提出的概念()A、spark coreB、spark streamingC、mlbaseD、Grophx

考题 描述Spark集群计算中RDD的含义和作用。

考题 spark中的rdd相当于java中的()概念A、类B、接口C、方法D、内部类

考题 spark框架中,机器学习库的框架是哪个()A、hadoopB、spark?streamingC、mlbaseD、RDD

考题 RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合

考题 以下哪个选项是spark的核心框架?()A、spark?coreB、spark?streamingC、hdfsD、hadoop

考题 spark的组件不包含哪个()A、spark coreB、hdfsC、GraphxD、spark streaming

考题 Spark可以使用Hadoop的YARN和ApacheMesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等

考题 spark中的rdd不存储数据,存储的是()A、业务逻辑B、物理数据C、数据库数据D、物理逻辑

考题 SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做()的可编程抽象数据模型A、DataFramesB、TableC、DataSetD、RDD

考题 设一个集合A={3,4,5,6,7},集合B={1,3,5,7,9},则A和B的并集中包括有()个元素,A和B的交集中包含有()个元素,A和B的差集中包含有()个元素。

考题 问答题Spark对RDD的操作主要分为行动(Action)和转换(Transformation)两种类型,两种类型操作的区别是什么?

考题 问答题试述如下Spark的几个主要概念:RDD、DAG、阶段、分区、窄依赖、宽依赖。

考题 问答题描述Spark集群计算中RDD的含义和作用。