Spark RDD,DataFrame和DataSet的区别

如题所述

RDD:A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.
rdd是一个分布式的数据集,数据分散在分布式集群的各台机器上
A DataFrame is equivalent to a relational table in Spark SQL, and can be created using various functions in SQLContext
dataframe更像是一张关系型数据表,是一种spark独有的数据格式吧,这种格式的数据可以使用sqlcontext里面的函数
温馨提示:答案为网友推荐,仅供参考