运行spark jdbcrdd 连mysql 异常，什么原因

如题所述

第1个回答 2015-09-03

RDD是个抽象类，定义了诸如map()、reduce()等方法，但实际上继承RDD的派生类一般只要实现两个方法：

def getPartitions: Array[Partition]
def compute(thePart: Partition, context: TaskContext): NextIterator[T]

getPartitions()用来告知怎么将input分片；

compute()用来输出每个Partition的所有行（行是我给出的一种不准确的说法，应该是被函数处理的一个单元）；
以一个hdfs文件HadoopRDD为例：

[java] view plaincopyprint?
override def getPartitions: Array[Partition] = {
val jobConf = getJobConf()
// add the credentials here as this can be called before SparkContext initialized
SparkHadoopUtil.get.addCredentials(jobConf)
val inputFormat = getInputFormat(jobConf)
if (inputFormat.isInstanceOf[Configurable]) {
inputFormat.asInstanceOf[Configurable].setConf(jobConf)
}
val inputSplits = inputFormat.getSplits(jobConf, minPartitions)
val array = new Array[Partition](inputSplits.size)
for (i <- 0 until inputSplits.size) {
array(i) = new HadoopPartition(id, i, inputSplits(i))
}
array本回答被提问者和网友采纳

相似回答

关于JDBC抛com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException...答：MySQLSyntaxErrorException异常，这说明你的sql语句写错了，“select * form user”的“form”单词拼写错误，应该是“from”。

大家正在搜

sparksqlsavejdbc sparksql和jdbc spark rdd原理 sparkjdbc连接 spark多个rdd的连接 sparkrdd连接在spark中常用的rdd有哪些 spark jdbc spark rdd前后比较