spark sql怎么划分stage

如题所述

推荐答案 2017-03-08

其实sql就是关系操作。关系操作跟map，reduce这些基础算子对应起来的（spark其实基础算子也是map，reduce，只是在此基础上做了扩展）。比如projection，filter是窄依赖，join，semi join，outer join是宽依赖。
具体流程会比较复杂。首先spark会解析这条sql，生成语法树（spark2.0会通过antlr4解析），然后经过逻辑优化（dataframe中有logic plan），然后转换为map reduce，生成对应的操作算子（projection，filter，join等）。有了宽依赖，窄依赖，也就能划分stage了。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://11.wendadaohang.com/zd/PP4qMq82SS44728MSP7.html

相似回答

[SPARK][SQL] 面试问题之Spark AQE新特性答：传统的Spark SQL执行流程将物理计划分解成DAG执行阶段，而AQE则在逻辑计划中引入QueryStage和QueryStageInput，精确地控制Shuffle和Broadcast的划分，收集统计信息后优化计划并重新规划。例如，非AQE时可能导致分区过大，AQE则会自动合并小分区，如将5个大小分别为70MB、60MB和50MB的分区合并为一个64MB的目标...