求教： Spark的dataframe 怎么改列的名字，比如列名 SUM(_c1) 改成c1

做了一个groupBy().agg()之后，
df.groupBy("keyy").agg({"_c1" : "sum", "_c2" : "sum"})

数据就变成了这样的格式。
newdf :
[Row(keyy=u'aaa', SUM(_c1)=0.123,SUM(_c2)=0.567),
Row(keyy=u'bbb', SUM(_c1)=0.234, SUM(_c2)=0.567)]

因为接下来还要对后面两列进行操作，发现sql 或者直接选取列都因为这奇葩(?)的列名，都不能运行。有什么办法能把这个dataframe的列名改成正常的名字, 比如c1之类的？只要能让后面的调用，麻烦点的方法都可以，不用考虑perforamance.........
newdf里， SUM(_c1) SUM(_c2) 不一定一个在前一个在后，有时候可能是【keyy ，SUM(_c2)，SUM(_c1) 】
多谢多谢！

举报该问题

其他回答

第1个回答 2015-10-25

试试这样：

df.groupBy("key").agg(sum($"quantity") as "c1", avg($"quantity") as "c2")本回答被网友采纳

第2个回答 2018-11-22

看这问题人挺多的，我来提供一下解决方案.
DF.sum("value").withColumnRenamed("sum(value)","sumType").show();

第3个回答 2017-12-19

兄弟你可以这样：
from pyspark.sql import functions as F
df.groupBy("keyy").agg(F.sum('_c1').alias('c1'), F.sum('_c2').alias('c2')).collect()

相似回答

...改成另一种字母,如:=SUM(A1*D1,A2*D2,A3*D3...)中把A全部答：就你的问题来说，可以通过查找——替换来实现，选中公式将A替换为C即可 不过要实现你的目的，sunproduct函数更好 =sumproduct(C1:C600,D1:D600)或者=sumproduct(C1:C600*D1:D600)

大家正在搜

修改dataframe一列的值 dataframe列求和 dataframe增加求和列 dataframe取列 dataframe添加列 dataframe按列排序 dataframe一列排序 dataframe特定列 dataframe提取某几列