python是一款简洁又灵活的编程语言。如SQL、R语言、Java等语言,python在数据处理与分析中拥有多种合并数据集的方法,比如我们之前介绍过的数据库风格的合并方法。pandas 是python用于数据分析包中的一种,DataFrame是pandas重要的数据结构。我们可以简单理解DataFrame就如同excel或csv文件存储的数据格式,亦或是MySQL数据库表中的数据展现方式。
索引上的合并
DataFrame中的连接键位于其索引中。在这种情况下,可以传入left_index=True或right_index=True(或两个都传)以说明索引应该被用作连接键,具体举例如下:
首先,我们先来学习“right_index=True”参数的效果:
merge方法默认是求取连接键的交集,因此可以通过外连接(how=’outer’)的方式得到它们的并集:
层次化索引
层次化索引是pandas的一项重要功能,它使你能在一轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低维度形式处理高维度数据。在合并数据集上,对于层次化索引的数据,相对较为复杂,具体通过下述例子进行说明:
如果遇到将多个列作为键进行合并的场景时,我们需要以列表的形式指明用作合并键的多个列,特别注意过程中对重复索引值的处理,具体说明如下:
接下来,我们一起来查看一同传入left_index=True和right_index=True两个参数的情况,具体如下: