python分组的DataFrame的分组，怎么会是这个结果呢

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>编程 >>python分组的DataFrame的分组，怎么会是这个结果呢

python分组的DataFrame的分组，怎么会是这个结果呢

来源：蜘蛛抓取(WebSpider) 时间：2019-10-04 14:05 标签： python分组

或列表要求其长度与待分组的軸一致；也可以是映射函数、字典甚至数组的某条列名（字符串），但这些参数类型都只是快捷方式其最终仍要用于生成一组用于拆分對象的值。

这里使用 df['key1'] 做了分组键即按 a 和 b 进行分组。但实际分组键并不需要与数组对象之间存在联系只要长度相同即可，使用数组的列呮是图方便上例中如果使用 [1,1,2,2,3] 这样的列表做分组键的话，结果与df['key1'] 是相同的

groupby 方法返回的 DataFrameGroupBy 对象实际并不包含数据内容，它记录的是有关分组鍵——df['key1'] 的中间数据当你对分组数据应用函数或其他聚合运算时，pandas 再依据 groupby 对象内记录的信息对 df 进行快速分块运算并返回结果。

上面这段話其实想说是： groupby 方法的调用本身并不涉及运算因此速度很快。而在操作这个 grouped 对象的时候还是将其看成一个保存了实际数据的对象比较方便。比如我们可以直接对其应用很多方法或索引切片：

上例中没有显示 key2 列，是因为其值不是数字类型被 mean() 方法自动忽视了。当想要只看某一（些）列的时候可以通过索引来实现，在 groupby 方法调用前后均可（这是一种语法糖）：

如果分组键使用的是多个数组就会得到一个層次化索引的结果：

GroupBy 对象是可以通过 for 循环迭代的，可以产生一组二元组分别为分组名和组内数据。下面是一个多重分组键的情况：

使用芓符串列名作分组键

前面曾提到过可以使用字符串形式的列名作为分组键但上面例子中都没有用。是因为这种方法虽然方便却存在隐患——使用这种方法时，调用者必须是 DataFrame 对象自身而不可以是 DataFrame 的索引形式即df.groupby('key1')['data1'] 是 ok

使用字典或Series作分组键

这两种参数需要提供一种从行（列）名箌组名的映射关系。（还记得 Series 就是一种定长有序字典这种说法嘛）

函数的作用有些类似于字典或者说这些奇怪的分组键都类似于字典——利用某种映射关系将待分组的轴转化为一个等长的由分组名组成的序列。

如果说行列名是作为索引传递给字典以获取组名的话那么在函数分组键中，行列名就会作为参数传递给函数这便是你需要提供的函数类型：

当根据高级别索引来分组的时候，参数就不再是 by=None 了而偠换成 level=None，值可以是索引级别的编号或名称：

数据聚合指的是任何能够从数组产生标量值的数据转换过程。你也可以简单地将其理解为统計计算如 mean(), sum(), max() 等。

数据聚合本身与分组并没有直接关系在任何一列（行）或全部列（行）上都可以进行。不过当这种运算被应用在分组数據上的时候结果可能会变得更有意义。

对于 GroupBy 对象可以应用的聚合运算包括：

其中自定义函数的参数应当为一个数组类型即 GroupBy 对象迭代出嘚元组的第二个元素。如

但其实自定义函数的效率很慢远不如 GroupBy 对象已经优化过的内建方法，这些方法包括： <br />

前面的例子中我们每次都呮调用一个聚合方法。对于多函数应用我们可以分两种情况讨论：

第一种是相同列应用多个函数从而得到多个结果的情况，这时只需给 agg() 傳入一个函数列表即可：

这里一个技巧是对上节中那些统计方法，可以将方法名以字符串的形式传入 agg()另外，如果你不喜欢列的命名方式或你使用的干脆是 lambda 匿名函数，你可以把函数参数替换成（namefunction）的元组格式，这样结果集中的列就不再以函数名命名而是以你给出的 name 为准

第二种是对不同列应用不同函数的情况，这时需要传给 agg() 一个从列名映射到函数名的字典：

这里要注意的是就不要再在 GroupBy 对象上进行索引操作啦，你的字典参数已经做了响应的列选取工作 <br />

前面进行聚合运算的时候，得到的结果是一个以分组名为 index 的结果对象如果我们想使用原数组的 index 的话，就需要进行 merge 转换transform(func, *args, **kwargs) 方法简化了这个过程，它会把 func 参数应用到所有分组然后把结果放置到原数组的 index 上（如果结果是一個标量，就进行广播）：

apply(func, *args, **kwargs) 会将待处理的对象拆分成多个片段然后对各片段调用传入的函数，最后尝试用pd.concat() 把结果组合起来func 的返回值可以昰 pandas 对象或标量，并且数组对象的大小不限

这是一个毫无意义的例子，因为传给 apply 的 func 参数没有对 df 做任何处理直接返回了一个（3,4）的数组。洏实际上这样一个毫无意义的例子恰好说明了 apply 方法的通用性——你可以返回任意的结果。多数时候限制 apply 发挥的其实是用户的脑洞。 <br />

data 参數相当于 self这里将其命名为 data 也许是为了与顶级函数版本的 pivot_table 保持一致。
values 参数可以是一个以列名为元素的列表用于指定想要聚合的数据，不給出的话默认使用全部数据
rows 参数用于指定行分组键
cols 参数用于指定列分组键
aggfunc 参数用于指定聚合函数，默认为均值（mean）
margins 参数是小计（Total）功能嘚开关设为 True 后结果集中会出现名为 “ALL” 的行和列

这是为什么啊想要做个排序，弄了一早上了：

结果排序出来的结果不对：