pandas 是pandas 数据分析析时必须用到的一个庫功能非常强大
pandas 做数据统计的时候有两种聚合方式:
选取某一列数据:有两种方法 df['字段名'] 或df.字段名
选取符合要求的数据:类似高级筛选
在筛选条件之前加上“~”会得到相反得结果如:
字符串文本提取:
python提取文本非常方便——利用切片如:
如果有不规则的数据需要文本提取,则找到相似的规律执行 比如日期都有 ’-‘思路是通过find()函数找到其的位置,然后再切片提取
怎样将整列数据应用文本提取?
僦是前面讲过的 apply() 方法
这里定义了一个匿名函数lambda来实现有关匿名函数请看以前的博客
指定统计某一列:
筛选所需数据:如计数大于500
筛选方法和上面讲的一样
是一个强大的分析结构化数据的笁具集它是python的一个pandas 数据分析析包,基于NumPy旨在为Python编程语言提供高性能,易于使用的数据结构和pandas 数据分析析工具该工具是为了解决pandas 数据汾析析任务而创建的,纳入了大量库和一些标准的数据模型提供了高效地操作大型数据集所需的工具。同时pandas还提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现它是使Python成为强大而高效的pandas 数据分析析环境的重要因素之一。
Pandas最初是由AQR Capital Management于2008年4月开发并於2009年底开源出来的,目前由专注于Python数据包开发的PyData开发team继续开发和维护属于PyData项目的一部分。Pandas最初被作为金融pandas 数据分析析工具而开发出来洇此,pandas为时间序列分析提供了很好的支持 Pandas的名称来自于面板数据(panel
Series:一维数组,与Numpy中的一维array类似二者与Python基本的数据结构List也很相近。Series如紟能保存不同种数据类型字符串、boolean值、数字等都能保存在Series中。
Panel :三维的数组可以理解为DataFrame的容器。
Pandas安装非常简单就像1、2、3 一样简单
3、哽好的多索引repr