文章目录
一、Pandas文件读取
1.pandas数据读取
1、读取纯文本文件
1.1 读取csv 使用默认的标题行、逗号分隔符
1.2 读取txt文件 自己指定分隔符、列名
2、读取excel文件
3、读取sql文件
二、pandas的数据结构DataFrame和Series
DataFrame 二维数据 整个表格 多行多列
1.Series
1.1 仅有数据列表即可生产最简单的Series
1.2 创建一个具有标签索引的Series
1.3 使用python字典创建Series
1.4 根据数据标签索引查询数据
2. DataFrame
2.1 根据多个字典序列创建DataFrame
从DataFrame中查询出Series
3.1 查询一列,结果是一个pd.Series
3.2 查询多列,结果是一个pd.DataFrame
3.3 查询一行,结果是一个pd.Series
3.4 查询多行,结果是一个pd.DataFrame
三.Pandas查询数据的5种方法
Pandas查询数据的几种方法
Pandas使用df.loc查询数据的方法
注意
0. 读取数据
1. 使用单个label值查询数据
2. 使用值列进行表批量查询
3. 使用数值区间进行范围查询
4. 使用条件表达式查询
复杂条件查询 查询一下完美得天气
5. 调用函数查询
四、Pandas怎样新增数据列
0. 读取csv数据到DataFrame
1. 直接赋值的方法
2. df.apply方法
3. df.assign方法
4. 按条件选择分组分别赋值
五、Pandas数据统计函数
0. 读取csv数据
1. 汇总类统计
2. 唯一去重和按值计数
2.1 唯一去重
2.2 按值计数
3. 相关系数和协防差
六、Pandas对缺失值的处理
实例 特殊excel的读取、清洗、处理
步骤1 读取excel的时候 忽略前几个空行
步骤2 检测空值
步骤3 删除掉全是空值的列
步骤4 删除掉全是空值的行
步骤5 将分数列为空的填充为0分
步骤6 将姓名的缺失值填充
步骤7 将清晰好的excel保存
七、Pandas的SettingWithCopyWarning报警
0. 数据读取
1. 复现
2、原因
4. 解决方法2
Pandas不允许先筛选子DataFrame 在进行修改写入
八、Pandas数据排序
0. 读取数据
1. Series的排序
2. DataFrame的排序
2.1 单列排序
2.2 多列排序
九、Pandas字符串处理
0. 读取北京2018年天气数据
1. 获取Series的str属性 使用各种字符串处理函数
4. 使用正则表达式的处理
Series.str默认就开启了正则表达式模式
十、Pandas的axis参数怎么理解
***按哪个axis 就是这个axis要动起来(类似被for遍历) 其它的axis保持不动\***
1. 单列drop, 就是删除某一列
3. 按照axis 0/index执行mean聚合操作
***按哪个axis 就是这个axis要动起来(类似被for遍历) 其它的axis保持不动\***
3. 按照axis 1/columns执行mean聚合操作
***按哪个axis 就是这个axis要动起来(类似被for遍历) 其它的axis保持不动\***
5. 再次举例, 加深理解
***按哪个axis 就是这个axis要动起来(类似被for遍历) 其它的axis保持不动\***
十一、Pandas的索引index的用途
1. 使用index查询数据
2. 使用index会提升查询性能
实验1:完全随机的查询顺序
实验2:将index排序后的查询
3.使用index能自动对齐数据
s1,s2都具有b,c索引,而a,d为各自独有,无法对齐,所有相加结果为空
4. 使用index更多更强大的数据结构支持
十二、Pandas怎样实现DataFrame的Merge
merge的语法
1、电影数据集的join实例
电影评分数据集
2、理解merge时数量的对齐关系
2.1 one-to-one 一对一关系的merge
2.2 one-to-many 一对多关系的merge
2.3 many-to-many 多对多关系的merge
3、理解left join、right join、inner join、outer join的区别
3.1 inner join 默认
3.2 left join
3.3 right join
3.4 outer join
4、如果出现非Key的字段重名怎么办
十三、Pandas实现数据的合并concat
使用场景
一句话说明concat语法
concat语法 pandas.concat(objs, axis 0, join outer , ignore_index False)
append语法 DataFrame.append(other, ignore_index False)
参考文档
一、使用Pandas.concat合并数据
1. 默认的concat, 参数为axis 0, join outer, ignore_index False
2. 使用ignore_index True可以忽略原来的索引
3. 使用join inner过滤掉不匹配的列
4. 使用axis 1相当于添加新列
A:添加一列Series
B:添加多列Series
二、使用DateFrame.append按行合并数据
1. 给一个DataFrame添加另一个DataFrame
2. 忽略原来的索引 另ignore_index True
3.可以一行一行的给DataFrame添加数据
A:低性能版
B:性能好的版本
十四、Pandas批量拆分Excel与合并Excel
0. 读取源Excel到Pandas
1、将一个大excel等份拆成多个Excel
1. 1 计算拆分后的每个excel的行数
1.2 拆分成多个DataFrame
1.3 将每个DataFrame存入excel
2、合并多个小Excel到一个大Excel
2.1 遍历文件夹 得到要合并的Excel名称列表
2.2 分别读取到DataFrame
2.3 使用pd.concat进行合并
2.4 将合并后的DataFrame输出到Excel
十五、Pandas怎样实现groupby分组统计
1、分组使用聚合函数做数据统计
1.1 单个列groupby 查询所有数据列的统计
1.2 多个列groupby 查询所有数据列的统计
1.3 同时查看多种数据统计
1.4 查看单列的结果数据统计
1.5 不同列使用不同的聚合函数
2、遍历groupby的结果理解执行流程
2.1 遍历单个列聚合的分组
2.2 遍历多个列聚合的分组
3、实例分组探索天气数据
3.1 查看每个月的最高温度
3.2 查看每个月的最高温度、最低温度、平均空气质量指数
十六、Pandas的分层索引MultiIndex
1、Series的分层索引MultiIndex
2、Series有多层索引MultiIndex怎么筛选数据
3、DataFrame的多层索引MultiIndex
4、DataFrame有多层索引MultiIndex怎样筛选
十七、Pandas的数据转换函数map、apply、applymap
1. map用于Series值的转换
方法1 Series.map(dict)
方法2 Series.map(function)
2. apply用于Series和DataFrame的转换
Series.apply(function)
DataFrame.apply(function)
3. applymap用于DataFrame所有值的转换
十八、Pandas怎样对每个分组应用apply函数?
知识 Pandas的GroupBy遵从split、apply、combine模式
GroupBy.apply(function)
本次实例演示
实例1 怎样对数值列按分组的归一化
演示 用户对电影评分的归一化
实例2 怎么取每个分组的TOP N数据
一、Pandas文件读取
1.pandas数据读取
pandas需要先读取表格类型的数据 然后进行分析
数据类型
说明
pandas读取方法
csv、tsv、txt
用逗号分隔、tab分割的纯文本文件
pd.read_csv
excel
微软xls或者xlsx文件
pd.read_excel
mysql
关系型数据库表
pd.read_sql
In [1]:
import pandas as pd
1、读取纯文本文件
1.1 读取csv 使用默认的标题行、逗号分隔符
In [2]:
fpath ./pandas-learn-code/datas/ml-latest-small/ratings.csv
In [3]:
# 使用pd.read_csv读取数据
ratings pd.read_csv(fpath)
In [4]:
# 查看前几行数据
ratings.head()
Out[4]:
userId
movieId
rating
timestamp
0
1
1
4.0
964982703
1
1
3
4.0
964981247
2
1
6
4.0
964982224
3
1
47
5.0
964983815
4
1
50
5.0
964982931
In [5]:
# 查看数据的形状 返回(行数、列数)
ratings.shape
Out[5]:
(100836, 4)
In [6]:
# 查看列名列表
ratings.columns
Out[6]:
Index([ userId , movieId , rating , timestamp ], dtype object )
In [7]:
# 查看索引
ratings.index
Out[7]:
RangeIndex(start 0, stop 100836, step 1)
In [9]:
# 查看每列的数据类型
ratings.dtypes
Out[9]:
userId int64
movieId int64
rating float64
timestamp int64
dtype: object
1.2 读取txt文件 自己指定分隔符、列名
In [10]:
fpath ./pandas-learn-code/datas/crazyant/access_pvuv.txt
In [11]:
pvuv pd.read_csv(fpath, sep \t , header None, names [ pdate , pv , uv ])
sep代表分隔符
header none代表没有列名
names代表指定的列明
In [13]:
pvuv.head()
Out[13]:
pdate
pv
uv
0
2019-09-10
139
92
1
2019-09-09
185
153
2
2019-09-08
123
59
3
2019-09-07
65
40
4
2019-09-06
157
98
2、读取excel文件
In [18]:
fpath ./pandas-learn-code/datas/crazyant/access_pvuv.xlsx
pvuv pd.read_excel(fpath)
In [19]:
pvuv
Out[19]:
日期
PV
UV
0
2019-09-10
139
92
1
2019-09-09
185
153
2
2019-09-08
123
59
3
2019-09-07
65
40
4
2019-09-06
157
98
5
2019-09-05
205
151
6
2019-09-04
196
167
7
2019-09-03
216
176
8
2019-09-02
227
148
9
2019-09-01
105
61
3、读取sql文件
In [36]:
import pymysql
conn pymysql.connect(
host 127.0.0.1 ,
user root ,
password 123456 ,
database test ,
charset utf8
)
In [41]:
fpath ./pandas-learn-code/datas/crazyant/test_crazyant_pvuv.sql
mysql_page pd.read_sql( select * from crazyant_pvuv , con conn)
In [42]:
pvuv
Out[42]:
日期
PV
UV
0
2019-09-10
139
92
1
2019-09-09
185
153
2
2019-09-08
123
59
3
2019-09-07
65
40
4
2019-09-06
157
98
5
2019-09-05
205
151
6
2019-09-04
196
167
7
2019-09-03
216
176
8
2019-09-02
227
148
9
2019-09-01
105
61
二、pandas的数据结构DataFrame和Series
DataFrame 二维数据 整个表格 多行多列
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tT4RRssV-1597761927694)(C:\Users\z y\AppData\Roaming\Typora\typora-user-images\image-20200730213558995.png)]
In [1]:
import pandas as pd
import numpy as np
1.Series
Series是一种类似于一维数组的对象 它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成。
1.1 仅有数据列表即可生产最简单的Series
In [3]:
s1 pd.Series([1, a ,5.2,7])
In [5]:
# 左侧为索引 右侧是数据
s1.head()
Out[5]:
0 1
1 a
2 5.2
3 7
dtype: object
In [6]:
# 获取索引
s1.index
Out[6]:
RangeIndex(start 0, stop 4, step 1)
In [7]:
# 获取数据
s1.values
Out[7]:
array([1, a , 5.2, 7], dtype object)
1.2 创建一个具有标签索引的Series
In [8]:
s2 pd.Series([1, a ,5.2,7], index [ a , b , c , d ])
In [9]:
s2
Out[9]:
a 1
b a
c 5.2
d 7
dtype: object
In [10]:
s2.index
Out[10]:
Index([ a , b , c , d ], dtype object )
1.3 使用python字典创建Series
In [11]:
sdata { Ohio :35000, Texas :72000, Oregon :16000, Utah :5000}
In [13]:
s3 pd.Series(sdata)
In [14]:
# 字典的key成为了Series的索引
s3
Out[14]:
Ohio 35000
Texas 72000
Oregon 16000
Utah 5000
dtype: int64
1.4 根据数据标签索引查询数据
类似python的字典dict
In [15]:
s2
Out[15]:
a 1
b a
c 5.2
d 7
dtype: object
In [20]:
s2[ a ]
Out[20]:
1
In [21]:
# 查询一个值,返回查询值的数据类型
type(s2[ a ])
Out[21]:
int
In [18]:
# 一次查询多个值
s2[[ a , b , c ]]
Out[18]:
a 1
b a
c 5.2
dtype: object
In [22]:
# 查询多个值,返回的还是Series
type(s2[[ a , b , c ]])
Out[22]:
pandas.core.series.Series
2. DataFrame
DataFrame是一个表格型的数据结构
每列可以是不同的值类型(数值,字符串,布尔值等)
既有行索引index,也有列索引columns
可以被看做由Series组成的字典
2.1 根据多个字典序列创建DataFrame
In [24]:
data {
state :[ Ohio , Ohio , Ohio , Nevada , Nevada ],
year :[2000,2001,2002,2003,2004],
pop :[1.5,1.7,3.6,2.4,2.9]
}
df pd.DataFrame(data)
In [25]:
df
Out[25]:
state
year
pop
0
Ohio
2000
1.5
1
Ohio
2001
1.7
2
Ohio
2002
3.6
3
Nevada
2003
2.4
4
Nevada
2004
2.9
In [26]:
df.dtypes
Out[26]:
state object
year int64
pop float64
dtype: object
In [27]:
df.columns
Out[27]:
Index([ state , year , pop ], dtype object )
In [28]:
df.index
Out[28]:
RangeIndex(start 0, stop 5, step 1)
从DataFrame中查询出Series
如果只查询一列,一列,返回的是pd.Series
如果查询多行,多列,返回的是pd.DataFrame
In [29]:
df
Out[29]:
state
year
pop
0
Ohio
2000
1.5
1
Ohio
2001
1.7
2
Ohio
2002
3.6
3
Nevada
2003
2.4
4
Nevada
2004
2.9
3.1 查询一列,结果是一个pd.Series
In [30]:
df[ year ]
Out[30]:
0 2000
1 2001
2 2002
3 2003
4 2004
Name: year, dtype: int64
In [35]:
# 返回的是一个Series
type(df[ year ])
Out[35]:
pandas.core.series.Series
3.2 查询多列,结果是一个pd.DataFrame
In [33]:
df[[ year , pop ]]
Out[33]:
year
pop
0
2000
1.5
1
2001
1.7
2
2002
3.6
3
2003
2.4
4
2004
2.9
In [34]:
# 返回的结果是一个DataFrame
type(df[[ year , pop ]])
Out[34]:
pandas.core.frame.DataFrame
3.3 查询一行,结果是一个pd.Series
In [39]:
df.loc[0]
Out[39]:
state Ohio
year 2000
pop 1.5
Name: 0, dtype: object
In [40]:
type(df.loc[0])
Out[40]:
pandas.core.series.Series
3.4 查询多行,结果是一个pd.DataFrame
In [41]:
# DataFrame中切片会返回结尾的数据
df.loc[0:3]
Out[41]:
state
year
pop
0
Ohio
2000
1.5
1
Ohio
2001
1.7
2
Ohio
2002
3.6
3
Nevada
2003
2.4
In [42]:
type(df.loc[0:3])
Out[42]:
pandas.core.frame.DataFrame
三.Pandas查询数据的5种方法
Pandas查询数据的几种方法
df.loc方法,根据行,列的标签值查询
df.iloc方法,根据行,列的数字位置查询
df.where方法
df.query方法
.loc方法既能查询,又能覆盖写入,推荐使用此方法
Pandas使用df.loc查询数据的方法
使用单个label值查询数据
使用值列表批量查询
使用数值区间进行范围查询
使用条件表达式查询
调用函数查询
注意
以上查询方法,既适用于行,也适用于列
In [3]:
import pandas as pd
0. 读取数据
数据为北京2018年全年天气预报
In [4]:
df pd.read_csv( ./pandas-learn-code/datas/beijing_tianqi/beijing_tianqi_2018.csv )
In [5]:
df.head()
Out[5]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3℃
-6℃
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2℃
-5℃
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2℃
-5℃
多云
北风
1-2级
28
优
1
3
2018-01-04
0℃
-8℃
阴
东北风
1-2级
28
优
1
4
2018-01-05
3℃
-6℃
多云~晴
西北风
1-2级
50
优
1
In [6]:
# 设定索引为日期,方便按日期筛选
df.set_index( ymd , inplace True)
In [7]:
df.head()
Out[7]:
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
ymd
2018-01-01
3℃
-6℃
晴~多云
东北风
1-2级
59
良
2
2018-01-02
2℃
-5℃
阴~多云
东北风
1-2级
49
优
1
2018-01-03
2℃
-5℃
多云
北风
1-2级
28
优
1
2018-01-04
0℃
-8℃
阴
东北风
1-2级
28
优
1
2018-01-05
3℃
-6℃
多云~晴
西北风
1-2级
50
优
1
In [8]:
# 时间序列见后续课程,本次按字符串处理
df.index
Out[8]:
Index([ 2018-01-01 , 2018-01-02 , 2018-01-03 , 2018-01-04 , 2018-01-05 ,
2018-01-06 , 2018-01-07 , 2018-01-08 , 2018-01-09 , 2018-01-10 ,
...
2018-12-22 , 2018-12-23 , 2018-12-24 , 2018-12-25 , 2018-12-26 ,
2018-12-27 , 2018-12-28 , 2018-12-29 , 2018-12-30 , 2018-12-31 ],
dtype object , name ymd , length 365)
In [9]:
# 替换掉温度的后缀℃
# df.loc[:]表示筛选出所有的行
df.loc[:, bWendu ] df[ bWendu ].str.replace( ℃ , ).astype( int32 )
df.loc[:, yWendu ] df[ yWendu ].str.replace( ℃ , ).astype( int32 )
In [10]:
# bWendu和yWendu改为int类型
df.dtypes
Out[10]:
bWendu int32
yWendu int32
tianqi object
fengxiang object
fengli object
aqi int64
aqiInfo object
aqiLevel int64
dtype: object
1. 使用单个label值查询数据
行或者列,都可以只传入单个值,实现精确匹配
In [11]:
# 得到单个值
df.loc[ 2018-01-03 , bWendu ]
Out[11]:
2
In [12]:
# 得到一个Series
df.loc[ 2018-01-03 ,[ bWendu , yWendu ]]
Out[12]:
bWendu 2
yWendu -5
Name: 2018-01-03, dtype: object
2. 使用值列进行表批量查询
In [13]:
# 得到Series
df.loc[[ 2018-01-03 , 2018-01-04 , 2018-01-05 ], bWendu ]
Out[13]:
ymd
2018-01-03 2
2018-01-04 0
2018-01-05 3
Name: bWendu, dtype: int32
In [14]:
# 得到DataFrame
df.loc[[ 2018-01-03 , 2018-01-04 , 2018-01-05 ], [ bWendu , yWendu ]]
Out[14]:
bWendu
yWendu
ymd
2018-01-03
2
-5
2018-01-04
0
-8
2018-01-05
3
-6
3. 使用数值区间进行范围查询
注意:区间既包含开始,也包含结束
In [15]:
# 行index按区间
df.loc[ 2018-01-03 : 2018-01-05 , bWendu ]
Out[15]:
ymd
2018-01-03 2
2018-01-04 0
2018-01-05 3
Name: bWendu, dtype: int32
In [16]:
# 列index按区间
df.loc[ 2018-01-03 , bWendu : fengxiang ]
Out[16]:
bWendu 2
yWendu -5
tianqi 多云
fengxiang 北风
Name: 2018-01-03, dtype: object
In [17]:
# 行和列都按区间查询
df.loc[ 2018-01-03 : 2018-01-05 , bWendu : fengxiang ]
Out[17]:
bWendu
yWendu
tianqi
fengxiang
ymd
2018-01-03
2
-5
多云
北风
2018-01-04
0
-8
阴
东北风
2018-01-05
3
-6
多云~晴
西北风
4. 使用条件表达式查询
bool列表的长度得等于行数或者列数
In [23]:
df.loc[df[ yWendu ]
Out[23]:
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
ymd
2018-01-23
-4
-12
晴
西北风
3-4级
31
优
1
2018-01-24
-4
-11
晴
西南风
1-2级
34
优
1
2018-01-25
-3
-11
多云
东北风
1-2级
27
优
1
2018-12-26
-2
-11
晴~多云
东北风
2级
26
优
1
2018-12-27
-5
-12
多云~晴
西北风
3级
48
优
1
2018-12-28
-3
-11
晴
西北风
3级
40
优
1
2018-12-29
-3
-12
晴
西北风
2级
29
优
1
2018-12-30
-2
-11
晴~多云
东北风
1级
31
优
1
In [24]:
df[ yWendu ]
Out[24]:
ymd
2018-01-01 False
2018-01-02 False
2018-01-03 False
2018-01-04 False
2018-01-05 False
2018-01-06 False
2018-01-07 False
2018-01-08 False
2018-01-09 False
2018-01-10 False
2018-01-11 False
2018-01-12 False
2018-01-13 False
2018-01-14 False
2018-01-15 False
2018-01-16 False
2018-01-17 False
2018-01-18 False
2018-01-19 False
2018-01-20 False
2018-01-21 False
2018-01-22 False
2018-01-23 True
2018-01-24 True
2018-01-25 True
2018-01-26 False
2018-01-27 False
2018-01-28 False
2018-01-29 False
2018-01-30 False
...
2018-12-02 False
2018-12-03 False
2018-12-04 False
2018-12-05 False
2018-12-06 False
2018-12-07 False
2018-12-08 False
2018-12-09 False
2018-12-10 False
2018-12-11 False
2018-12-12 False
2018-12-13 False
2018-12-14 False
2018-12-15 False
2018-12-16 False
2018-12-17 False
2018-12-18 False
2018-12-19 False
2018-12-20 False
2018-12-21 False
2018-12-22 False
2018-12-23 False
2018-12-24 False
2018-12-25 False
2018-12-26 True
2018-12-27 True
2018-12-28 True
2018-12-29 True
2018-12-30 True
2018-12-31 False
Name: yWendu, Length: 365, dtype: bool
复杂条件查询 查询一下完美得天气
注意 组合条件用 符号合并 每个条件判断都得带括号
In [29]:
df.loc[(df[ bWendu ] 30) (df[ yWendu ] 15) (df[ tianqi ] 晴 ) (df[ aqiLevel ] 1),:]
Out[29]:
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
ymd
2018-08-24
30
20
晴
北风
1-2级
40
优
1
2018-09-07
27
16
晴
西北风
3-4级
22
优
1
In [30]:
(df[ bWendu ] 30) (df[ yWendu ] 15) (df[ tianqi ] 晴 ) (df[ aqiLevel ] 1)
Out[30]:
ymd
2018-01-01 False
2018-01-02 False
2018-01-03 False
2018-01-04 False
2018-01-05 False
2018-01-06 False
2018-01-07 False
2018-01-08 False
2018-01-09 False
2018-01-10 False
2018-01-11 False
2018-01-12 False
2018-01-13 False
2018-01-14 False
2018-01-15 False
2018-01-16 False
2018-01-17 False
2018-01-18 False
2018-01-19 False
2018-01-20 False
2018-01-21 False
2018-01-22 False
2018-01-23 False
2018-01-24 False
2018-01-25 False
2018-01-26 False
2018-01-27 False
2018-01-28 False
2018-01-29 False
2018-01-30 False
...
2018-12-02 False
2018-12-03 False
2018-12-04 False
2018-12-05 False
2018-12-06 False
2018-12-07 False
2018-12-08 False
2018-12-09 False
2018-12-10 False
2018-12-11 False
2018-12-12 False
2018-12-13 False
2018-12-14 False
2018-12-15 False
2018-12-16 False
2018-12-17 False
2018-12-18 False
2018-12-19 False
2018-12-20 False
2018-12-21 False
2018-12-22 False
2018-12-23 False
2018-12-24 False
2018-12-25 False
2018-12-26 False
2018-12-27 False
2018-12-28 False
2018-12-29 False
2018-12-30 False
2018-12-31 False
Length: 365, dtype: bool
5. 调用函数查询
In [31]:
# 直接写lambda表达式
df.loc[lambda df: (df[ bWendu ] 30) (df[ yWendu ] 15),:]
Out[31]:
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
ymd
2018-04-28
27
17
晴
西南风
3-4级
125
轻度污染
3
2018-04-29
30
16
多云
南风
3-4级
193
中度污染
4
2018-05-04
27
16
晴~多云
西南风
1-2级
86
良
2
2018-05-09
29
17
晴~多云
西南风
3-4级
79
良
2
2018-05-10
26
18
多云
南风
3-4级
118
轻度污染
3
2018-05-11
24
15
阴~多云
东风
1-2级
106
轻度污染
3
2018-05-12
28
16
小雨
东南风
3-4级
186
中度污染
4
2018-05-13
30
17
晴
南风
1-2级
68
良
2
2018-05-16
29
21
多云~小雨
东风
1-2级
142
轻度污染
3
2018-05-17
25
19
小雨~多云
北风
1-2级
70
良
2
2018-05-18
28
16
多云~晴
南风
1-2级
49
优
1
2018-05-19
27
16
多云~小雨
南风
1-2级
69
良
2
2018-05-20
21
16
阴~小雨
东风
1-2级
54
良
2
2018-05-23
29
15
晴
西南风
3-4级
153
中度污染
4
2018-05-26
30
17
小雨~多云
西南风
3-4级
143
轻度污染
3
2018-05-28
30
16
晴
西北风
4-5级
178
中度污染
4
2018-06-09
23
17
小雨
北风
1-2级
45
优
1
2018-06-10
27
17
多云
东南风
1-2级
51
良
2
2018-06-11
29
19
多云
西南风
3-4级
85
良
2
2018-06-13
28
19
雷阵雨~多云
东北风
1-2级
73
良
2
2018-06-18
30
21
雷阵雨
西南风
1-2级
112
轻度污染
3
2018-06-22
30
21
雷阵雨~多云
东南风
1-2级
83
良
2
2018-07-08
30
23
雷阵雨
南风
1-2级
73
良
2
2018-07-09
30
22
雷阵雨~多云
东南风
1-2级
106
轻度污染
3
2018-07-10
30
22
多云~雷阵雨
南风
1-2级
48
优
1
2018-07-11
25
22
雷阵雨~大雨
东北风
1-2级
44
优
1
2018-07-12
27
22
多云
南风
1-2级
46
优
1
2018-07-13
28
23
雷阵雨
东风
1-2级
60
良
2
2018-07-17
27
23
中雨~雷阵雨
西风
1-2级
28
优
1
2018-07-24
28
26
暴雨~雷阵雨
东北风
3-4级
29
优
1
…
…
…
…
…
…
…
…
…
2018-08-11
30
23
雷阵雨~中雨
东风
1-2级
60
良
2
2018-08-12
30
24
雷阵雨
东南风
1-2级
74
良
2
2018-08-14
29
24
中雨~小雨
东北风
1-2级
42
优
1
2018-08-16
30
21
晴~多云
东北风
1-2级
40
优
1
2018-08-17
30
22
多云~雷阵雨
东南风
1-2级
69
良
2
2018-08-18
28
23
小雨~中雨
北风
3-4级
40
优
1
2018-08-19
26
23
中雨~小雨
东北风
1-2级
37
优
1
2018-08-22
28
21
雷阵雨~多云
西南风
1-2级
48
优
1
2018-08-24
30
20
晴
北风
1-2级
40
优
1
2018-08-27
30
22
多云~雷阵雨
东南风
1-2级
89
良
2
2018-08-28
29
22
小雨~多云
南风
1-2级
58
良
2
2018-08-30
29
20
多云
南风
1-2级
47
优
1
2018-08-31
29
20
多云~阴
东南风
1-2级
48
优
1
2018-09-01
27
19
阴~小雨
南风
1-2级
50
优
1
2018-09-02
27
19
小雨~多云
南风
1-2级
55
良
2
2018-09-03
30
19
晴
北风
3-4级
70
良
2
2018-09-06
27
18
多云~晴
西北风
4-5级
37
优
1
2018-09-07
27
16
晴
西北风
3-4级
22
优
1
2018-09-08
27
15
多云~晴
北风
1-2级
28
优
1
2018-09-09
28
16
晴
西南风
1-2级
51
良
2
2018-09-10
28
19
多云
南风
1-2级
65
良
2
2018-09-11
26
19
多云
南风
1-2级
68
良
2
2018-09-12
29
19
多云
南风
1-2级
59
良
2
2018-09-13
29
20
多云~阴
南风
1-2级
107
轻度污染
3
2018-09-14
28
19
小雨~多云
南风
1-2级
128
轻度污染
3
2018-09-15
26
15
多云
北风
3-4级
42
优
1
2018-09-17
27
17
多云~阴
北风
1-2级
37
优
1
2018-09-18
25
17
阴~多云
西南风
1-2级
50
优
1
2018-09-19
26
17
多云
南风
1-2级
52
良
2
2018-09-20
27
16
多云
西南风
1-2级
63
良
2
64 rows × 8 columns
In [33]:
# 编写自己的函数 查询9月份 空气质量好的数据
def query_my_data(df):
return df.index.str.startswith( 2018-09 ) (df[ aqiLevel ] 1)
df.loc[query_my_data,:]
Out[33]:
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
ymd
2018-09-01
27
19
阴~小雨
南风
1-2级
50
优
1
2018-09-04
31
18
晴
西南风
3-4级
24
优
1
2018-09-05
31
19
晴~多云
西南风
3-4级
34
优
1
2018-09-06
27
18
多云~晴
西北风
4-5级
37
优
1
2018-09-07
27
16
晴
西北风
3-4级
22
优
1
2018-09-08
27
15
多云~晴
北风
1-2级
28
优
1
2018-09-15
26
15
多云
北风
3-4级
42
优
1
2018-09-16
25
14
多云~晴
北风
1-2级
29
优
1
2018-09-17
27
17
多云~阴
北风
1-2级
37
优
1
2018-09-18
25
17
阴~多云
西南风
1-2级
50
优
1
2018-09-21
25
14
晴
西北风
3-4级
50
优
1
2018-09-22
24
13
晴
西北风
3-4级
28
优
1
2018-09-23
23
12
晴
西北风
4-5级
28
优
1
2018-09-24
23
11
晴
北风
1-2级
28
优
1
2018-09-25
24
12
晴~多云
南风
1-2级
44
优
1
2018-09-29
22
11
晴
北风
3-4级
21
优
1
2018-09-30
19
13
多云
西北风
4-5级
22
优
1
四、Pandas怎样新增数据列
In [1]:
import pandas as pd
0. 读取csv数据到DataFrame
In [15]:
df pd.read_csv( ./pandas-learn-code/datas/beijing_tianqi/beijing_tianqi_2018.csv )
In [16]:
df.head()
Out[16]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3℃
-6℃
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2℃
-5℃
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2℃
-5℃
多云
北风
1-2级
28
优
1
3
2018-01-04
0℃
-8℃
阴
东北风
1-2级
28
优
1
4
2018-01-05
3℃
-6℃
多云~晴
西北风
1-2级
50
优
1
1. 直接赋值的方法
实例 清理温度列 变成数字类型
In [31]:
df.loc[:, bWendu ] df[ bWendu ].str.replace( ℃ , ).astype( int32 )
df.loc[:, yWendu ] df[ yWendu ].str.replace( ℃ , ).astype( int32 )
实例 计算温差
In [49]:
del df[ bWendnu ]
In [51]:
del df[ bWednu ]
In [52]:
# 注意 fpath[ bWendu ]其实是一个Series 后面的减法返回的是Series
df.loc[:, wencha ] df[ bWendu ] - df[ yWendu ]
In [53]:
df.head()
Out[53]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
wencha
0
2018-01-01
3
-6
晴~多云
东北风
1-2级
59
良
2
9
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
7
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
7
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
8
4
2018-01-05
3
-6
多云~晴
西北风
1-2级
50
优
1
9
2. df.apply方法
Apply a function along an axis of the DataFrame. Objects passed to the function are Series objects whose index is either the DataFrame’s index (axis 0) or the DataFrame’s columns (axis 1) 实例 添加一列温度类型
如果最高温度大于33度就是高温
低于-10度是低温
否则是常温
In [60]:
def get_wendu_type(x):
if x[ bWendu ] 33:
return 高温
if x[ yWendu ] -10:
return 低温
return 常温
# 注意需要设置axis 1
df.loc[:, wendu_type ] df.apply(get_wendu_type, axis 1)
In [61]:
# 查看温度类型的计数
df[ wendu_type ].value_counts()
Out[61]:
常温 328
高温 29
低温 8
Name: wendu_type, dtype: int64
3. df.assign方法
Assign new columns to a DataFrame.
Returns a new object with all original columns in addtion to new ones.
实例 将温度从摄氏度变成华氏度
In [63]:
# 可以同时添加多个新的列
df.assign(
yWendu_huashi lambda x: x[ yWendu ]*9/5 32,
bWendu_huashi lambda x: x[ bWendu ]*9/5 32
)
. . .
4. 按条件选择分组分别赋值
按条件选择数据 然后对整个数据赋值新列
实例 高低温差大于10度 则认为温差大
In [65]:
df.loc[:, wencha_type ]
df.loc[df[ bWendu ]-df[ yWendu ] 10, wencha_type ] 温差大
df.loc[df[ bWendu ]-df[ yWendu ] 10, wencha_type ] 温度正常
In [67]:
df[ wencha_type ].value_counts()
Out[67]:
温度正常 187
温差大 178
Name: wencha_type, dtype: int64
五、Pandas数据统计函数
汇总类统计
唯一去重和按值计数
相关系数和协方差
In [2]:
import pandas as pd
0. 读取csv数据
In [5]:
fpath ./pandas-learn-code/datas/beijing_tianqi/beijing_tianqi_2018.csv
df pd.read_csv(fpath)
In [6]:
df.head(3)
Out[6]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3℃
-6℃
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2℃
-5℃
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2℃
-5℃
多云
北风
1-2级
28
优
1
In [12]:
df.loc[:, yWendu ] df[ yWendu ].str.replace( ℃ , ).astype( int32 )
In [14]:
df.head(3)
Out[14]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3
-6
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
1. 汇总类统计
In [15]:
# 一次提取所有数字列统计结果
df.describe()
Out[15]:
bWendu
yWendu
aqi
aqiLevel
count
365.000000
365.000000
365.000000
365.000000
mean
18.665753
8.358904
82.183562
2.090411
std
11.858046
11.755053
51.936159
1.029798
min
-5.000000
-12.000000
21.000000
1.000000
25%
8.000000
-3.000000
46.000000
1.000000
50%
21.000000
8.000000
69.000000
2.000000
75%
29.000000
19.000000
104.000000
3.000000
max
38.000000
27.000000
387.000000
6.000000
In [16]:
# 查看单个Series的数据
df[ bWendu ].mean()
Out[16]:
18.665753424657535
In [17]:
# 最高温
df[ bWendu ].max()
Out[17]:
38
In [18]:
# 最低温
df[ bWendu ].min()
Out[18]:
-5
2. 唯一去重和按值计数
2.1 唯一去重
一般不用于数值列 而是枚举、分类列
In [19]:
df[ fengxiang ].unique()
Out[19]:
array([ 东北风 , 北风 , 西北风 , 西南风 , 南风 , 东南风 , 东风 , 西风 ], dtype object)
In [20]:
df[ tianqi ].unique()
Out[20]:
array([ 晴~多云 , 阴~多云 , 多云 , 阴 , 多云~晴 , 多云~阴 , 晴 , 阴~小雪 , 小雪~多云 ,
小雨~阴 , 小雨~雨夹雪 , 多云~小雨 , 小雨~多云 , 大雨~小雨 , 小雨 , 阴~小雨 ,
多云~雷阵雨 , 雷阵雨~多云 , 阴~雷阵雨 , 雷阵雨 , 雷阵雨~大雨 , 中雨~雷阵雨 , 小雨~大雨 ,
暴雨~雷阵雨 , 雷阵雨~中雨 , 小雨~雷阵雨 , 雷阵雨~阴 , 中雨~小雨 , 小雨~中雨 , 雾~多云 ,
霾 ], dtype object)
In [22]:
df[ fengli ].unique()
Out[22]:
array([ 1-2级 , 4-5级 , 3-4级 , 2级 , 1级 , 3级 ], dtype object)
2.2 按值计数
In [24]:
df[ fengxiang ].value_counts()
Out[24]:
南风 92
西南风 64
北风 54
西北风 51
东南风 46
东北风 38
东风 14
西风 6
Name: fengxiang, dtype: int64
In [25]:
df[ tianqi ].unique()
Out[25]:
array([ 晴~多云 , 阴~多云 , 多云 , 阴 , 多云~晴 , 多云~阴 , 晴 , 阴~小雪 , 小雪~多云 ,
小雨~阴 , 小雨~雨夹雪 , 多云~小雨 , 小雨~多云 , 大雨~小雨 , 小雨 , 阴~小雨 ,
多云~雷阵雨 , 雷阵雨~多云 , 阴~雷阵雨 , 雷阵雨 , 雷阵雨~大雨 , 中雨~雷阵雨 , 小雨~大雨 ,
暴雨~雷阵雨 , 雷阵雨~中雨 , 小雨~雷阵雨 , 雷阵雨~阴 , 中雨~小雨 , 小雨~中雨 , 雾~多云 ,
霾 ], dtype object)
In [26]:
df[ fengli ].value_counts()
Out[26]:
1-2级 236
3-4级 68
1级 21
4-5级 20
2级 13
3级 7
Name: fengli, dtype: int64
3. 相关系数和协防差
用途
两只股票 是不是同涨同跌 程度多大 正相关还是负相关
产品销量的波动 跟哪些因素正相关、负相关 程度有多大
对于两个变量x, y:
协方差 衡量同向反向程度 如果协方差为正 说明x,y同向变化 协方差越大说明同向程度越高 如果协方差为负 说明x,y反向运动 协方差越小说明反向程度越高。
相关系数 衡量相似度程度 当他们的相关系数为1时 说明两个变量变化时正向相似度越大 当关系数为-1时 说明两个变量变化的反向相似度最大
In [27]:
# 协方差矩阵
df.cov()
Out[27]:
bWendu
yWendu
aqi
aqiLevel
bWendu
140.613247
135.529633
47.462622
0.879204
yWendu
135.529633
138.181274
16.186685
0.264165
aqi
47.462622
16.186685
2697.364564
50.749842
aqiLevel
0.879204
0.264165
50.749842
1.060485
In [28]:
# 相关系数矩阵
df.corr()
Out[28]:
bWendu
yWendu
aqi
aqiLevel
bWendu
1.000000
0.972292
0.077067
0.071999
yWendu
0.972292
1.000000
0.026513
0.021822
aqi
0.077067
0.026513
1.000000
0.948883
aqiLevel
0.071999
0.021822
0.948883
1.000000
In [29]:
# 单独查看空气质量和最高温度的相关系数
df[ aqi ].corr(df[ bWendu ])
Out[29]:
0.07706705916811067
In [30]:
df[ aqi ].corr(df[ yWendu ])
Out[30]:
0.026513282672968895
In [31]:
# 空气质量和温差的相关系数
df[ aqi ].corr(df[ bWendu ]-df[ yWendu ])
Out[31]:
0.2165225757638205
虽然单独观察最高温度和最低温度对空气质量的影响不大 但是明显温差对空气质量的影响要大得多 因此 前端数据的挖掘对结果的呈现十分重要。
六、Pandas对缺失值的处理
Pandas使用这些函数处理缺失值
isnull和notnull 检测是否是空值 可用于df和Series
dropna 丢弃、删除缺失值
axis 删除行还是列 {0 or “index”, 1 or “columns”}, default 0
how 如果等于any则任何值为空都删除 如果等于all则所有值都为空才删除
inplace 如果为True则修改当前df 否则返回新的df
fillna 填充空值
value 用于填充的值 可以是单个值 或者字典(key是列名 value是值)
method 等于ffill使用前一个不为空的值填充forward fill 等于fill使用后一个不为 空的值填充backword fill
axis 按行还是列填充 {0 or “index”, 1 or columns’}
inplace 如果为True则修改当前df 否则返回新的df
In [1]:
import pandas as pd
实例 特殊excel的读取、清洗、处理
步骤1 读取excel的时候 忽略前几个空行
In [5]:
# skiprows 2, 跳过前两行
studf pd.read_excel( ./pandas-learn-code/datas/student_excel/student_excel.xlsx , skiprows 2)
In [6]:
studf
Out[6]:
Unnamed: 0
姓名
科目
分数
0
NaN
小明
语文
85.0
1
NaN
NaN
数学
80.0
2
NaN
NaN
英语
90.0
3
NaN
NaN
NaN
NaN
4
NaN
小王
语文
85.0
5
NaN
NaN
数学
NaN
6
NaN
NaN
英语
90.0
7
NaN
NaN
NaN
NaN
8
NaN
小刚
语文
85.0
9
NaN
NaN
数学
80.0
10
NaN
NaN
英语
90.0
步骤2 检测空值
In [7]:
studf.isnull()
Out[7]:
Unnamed: 0
姓名
科目
分数
0
True
False
False
False
1
True
True
False
False
2
True
True
False
False
3
True
True
True
True
4
True
False
False
False
5
True
True
False
True
6
True
True
False
False
7
True
True
True
True
8
True
False
False
False
9
True
True
False
False
10
True
True
False
False
In [9]:
studf[ 分数 ].isnull()
Out[9]:
0 False
1 False
2 False
3 True
4 False
5 True
6 False
7 True
8 False
9 False
10 False
Name: 分数, dtype: bool
In [10]:
studf[ 分数 ].notnull()
Out[10]:
0 True
1 True
2 True
3 False
4 True
5 False
6 True
7 False
8 True
9 True
10 True
Name: 分数, dtype: bool
In [12]:
# 筛选没有空分数的所有行
studf.loc[studf[ 分数 ].notnull(), :]
Out[12]:
Unnamed: 0
姓名
科目
分数
0
NaN
小明
语文
85.0
1
NaN
NaN
数学
80.0
2
NaN
NaN
英语
90.0
4
NaN
小王
语文
85.0
6
NaN
NaN
英语
90.0
8
NaN
小刚
语文
85.0
9
NaN
NaN
数学
80.0
10
NaN
NaN
英语
90.0
步骤3 删除掉全是空值的列
In [15]:
studf.dropna(axis columns , how all , inplace True)
In [16]:
studf
Out[16]:
姓名
科目
分数
0
小明
语文
85.0
1
NaN
数学
80.0
2
NaN
英语
90.0
4
小王
语文
85.0
5
NaN
数学
NaN
6
NaN
英语
90.0
8
小刚
语文
85.0
9
NaN
数学
80.0
10
NaN
英语
90.0
步骤4 删除掉全是空值的行
In [13]:
studf.dropna(axis index , how all , inplace True)
In [17]:
studf
Out[17]:
姓名
科目
分数
0
小明
语文
85.0
1
NaN
数学
80.0
2
NaN
英语
90.0
4
小王
语文
85.0
5
NaN
数学
NaN
6
NaN
英语
90.0
8
小刚
语文
85.0
9
NaN
数学
80.0
10
NaN
英语
90.0
步骤5 将分数列为空的填充为0分
In [19]:
studf.fillna({ 分数 : 0})
. . .
In [20]:
# 等同于
studf.loc[:, 分数 ] studf[ 分数 ].fillna(0)
In [21]:
studf
Out[21]:
姓名
科目
分数
0
小明
语文
85.0
1
NaN
数学
80.0
2
NaN
英语
90.0
4
小王
语文
85.0
5
NaN
数学
0.0
6
NaN
英语
90.0
8
小刚
语文
85.0
9
NaN
数学
80.0
10
NaN
英语
90.0
步骤6 将姓名的缺失值填充
使用前面的有效值填充 用ffill:forward fill
In [22]:
studf.loc[:, 姓名 ] studf[ 姓名 ].fillna(method ffill )
In [23]:
studf
Out[23]:
姓名
科目
分数
0
小明
语文
85.0
1
小明
数学
80.0
2
小明
英语
90.0
4
小王
语文
85.0
5
小王
数学
0.0
6
小王
英语
90.0
8
小刚
语文
85.0
9
小刚
数学
80.0
10
小刚
英语
90.0
步骤7 将清晰好的excel保存
In [25]:
studf.to_excel(r D:\WinterIsComing\python\New_Wave\pandas_basic\student_excel.xlsx , index False)
七、Pandas的SettingWithCopyWarning报警
0. 数据读取
In [1]:
import pandas as pd
In [2]:
fpath ./pandas-learn-code/datas/beijing_tianqi/beijing_tianqi_2018.csv
df pd.read_csv(fpath)
In [3]:
df.head()
Out[3]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3℃
-6℃
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2℃
-5℃
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2℃
-5℃
多云
北风
1-2级
28
优
1
3
2018-01-04
0℃
-8℃
阴
东北风
1-2级
28
优
1
4
2018-01-05
3℃
-6℃
多云~晴
西北风
1-2级
50
优
1
In [5]:
df.loc[:, bWendu ] df[ bWendu ].str.replace( ℃ , ).astype( int32 )
df.loc[:, yWendu ] df[ yWendu ].str.replace( ℃ , ).astype( int32 )
In [7]:
df.head()
Out[7]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3
-6
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
4
2018-01-05
3
-6
多云~晴
西北风
1-2级
50
优
1
1. 复现
In [10]:
# 筛选出3月份的数据用于分析
condition df.loc[:, ymd ].str.startswith( 2018-03 )
In [11]:
# 设置三月份的温差
# 错误写法
df[condition][ wen_cha ] df[ bWendu ] - df[ yWendu ]
D:\Tools\Anaconda3\lib\site-packages\ipykernel_launcher.py:3: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] value instead
See the caveats in the documentation: http://pandas.pydata/pandas-docs/stable/indexing.html#indexing-view-versus-copy
This is separate from the ipykernel package so we can avoid doing imports until
In [12]:
# 查看修改是否成功
df[condition].head()
# 只筛选了3月的数据 但没有新增温差列
Out[12]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
59
2018-03-01
8
-3
多云
西南风
1-2级
46
优
1
60
2018-03-02
9
-1
晴~多云
北风
1-2级
95
良
2
61
2018-03-03
13
3
多云~阴
北风
1-2级
214
重度污染
5
62
2018-03-04
7
-2
阴~多云
东南风
1-2级
144
轻度污染
3
63
2018-03-05
8
-3
晴
南风
1-2级
94
良
2
2、原因
发出警告的代码 df[condition][“wen_cha”] df[“bWendu”]-df[“yWendu”]
相当于 df.get(condition).set(wen_cha) 第一步骤的get发出了报警
*链式操作其实是两个步骤 先get后set get得到的dataframe可能是view(是DateFrame的子视图 我们对它修改会直接影响原DateFrame)也可能是copy pandas发出警告*
官网文档 https://pandas.pydata/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
核心要诀 pandas的dataframe的修改写操作 只允许在源dataframe上进行 一步到位
## 3. 解决方法1
将get set的两步操作 改成set的一步操作
In [15]:
df.loc[condition, wen_cha ] df[ bWendu ] - df[ yWendu ]
In [18]:
df.head(2)
Out[18]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
wen_cha
0
2018-01-01
3
-6
晴~多云
东北风
1-2级
59
良
2
NaN
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
NaN
In [19]:
df[condition].head(2)
Out[19]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
wen_cha
59
2018-03-01
8
-3
多云
西南风
1-2级
46
优
1
11.0
60
2018-03-02
9
-1
晴~多云
北风
1-2级
95
良
2
10.0
4. 解决方法2
如果需要预筛选数据做后续的处理分析 先使用copy复制DataFrame并进行操作
In [20]:
# 复制一个新的DateFrame df_month3 筛选3月份的数据并复制
df_month3 df[condition].copy()
In [22]:
df_month3.head()
Out[22]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
wen_cha
59
2018-03-01
8
-3
多云
西南风
1-2级
46
优
1
11.0
60
2018-03-02
9
-1
晴~多云
北风
1-2级
95
良
2
10.0
61
2018-03-03
13
3
多云~阴
北风
1-2级
214
重度污染
5
10.0
62
2018-03-04
7
-2
阴~多云
东南风
1-2级
144
轻度污染
3
9.0
63
2018-03-05
8
-3
晴
南风
1-2级
94
良
2
11.0
In [24]:
df_month3[ wencha ] df_month3[ bWendu ] - df_month3[ yWendu ]
In [25]:
df_month3.head()
Out[25]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
wen_cha
wencha
59
2018-03-01
8
-3
多云
西南风
1-2级
46
优
1
11.0
11
60
2018-03-02
9
-1
晴~多云
北风
1-2级
95
良
2
10.0
10
61
2018-03-03
13
3
多云~阴
北风
1-2级
214
重度污染
5
10.0
10
62
2018-03-04
7
-2
阴~多云
东南风
1-2级
144
轻度污染
3
9.0
9
63
2018-03-05
8
-3
晴
南风
1-2级
94
良
2
11.0
11
Pandas不允许先筛选子DataFrame 在进行修改写入
要么使用.loc实现一个步骤直接修改源dataframe
要么先复制一个子DataFrame再一个步骤执行修改
八、Pandas数据排序
Series的排序
*Series.sort_values(ascending True, inplace False)*
参数说明
ascending 默认为True升序排序 为False降序排序
inplace 是否修改原始Series
DataFrame的排序
*DataFrame.sort_values(by, ascending True, inplace False)*
参数说明
by 字符串或者List 单列排序或者多列排序
ascending bool或者List 升序还是降序 如果是list对应by的多列
inplace 是否修改原始DataFrame
In [1]:
import pandas as pd
0. 读取数据
In [2]:
fpath ./pandas-learn-code/datas/beijing_tianqi/beijing_tianqi_2018.csv
df pd.read_csv(fpath)
In [4]:
# 替换温度的后缀℃
df.loc[:, bWendu ] df[ bWendu ].str.replace( ℃ , ).astype( int32 )
df.loc[:, yWendu ] df[ yWendu ].str.replace( ℃ , ).astype( int32 )
In [5]:
df.head()
Out[5]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3
-6
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
4
2018-01-05
3
-6
多云~晴
西北风
1-2级
50
优
1
1. Series的排序
In [7]:
# 默认为升序
df[ aqi ].sort_values()
Out[7]:
271 21
281 21
249 22
272 22
301 22
246 24
35 24
33 24
10 24
273 25
282 25
359 26
9 26
111 27
24 27
2 28
264 28
319 28
250 28
266 28
3 28
265 28
205 28
197 28
204 29
258 29
362 29
283 30
308 30
22 31
...
334 163
109 164
108 170
68 171
176 174
70 174
294 176
124 177
286 177
147 178
49 183
131 186
13 187
118 193
336 198
287 198
330 198
306 206
61 214
90 218
316 219
57 220
335 234
85 243
329 245
317 266
71 287
91 287
72 293
86 387
Name: aqi, Length: 365, dtype: int64
In [10]:
# 将排序方式调整为降序
df[ aqi ].sort_values(ascending False)
Out[10]:
86 387
72 293
91 287
71 287
317 266
329 245
85 243
335 234
57 220
316 219
90 218
61 214
306 206
330 198
287 198
336 198
118 193
13 187
131 186
49 183
147 178
286 177
124 177
294 176
70 174
176 174
68 171
108 170
109 164
334 163
...
22 31
308 30
283 30
362 29
258 29
204 29
197 28
205 28
265 28
3 28
266 28
250 28
319 28
264 28
2 28
24 27
111 27
9 26
359 26
282 25
273 25
10 24
33 24
35 24
246 24
301 22
272 22
249 22
281 21
271 21
Name: aqi, Length: 365, dtype: int64
In [12]:
# 对中文也可以排序
df[ tianqi ].sort_values()
Out[12]:
225 中雨~小雨
230 中雨~小雨
197 中雨~雷阵雨
196 中雨~雷阵雨
112 多云
108 多云
232 多云
234 多云
241 多云
94 多云
91 多云
88 多云
252 多云
84 多云
364 多云
165 多云
81 多云
79 多云
78 多云
77 多云
257 多云
74 多云
69 多云
67 多云
261 多云
262 多云
268 多云
270 多云
226 多云
253 多云
...
338 阴~多云
111 阴~多云
243 阴~小雨
139 阴~小雨
20 阴~小雪
167 阴~雷阵雨
237 雷阵雨
195 雷阵雨
223 雷阵雨
187 雷阵雨
168 雷阵雨
188 雷阵雨
193 雷阵雨
175 雷阵雨
218 雷阵雨~中雨
216 雷阵雨~中雨
224 雷阵雨~中雨
222 雷阵雨~中雨
189 雷阵雨~多云
163 雷阵雨~多云
180 雷阵雨~多云
183 雷阵雨~多云
194 雷阵雨~多云
172 雷阵雨~多云
233 雷阵雨~多云
191 雷阵雨~大雨
219 雷阵雨~阴
335 雾~多云
353 霾
348 霾
Name: tianqi, Length: 365, dtype: object
2. DataFrame的排序
2.1 单列排序
In [13]:
# 按照空气质量进行排序
df.sort_values(by aqi )
Out[13]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
271
2018-09-29
22
11
晴
北风
3-4级
21
优
1
281
2018-10-09
15
4
多云~晴
西北风
4-5级
21
优
1
249
2018-09-07
27
16
晴
西北风
3-4级
22
优
1
272
2018-09-30
19
13
多云
西北风
4-5级
22
优
1
301
2018-10-29
15
3
晴
北风
3-4级
22
优
1
246
2018-09-04
31
18
晴
西南风
3-4级
24
优
1
35
2018-02-05
0
-10
晴
北风
3-4级
24
优
1
33
2018-02-03
0
-9
多云
北风
1-2级
24
优
1
10
2018-01-11
-1
-10
晴
北风
1-2级
24
优
1
273
2018-10-01
24
12
晴
北风
4-5级
25
优
1
282
2018-10-10
17
4
多云~晴
西北风
1-2级
25
优
1
359
2018-12-26
-2
-11
晴~多云
东北风
2级
26
优
1
9
2018-01-10
-2
-10
晴
西北风
1-2级
26
优
1
111
2018-04-22
16
12
阴~多云
东北风
3-4级
27
优
1
24
2018-01-25
-3
-11
多云
东北风
1-2级
27
优
1
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
264
2018-09-22
24
13
晴
西北风
3-4级
28
优
1
319
2018-11-16
8
-1
晴~多云
北风
1-2级
28
优
1
250
2018-09-08
27
15
多云~晴
北风
1-2级
28
优
1
266
2018-09-24
23
11
晴
北风
1-2级
28
优
1
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
265
2018-09-23
23
12
晴
西北风
4-5级
28
优
1
205
2018-07-25
32
25
多云
北风
1-2级
28
优
1
197
2018-07-17
27
23
中雨~雷阵雨
西风
1-2级
28
优
1
204
2018-07-24
28
26
暴雨~雷阵雨
东北风
3-4级
29
优
1
258
2018-09-16
25
14
多云~晴
北风
1-2级
29
优
1
362
2018-12-29
-3
-12
晴
西北风
2级
29
优
1
283
2018-10-11
18
5
晴~多云
北风
1-2级
30
优
1
308
2018-11-05
10
2
多云
西南风
1-2级
30
优
1
22
2018-01-23
-4
-12
晴
西北风
3-4级
31
优
1
…
…
…
…
…
…
…
…
…
…
334
2018-12-01
7
0
多云
东南风
1级
163
中度污染
4
109
2018-04-20
28
14
多云~小雨
南风
4-5级
164
中度污染
4
108
2018-04-19
26
13
多云
东南风
4-5级
170
中度污染
4
68
2018-03-10
14
-2
晴
东南风
1-2级
171
中度污染
4
176
2018-06-26
36
25
晴
西南风
3-4级
174
中度污染
4
70
2018-03-12
15
3
多云~晴
南风
1-2级
174
中度污染
4
294
2018-10-22
19
5
多云~晴
西北风
1-2级
176
中度污染
4
124
2018-05-05
25
13
多云
北风
3-4级
177
中度污染
4
286
2018-10-14
21
10
多云
南风
1-2级
177
中度污染
4
147
2018-05-28
30
16
晴
西北风
4-5级
178
中度污染
4
49
2018-02-19
6
-3
多云
南风
1-2级
183
中度污染
4
131
2018-05-12
28
16
小雨
东南风
3-4级
186
中度污染
4
13
2018-01-14
6
-5
晴~多云
西北风
1-2级
187
中度污染
4
118
2018-04-29
30
16
多云
南风
3-4级
193
中度污染
4
336
2018-12-03
8
-3
多云~晴
东北风
3级
198
中度污染
4
287
2018-10-15
17
11
小雨
北风
1-2级
198
中度污染
4
330
2018-11-27
9
-3
晴~多云
西北风
2级
198
中度污染
4
306
2018-11-03
16
6
多云
南风
1-2级
206
重度污染
5
61
2018-03-03
13
3
多云~阴
北风
1-2级
214
重度污染
5
90
2018-04-01
25
11
晴~多云
南风
1-2级
218
重度污染
5
316
2018-11-13
13
5
多云
东南风
1-2级
219
重度污染
5
57
2018-02-27
7
0
阴
东风
1-2级
220
重度污染
5
335
2018-12-02
9
2
雾~多云
东北风
1级
234
重度污染
5
85
2018-03-27
27
11
晴
南风
1-2级
243
重度污染
5
329
2018-11-26
10
0
多云
东南风
1级
245
重度污染
5
317
2018-11-14
13
5
多云
南风
1-2级
266
重度污染
5
71
2018-03-13
17
5
晴~多云
南风
1-2级
287
重度污染
5
91
2018-04-02
26
11
多云
北风
1-2级
287
重度污染
5
72
2018-03-14
15
6
多云~阴
东北风
1-2级
293
重度污染
5
86
2018-03-28
25
9
多云~晴
东风
1-2级
387
严重污染
6
365 rows × 9 columns
In [14]:
# 指定降序
df.sort_values(by aqi , ascending False)
Out[14]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
86
2018-03-28
25
9
多云~晴
东风
1-2级
387
严重污染
6
72
2018-03-14
15
6
多云~阴
东北风
1-2级
293
重度污染
5
71
2018-03-13
17
5
晴~多云
南风
1-2级
287
重度污染
5
91
2018-04-02
26
11
多云
北风
1-2级
287
重度污染
5
317
2018-11-14
13
5
多云
南风
1-2级
266
重度污染
5
329
2018-11-26
10
0
多云
东南风
1级
245
重度污染
5
85
2018-03-27
27
11
晴
南风
1-2级
243
重度污染
5
335
2018-12-02
9
2
雾~多云
东北风
1级
234
重度污染
5
57
2018-02-27
7
0
阴
东风
1-2级
220
重度污染
5
316
2018-11-13
13
5
多云
东南风
1-2级
219
重度污染
5
90
2018-04-01
25
11
晴~多云
南风
1-2级
218
重度污染
5
61
2018-03-03
13
3
多云~阴
北风
1-2级
214
重度污染
5
306
2018-11-03
16
6
多云
南风
1-2级
206
重度污染
5
287
2018-10-15
17
11
小雨
北风
1-2级
198
中度污染
4
336
2018-12-03
8
-3
多云~晴
东北风
3级
198
中度污染
4
330
2018-11-27
9
-3
晴~多云
西北风
2级
198
中度污染
4
118
2018-04-29
30
16
多云
南风
3-4级
193
中度污染
4
13
2018-01-14
6
-5
晴~多云
西北风
1-2级
187
中度污染
4
131
2018-05-12
28
16
小雨
东南风
3-4级
186
中度污染
4
49
2018-02-19
6
-3
多云
南风
1-2级
183
中度污染
4
147
2018-05-28
30
16
晴
西北风
4-5级
178
中度污染
4
286
2018-10-14
21
10
多云
南风
1-2级
177
中度污染
4
124
2018-05-05
25
13
多云
北风
3-4级
177
中度污染
4
294
2018-10-22
19
5
多云~晴
西北风
1-2级
176
中度污染
4
70
2018-03-12
15
3
多云~晴
南风
1-2级
174
中度污染
4
176
2018-06-26
36
25
晴
西南风
3-4级
174
中度污染
4
68
2018-03-10
14
-2
晴
东南风
1-2级
171
中度污染
4
108
2018-04-19
26
13
多云
东南风
4-5级
170
中度污染
4
109
2018-04-20
28
14
多云~小雨
南风
4-5级
164
中度污染
4
334
2018-12-01
7
0
多云
东南风
1级
163
中度污染
4
…
…
…
…
…
…
…
…
…
…
274
2018-10-02
24
11
晴
西北风
1-2级
31
优
1
308
2018-11-05
10
2
多云
西南风
1-2级
30
优
1
283
2018-10-11
18
5
晴~多云
北风
1-2级
30
优
1
362
2018-12-29
-3
-12
晴
西北风
2级
29
优
1
258
2018-09-16
25
14
多云~晴
北风
1-2级
29
优
1
204
2018-07-24
28
26
暴雨~雷阵雨
东北风
3-4级
29
优
1
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
250
2018-09-08
27
15
多云~晴
北风
1-2级
28
优
1
205
2018-07-25
32
25
多云
北风
1-2级
28
优
1
197
2018-07-17
27
23
中雨~雷阵雨
西风
1-2级
28
优
1
264
2018-09-22
24
13
晴
西北风
3-4级
28
优
1
266
2018-09-24
23
11
晴
北风
1-2级
28
优
1
265
2018-09-23
23
12
晴
西北风
4-5级
28
优
1
319
2018-11-16
8
-1
晴~多云
北风
1-2级
28
优
1
111
2018-04-22
16
12
阴~多云
东北风
3-4级
27
优
1
24
2018-01-25
-3
-11
多云
东北风
1-2级
27
优
1
9
2018-01-10
-2
-10
晴
西北风
1-2级
26
优
1
359
2018-12-26
-2
-11
晴~多云
东北风
2级
26
优
1
273
2018-10-01
24
12
晴
北风
4-5级
25
优
1
282
2018-10-10
17
4
多云~晴
西北风
1-2级
25
优
1
33
2018-02-03
0
-9
多云
北风
1-2级
24
优
1
246
2018-09-04
31
18
晴
西南风
3-4级
24
优
1
10
2018-01-11
-1
-10
晴
北风
1-2级
24
优
1
35
2018-02-05
0
-10
晴
北风
3-4级
24
优
1
249
2018-09-07
27
16
晴
西北风
3-4级
22
优
1
301
2018-10-29
15
3
晴
北风
3-4级
22
优
1
272
2018-09-30
19
13
多云
西北风
4-5级
22
优
1
271
2018-09-29
22
11
晴
北风
3-4级
21
优
1
281
2018-10-09
15
4
多云~晴
西北风
4-5级
21
优
1
365 rows × 9 columns
2.2 多列排序
In [15]:
# 按空气质量等级、最高温度默认排序 默认升序
df.sort_values(by [ aqiLevel , bWendu ])
Out[15]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
360
2018-12-27
-5
-12
多云~晴
西北风
3级
48
优
1
22
2018-01-23
-4
-12
晴
西北风
3-4级
31
优
1
23
2018-01-24
-4
-11
晴
西南风
1-2级
34
优
1
340
2018-12-07
-4
-10
晴
西北风
3级
33
优
1
21
2018-01-22
-3
-10
小雪~多云
东风
1-2级
47
优
1
24
2018-01-25
-3
-11
多云
东北风
1-2级
27
优
1
25
2018-01-26
-3
-10
晴~多云
南风
1-2级
39
优
1
361
2018-12-28
-3
-11
晴
西北风
3级
40
优
1
362
2018-12-29
-3
-12
晴
西北风
2级
29
优
1
9
2018-01-10
-2
-10
晴
西北风
1-2级
26
优
1
339
2018-12-06
-2
-9
晴
西北风
3级
40
优
1
341
2018-12-08
-2
-10
晴~多云
西北风
2级
37
优
1
359
2018-12-26
-2
-11
晴~多云
东北风
2级
26
优
1
363
2018-12-30
-2
-11
晴~多云
东北风
1级
31
优
1
10
2018-01-11
-1
-10
晴
北风
1-2级
24
优
1
32
2018-02-02
-1
-9
晴
北风
3-4级
32
优
1
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
33
2018-02-03
0
-9
多云
北风
1-2级
24
优
1
35
2018-02-05
0
-10
晴
北风
3-4级
24
优
1
8
2018-01-09
1
-8
晴
西北风
3-4级
34
优
1
34
2018-02-04
1
-8
晴
西南风
1-2级
36
优
1
40
2018-02-10
1
-9
晴
西北风
3-4级
39
优
1
345
2018-12-12
1
-8
晴
西南风
1级
50
优
1
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
5
2018-01-06
2
-5
多云~阴
西南风
1-2级
32
优
1
7
2018-01-08
2
-6
晴
西北风
4-5级
50
优
1
14
2018-01-15
2
-5
阴
东南风
1-2级
47
优
1
4
2018-01-05
3
-6
多云~晴
西北风
1-2级
50
优
1
346
2018-12-13
3
-7
晴
西北风
2级
42
优
1
…
…
…
…
…
…
…
…
…
…
330
2018-11-27
9
-3
晴~多云
西北风
2级
198
中度污染
4
56
2018-02-26
12
-1
晴~多云
西南风
1-2级
157
中度污染
4
68
2018-03-10
14
-2
晴
东南风
1-2级
171
中度污染
4
70
2018-03-12
15
3
多云~晴
南风
1-2级
174
中度污染
4
287
2018-10-15
17
11
小雨
北风
1-2级
198
中度污染
4
294
2018-10-22
19
5
多云~晴
西北风
1-2级
176
中度污染
4
286
2018-10-14
21
10
多云
南风
1-2级
177
中度污染
4
84
2018-03-26
25
7
多云
西南风
1-2级
151
中度污染
4
124
2018-05-05
25
13
多云
北风
3-4级
177
中度污染
4
108
2018-04-19
26
13
多云
东南风
4-5级
170
中度污染
4
109
2018-04-20
28
14
多云~小雨
南风
4-5级
164
中度污染
4
131
2018-05-12
28
16
小雨
东南风
3-4级
186
中度污染
4
142
2018-05-23
29
15
晴
西南风
3-4级
153
中度污染
4
118
2018-04-29
30
16
多云
南风
3-4级
193
中度污染
4
147
2018-05-28
30
16
晴
西北风
4-5级
178
中度污染
4
133
2018-05-14
34
22
晴~多云
南风
3-4级
158
中度污染
4
176
2018-06-26
36
25
晴
西南风
3-4级
174
中度污染
4
57
2018-02-27
7
0
阴
东风
1-2级
220
重度污染
5
335
2018-12-02
9
2
雾~多云
东北风
1级
234
重度污染
5
329
2018-11-26
10
0
多云
东南风
1级
245
重度污染
5
61
2018-03-03
13
3
多云~阴
北风
1-2级
214
重度污染
5
316
2018-11-13
13
5
多云
东南风
1-2级
219
重度污染
5
317
2018-11-14
13
5
多云
南风
1-2级
266
重度污染
5
72
2018-03-14
15
6
多云~阴
东北风
1-2级
293
重度污染
5
306
2018-11-03
16
6
多云
南风
1-2级
206
重度污染
5
71
2018-03-13
17
5
晴~多云
南风
1-2级
287
重度污染
5
90
2018-04-01
25
11
晴~多云
南风
1-2级
218
重度污染
5
91
2018-04-02
26
11
多云
北风
1-2级
287
重度污染
5
85
2018-03-27
27
11
晴
南风
1-2级
243
重度污染
5
86
2018-03-28
25
9
多云~晴
东风
1-2级
387
严重污染
6
365 rows × 9 columns
In [17]:
# 两个字段都是降序
df.sort_values(by [ aqiLevel , bWendu ],ascending False)
Out[17]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
86
2018-03-28
25
9
多云~晴
东风
1-2级
387
严重污染
6
85
2018-03-27
27
11
晴
南风
1-2级
243
重度污染
5
91
2018-04-02
26
11
多云
北风
1-2级
287
重度污染
5
90
2018-04-01
25
11
晴~多云
南风
1-2级
218
重度污染
5
71
2018-03-13
17
5
晴~多云
南风
1-2级
287
重度污染
5
306
2018-11-03
16
6
多云
南风
1-2级
206
重度污染
5
72
2018-03-14
15
6
多云~阴
东北风
1-2级
293
重度污染
5
61
2018-03-03
13
3
多云~阴
北风
1-2级
214
重度污染
5
316
2018-11-13
13
5
多云
东南风
1-2级
219
重度污染
5
317
2018-11-14
13
5
多云
南风
1-2级
266
重度污染
5
329
2018-11-26
10
0
多云
东南风
1级
245
重度污染
5
335
2018-12-02
9
2
雾~多云
东北风
1级
234
重度污染
5
57
2018-02-27
7
0
阴
东风
1-2级
220
重度污染
5
176
2018-06-26
36
25
晴
西南风
3-4级
174
中度污染
4
133
2018-05-14
34
22
晴~多云
南风
3-4级
158
中度污染
4
118
2018-04-29
30
16
多云
南风
3-4级
193
中度污染
4
147
2018-05-28
30
16
晴
西北风
4-5级
178
中度污染
4
142
2018-05-23
29
15
晴
西南风
3-4级
153
中度污染
4
109
2018-04-20
28
14
多云~小雨
南风
4-5级
164
中度污染
4
131
2018-05-12
28
16
小雨
东南风
3-4级
186
中度污染
4
108
2018-04-19
26
13
多云
东南风
4-5级
170
中度污染
4
84
2018-03-26
25
7
多云
西南风
1-2级
151
中度污染
4
124
2018-05-05
25
13
多云
北风
3-4级
177
中度污染
4
286
2018-10-14
21
10
多云
南风
1-2级
177
中度污染
4
294
2018-10-22
19
5
多云~晴
西北风
1-2级
176
中度污染
4
287
2018-10-15
17
11
小雨
北风
1-2级
198
中度污染
4
70
2018-03-12
15
3
多云~晴
南风
1-2级
174
中度污染
4
68
2018-03-10
14
-2
晴
东南风
1-2级
171
中度污染
4
56
2018-02-26
12
-1
晴~多云
西南风
1-2级
157
中度污染
4
330
2018-11-27
9
-3
晴~多云
西北风
2级
198
中度污染
4
…
…
…
…
…
…
…
…
…
…
4
2018-01-05
3
-6
多云~晴
西北风
1-2级
50
优
1
346
2018-12-13
3
-7
晴
西北风
2级
42
优
1
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
5
2018-01-06
2
-5
多云~阴
西南风
1-2级
32
优
1
7
2018-01-08
2
-6
晴
西北风
4-5级
50
优
1
14
2018-01-15
2
-5
阴
东南风
1-2级
47
优
1
8
2018-01-09
1
-8
晴
西北风
3-4级
34
优
1
34
2018-02-04
1
-8
晴
西南风
1-2级
36
优
1
40
2018-02-10
1
-9
晴
西北风
3-4级
39
优
1
345
2018-12-12
1
-8
晴
西南风
1级
50
优
1
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
33
2018-02-03
0
-9
多云
北风
1-2级
24
优
1
35
2018-02-05
0
-10
晴
北风
3-4级
24
优
1
10
2018-01-11
-1
-10
晴
北风
1-2级
24
优
1
32
2018-02-02
-1
-9
晴
北风
3-4级
32
优
1
9
2018-01-10
-2
-10
晴
西北风
1-2级
26
优
1
339
2018-12-06
-2
-9
晴
西北风
3级
40
优
1
341
2018-12-08
-2
-10
晴~多云
西北风
2级
37
优
1
359
2018-12-26
-2
-11
晴~多云
东北风
2级
26
优
1
363
2018-12-30
-2
-11
晴~多云
东北风
1级
31
优
1
21
2018-01-22
-3
-10
小雪~多云
东风
1-2级
47
优
1
24
2018-01-25
-3
-11
多云
东北风
1-2级
27
优
1
25
2018-01-26
-3
-10
晴~多云
南风
1-2级
39
优
1
361
2018-12-28
-3
-11
晴
西北风
3级
40
优
1
362
2018-12-29
-3
-12
晴
西北风
2级
29
优
1
22
2018-01-23
-4
-12
晴
西北风
3-4级
31
优
1
23
2018-01-24
-4
-11
晴
西南风
1-2级
34
优
1
340
2018-12-07
-4
-10
晴
西北风
3级
33
优
1
360
2018-12-27
-5
-12
多云~晴
西北风
3级
48
优
1
365 rows × 9 columns
In [18]:
# 分别指定升序和降序
df.sort_values(by [ aqiLevel , bWendu ], ascending [True, False])
Out[18]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
178
2018-06-28
35
24
多云~晴
北风
1-2级
33
优
1
149
2018-05-30
33
18
晴
西风
1-2级
46
优
1
206
2018-07-26
33
25
多云~雷阵雨
东北风
1-2级
40
优
1
158
2018-06-08
32
19
多云~雷阵雨
西南风
1-2级
43
优
1
205
2018-07-25
32
25
多云
北风
1-2级
28
优
1
226
2018-08-15
32
24
多云
东北风
3-4级
33
优
1
231
2018-08-20
32
23
多云~晴
北风
1-2级
41
优
1
232
2018-08-21
32
22
多云
北风
1-2级
38
优
1
148
2018-05-29
31
16
多云
西北风
1-2级
41
优
1
196
2018-07-16
31
24
中雨~雷阵雨
南风
1-2级
43
优
1
234
2018-08-23
31
21
多云
北风
1-2级
43
优
1
240
2018-08-29
31
20
晴~多云
北风
3-4级
44
优
1
246
2018-09-04
31
18
晴
西南风
3-4级
24
优
1
247
2018-09-05
31
19
晴~多云
西南风
3-4级
34
优
1
190
2018-07-10
30
22
多云~雷阵雨
南风
1-2级
48
优
1
220
2018-08-09
30
24
多云
南风
1-2级
49
优
1
227
2018-08-16
30
21
晴~多云
东北风
1-2级
40
优
1
235
2018-08-24
30
20
晴
北风
1-2级
40
优
1
219
2018-08-08
29
24
雷阵雨~阴
东北风
1-2级
45
优
1
225
2018-08-14
29
24
中雨~小雨
东北风
1-2级
42
优
1
241
2018-08-30
29
20
多云
南风
1-2级
47
优
1
242
2018-08-31
29
20
多云~阴
东南风
1-2级
48
优
1
137
2018-05-18
28
16
多云~晴
南风
1-2级
49
优
1
204
2018-07-24
28
26
暴雨~雷阵雨
东北风
3-4级
29
优
1
229
2018-08-18
28
23
小雨~中雨
北风
3-4级
40
优
1
233
2018-08-22
28
21
雷阵雨~多云
西南风
1-2级
48
优
1
192
2018-07-12
27
22
多云
南风
1-2级
46
优
1
197
2018-07-17
27
23
中雨~雷阵雨
西风
1-2级
28
优
1
243
2018-09-01
27
19
阴~小雨
南风
1-2级
50
优
1
248
2018-09-06
27
18
多云~晴
西北风
4-5级
37
优
1
…
…
…
…
…
…
…
…
…
…
142
2018-05-23
29
15
晴
西南风
3-4级
153
中度污染
4
109
2018-04-20
28
14
多云~小雨
南风
4-5级
164
中度污染
4
131
2018-05-12
28
16
小雨
东南风
3-4级
186
中度污染
4
108
2018-04-19
26
13
多云
东南风
4-5级
170
中度污染
4
84
2018-03-26
25
7
多云
西南风
1-2级
151
中度污染
4
124
2018-05-05
25
13
多云
北风
3-4级
177
中度污染
4
286
2018-10-14
21
10
多云
南风
1-2级
177
中度污染
4
294
2018-10-22
19
5
多云~晴
西北风
1-2级
176
中度污染
4
287
2018-10-15
17
11
小雨
北风
1-2级
198
中度污染
4
70
2018-03-12
15
3
多云~晴
南风
1-2级
174
中度污染
4
68
2018-03-10
14
-2
晴
东南风
1-2级
171
中度污染
4
56
2018-02-26
12
-1
晴~多云
西南风
1-2级
157
中度污染
4
330
2018-11-27
9
-3
晴~多云
西北风
2级
198
中度污染
4
336
2018-12-03
8
-3
多云~晴
东北风
3级
198
中度污染
4
334
2018-12-01
7
0
多云
东南风
1级
163
中度污染
4
13
2018-01-14
6
-5
晴~多云
西北风
1-2级
187
中度污染
4
49
2018-02-19
6
-3
多云
南风
1-2级
183
中度污染
4
85
2018-03-27
27
11
晴
南风
1-2级
243
重度污染
5
91
2018-04-02
26
11
多云
北风
1-2级
287
重度污染
5
90
2018-04-01
25
11
晴~多云
南风
1-2级
218
重度污染
5
71
2018-03-13
17
5
晴~多云
南风
1-2级
287
重度污染
5
306
2018-11-03
16
6
多云
南风
1-2级
206
重度污染
5
72
2018-03-14
15
6
多云~阴
东北风
1-2级
293
重度污染
5
61
2018-03-03
13
3
多云~阴
北风
1-2级
214
重度污染
5
316
2018-11-13
13
5
多云
东南风
1-2级
219
重度污染
5
317
2018-11-14
13
5
多云
南风
1-2级
266
重度污染
5
329
2018-11-26
10
0
多云
东南风
1级
245
重度污染
5
335
2018-12-02
9
2
雾~多云
东北风
1级
234
重度污染
5
57
2018-02-27
7
0
阴
东风
1-2级
220
重度污染
5
86
2018-03-28
25
9
多云~晴
东风
1-2级
387
严重污染
6
365 rows × 9 columns
九、Pandas字符串处理
前面我们已经使用了字符串的处理函数
df[“bWendu”].str.replace(“℃”, “”).astype(‘int32’)
*Pandas的字符串处理 *
使用方法 先获取Series的str属性 然后在属性上调用函数
只能在字符串列上使用 不能数字列上使用
Dataframe上没有str属性和处理方法
Series.str并不是Python原生字符串 而是自己的一套方法 不过大部分和原生str很相似
*Series.str字符串方法列表参考文档:*
https://pandas.pydata/pandas-docs/stable/reference/series.html#string-handling
*本节演示内容 *
获取Series的str属性 然后使用各种字符串处理函数
使用str的startswith、contains等bool类Series可以做条件查询
需要多次str处理的链式操作
使用正则表达式的处理
0. 读取北京2018年天气数据
In [5]:
import pandas as pd
In [6]:
fpath ./pandas-learn-code/datas/beijing_tianqi/beijing_tianqi_2018.csv
df pd.read_csv(fpath)
In [8]:
df.head()
Out[8]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3℃
-6℃
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2℃
-5℃
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2℃
-5℃
多云
北风
1-2级
28
优
1
3
2018-01-04
0℃
-8℃
阴
东北风
1-2级
28
优
1
4
2018-01-05
3℃
-6℃
多云~晴
西北风
1-2级
50
优
1
In [13]:
df.dtypes
Out[13]:
ymd object
bWendu object
yWendu object
tianqi object
fengxiang object
fengli object
aqi int64
aqiInfo object
aqiLevel int64
dtype: object
1. 获取Series的str属性 使用各种字符串处理函数
In [14]:
df[ bWendu ].str
Out[14]:
In [15]:
# 字符串替换函数
df.loc[:, bWendu ] df[ bWendu ].str.replace( ℃ , ).astype( int32 )
In [16]:
df.head()
Out[16]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3
-6℃
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2
-5℃
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2
-5℃
多云
北风
1-2级
28
优
1
3
2018-01-04
0
-8℃
阴
东北风
1-2级
28
优
1
4
2018-01-05
3
-6℃
多云~晴
西北风
1-2级
50
优
1
In [19]:
# 判断是不是数字
df[ yWendu ].str.isnumeric()
Out[19]:
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
10 False
11 False
12 False
13 False
14 False
15 False
16 False
17 False
18 False
19 False
20 False
21 False
22 False
23 False
24 False
25 False
26 False
27 False
28 False
29 False
...
335 False
336 False
337 False
338 False
339 False
340 False
341 False
342 False
343 False
344 False
345 False
346 False
347 False
348 False
349 False
350 False
351 False
352 False
353 False
354 False
355 False
356 False
357 False
358 False
359 False
360 False
361 False
362 False
363 False
364 False
Name: yWendu, Length: 365, dtype: bool
In [21]:
# 在数列列上调用str会报错
df[ aqi ].str.len()
. . .
## 2. 使用str的startswith, contains等得到的bool的Series可以做条件查询
In [23]:
# 查询三月数据
condition df[ ymd ].str.startswith( 2018-03 )
In [25]:
condition
. . .
In [27]:
df[condition].head()
Out[27]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
59
2018-03-01
8
-3℃
多云
西南风
1-2级
46
优
1
60
2018-03-02
9
-1℃
晴~多云
北风
1-2级
95
良
2
61
2018-03-03
13
3℃
多云~阴
北风
1-2级
214
重度污染
5
62
2018-03-04
7
-2℃
阴~多云
东南风
1-2级
144
轻度污染
3
63
2018-03-05
8
-3℃
晴
南风
1-2级
94
良
2
## 3. 需要多次str处理的链式操作
怎么提取201803这样的数字月份
1. 先将日期2018-03-31替换成20180331的形式
2. 提取月份字符串201803
In [28]:
df[ ymd ].str.replace( - , )
. . .
In [29]:
# 每次调用函数,都返回一个新Series
# 不能直接在Series上调用str方法
df[ ymd ].str.replace( - , ).slice(0, 6)
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
in 1 # 每次调用函数,都返回一个新Series
---- 2 df[ ymd ].str.replace( - , ).slice(0, 6)
D:\Tools\Anaconda3\lib\site-packages\pandas\core\generic.py in __getattr__(self, name)
5065 if self._info_axis._can_hold_identifiers_and_holds_name(name):
5066 return self[name]
- 5067 return object.__getattribute__(self, name)
5068
5069 def __setattr__(self, name, value):
AttributeError: Series object has no attribute slice
In [31]:
# replace后得到的是Series,通过再次.str后才能切片
df[ ymd ].str.replace( - , ).str.slice(0, 6)
Out[31]:
0 201801
1 201801
2 201801
3 201801
4 201801
5 201801
6 201801
7 201801
8 201801
9 201801
10 201801
11 201801
12 201801
13 201801
14 201801
15 201801
16 201801
17 201801
18 201801
19 201801
20 201801
21 201801
22 201801
23 201801
24 201801
25 201801
26 201801
27 201801
28 201801
29 201801
...
335 201812
336 201812
337 201812
338 201812
339 201812
340 201812
341 201812
342 201812
343 201812
344 201812
345 201812
346 201812
347 201812
348 201812
349 201812
350 201812
351 201812
352 201812
353 201812
354 201812
355 201812
356 201812
357 201812
358 201812
359 201812
360 201812
361 201812
362 201812
363 201812
364 201812
Name: ymd, Length: 365, dtype: object
In [32]:
# slice就是切片语法,可以直接调用
df[ ymd ].str.replace( - , ).str[0:6]
Out[32]:
0 201801
1 201801
2 201801
3 201801
4 201801
5 201801
6 201801
7 201801
8 201801
9 201801
10 201801
11 201801
12 201801
13 201801
14 201801
15 201801
16 201801
17 201801
18 201801
19 201801
20 201801
21 201801
22 201801
23 201801
24 201801
25 201801
26 201801
27 201801
28 201801
29 201801
...
335 201812
336 201812
337 201812
338 201812
339 201812
340 201812
341 201812
342 201812
343 201812
344 201812
345 201812
346 201812
347 201812
348 201812
349 201812
350 201812
351 201812
352 201812
353 201812
354 201812
355 201812
356 201812
357 201812
358 201812
359 201812
360 201812
361 201812
362 201812
363 201812
364 201812
Name: ymd, Length: 365, dtype: object
In [37]:
df.head()
Out[37]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3
-6℃
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2
-5℃
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2
-5℃
多云
北风
1-2级
28
优
1
3
2018-01-04
0
-8℃
阴
东北风
1-2级
28
优
1
4
2018-01-05
3
-6℃
多云~晴
西北风
1-2级
50
优
1
4. 使用正则表达式的处理
In [42]:
# 添加新列
def get_nianyueri(x):
year, month, day x[ ymd ].split( - )
return f {year}年{month}月{day}日
df[ 中文日期 ] df.apply(get_nianyueri, axis 1)
In [40]:
df[ 中文日期 ]
. . .
问题:怎么将 2018年12月31日 中的年,月,日三个中文字符去除
In [44]:
# 方法1:链式replace
df[ 中文日期 ].str.replace( 年 , ).str.replace( 月 , ).str.replace( 日 , )
. . .
Series.str默认就开启了正则表达式模式
In [43]:
# 方法2:正则表达式替换
df[ 中文日期 ].str.replace( [年月日] , )
. . .
十、Pandas的axis参数怎么理解
axis 0或者 index
如果是单行操作 就指的是某一行
如果是聚合操作 指的是跨行cross rows
axis 1或者 columns
如果是单列操作 就指的是某一列
如果是聚合操作 指的是跨列cross columns
*按哪个axis 就是这个axis要动起来(类似被for遍历) 其它的axis保持不动*
In [ ]:
In [2]:
import pandas as pd
import numpy as np
In [7]:
df pd.DataFrame(
np.arange(12).reshape(3,4),
columns [ A , B , C , D ]
)
In [8]:
df
Out[8]:
A
B
C
D
0
0
1
2
3
1
4
5
6
7
2
8
9
10
11
1. 单列drop, 就是删除某一列
In [9]:
# 代表的就是删除某列
df.drop( A , axis 1)
Out[9]:
B
C
D
0
1
2
3
1
5
6
7
2
9
10
11
In [10]:
# 代表的就是删除某行
df.drop(1, axis 0)
Out[10]:
A
B
C
D
0
0
1
2
3
2
8
9
10
11
3. 按照axis 0/index执行mean聚合操作
反直觉:输出的不是每行的结果,而是每列的结果
In [11]:
df
Out[11]:
A
B
C
D
0
0
1
2
3
1
4
5
6
7
2
8
9
10
11
In [16]:
# axis 0 or axis index
df.mean(axis 0)
Out[16]:
A 4.0
B 5.0
C 6.0
D 7.0
dtype: float64
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2VilxhcD-1597761927700)(http://localhost:8888/notebooks/pandas-learn-code/other_files/pandas-axis-index.png)]
*按哪个axis 就是这个axis要动起来(类似被for遍历) 其它的axis保持不动*
3. 按照axis 1/columns执行mean聚合操作
反直觉:输出的不是每行的结果,而是每列的结果
In [21]:
df
Out[21]:
A
B
C
D
0
0
1
2
3
1
4
5
6
7
2
8
9
10
11
In [22]:
# axis 1 or axis columns
df.mean(axis 1)
Out[22]:
0 1.5
1 5.5
2 9.5
dtype: float64
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XahGzry0-1597761927702)(http://localhost:8888/notebooks/pandas-learn-code/other_files/pandas-axis-columns.png)]
*按哪个axis 就是这个axis要动起来(类似被for遍历) 其它的axis保持不动*
5. 再次举例, 加深理解
In [23]:
def get_sum_value(x):
return x[ A ] x[ B ] x[ C ] x[ D ]
df[ sum_value ] df.apply(get_sum_value, axis 1)
In [24]:
df
Out[24]:
A
B
C
D
sum_value
0
0
1
2
3
6
1
4
5
6
7
22
2
8
9
10
11
38
*按哪个axis 就是这个axis要动起来(类似被for遍历) 其它的axis保持不动*
In [27]:
df[ A ]
Out[27]:
0 0
1 4
2 8
Name: A, dtype: int32
十一、Pandas的索引index的用途
把数据存储于普通的column列也能用于数据查询 那使用index有什么好处
index的用途总结
更方便的数据查询
使用index可以获得性能提升
自动的数据对齐功能
更多更强大的数据结构支持
In [1]:
import pandas as pd
In [2]:
df pd.read_csv( ./pandas-learn-code/datas/ml-latest-small/ratings.csv )
In [3]:
df.head()
Out[3]:
userId
movieId
rating
timestamp
0
1
1
4.0
964982703
1
1
3
4.0
964981247
2
1
6
4.0
964982224
3
1
47
5.0
964983815
4
1
50
5.0
964982931
In [4]:
df.count()
Out[4]:
userId 100836
movieId 100836
rating 100836
timestamp 100836
dtype: int64
1. 使用index查询数据
In [5]:
# drop False,让索引列还保持在column
# 下列代码实现了将userId设置成了index,同时保留了userId
df.set_index( userId , inplace True, drop False)
In [6]:
df.head()
Out[6]:
userId
movieId
rating
timestamp
userId
1
1
1
4.0
964982703
1
1
3
4.0
964981247
1
1
6
4.0
964982224
1
1
47
5.0
964983815
1
1
50
5.0
964982931
In [7]:
df.index
Out[7]:
Int64Index([ 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
...
610, 610, 610, 610, 610, 610, 610, 610, 610, 610],
dtype int64 , name userId , length 100836)
In [8]:
# 使用index的查询方法:在loc[]中直接写入要查询的参数
# 查询userId为500的用户信息
df.loc[500].head(5)
Out[8]:
userId
movieId
rating
timestamp
userId
500
500
1
4.0
1005527755
500
500
11
1.0
1005528017
500
500
39
1.0
1005527926
500
500
101
1.0
1005527980
500
500
104
4.0
1005528065
In [9]:
# 使用column的condition查询方法
df.loc[df[ userId ] 500].head()
Out[9]:
userId
movieId
rating
timestamp
userId
500
500
1
4.0
1005527755
500
500
11
1.0
1005528017
500
500
39
1.0
1005527926
500
500
101
1.0
1005527980
500
500
104
4.0
1005528065
2. 使用index会提升查询性能
如果index是唯一的 Pandas会使用哈希表优化 查询性能为O(1);
如果index不是唯一的 但是有序 Pandas会使用二分查找算法 查询性能为O(logN);
如果index是完全随机的 那么每次查询都要扫描全表 查询性能为O(N);
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3xFJcngE-1597761927705)(http://localhost:8888/notebooks/pandas-learn-code/other_files/pandas-index-performance.png)]
实验1:完全随机的查询顺序
In [11]:
# 将数据随机打散
from sklearn.utils import shuffle
df_shuffle shuffle(df)
In [12]:
df_shuffle.head()
Out[12]:
userId
movieId
rating
timestamp
userId
244
244
1377
4.0
975093513
413
413
3753
5.0
1484439911
280
280
6539
3.5
1348435219
18
18
86332
3.5
1455051197
274
274
3160
2.5
1197275106
In [13]:
# 索引是否是递增的
df_shuffle.index.is_monotonic_increasing
Out[13]:
False
In [14]:
# 索引是否是唯一的
df_shuffle.index.is_unique
Out[14]:
False
In [15]:
# 计时,查看id 500的数据性能
# %timeit将名称执行多次,查看性能
%timeit df_shuffle.loc[500]
366 µs ± 7.09 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
实验2:将index排序后的查询
In [17]:
# 将df_shuffle进行排序
df_sorted df_shuffle.sort_index()
In [18]:
df_sorted.head()
Out[18]:
userId
movieId
rating
timestamp
userId
1
1
3578
5.0
964980668
1
1
2406
4.0
964982310
1
1
110
4.0
964982176
1
1
2090
5.0
964982838
1
1
2096
4.0
964982838
In [19]:
# 索引是否是递增的
df_sorted.index.is_monotonic_increasing
Out[19]:
True
In [20]:
df_sorted.index.is_unique
Out[20]:
False
In [21]:
%timeit df_sorted.loc[500]
178 µs ± 4.55 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
3.使用index能自动对齐数据
包括Series和DateFrame
In [22]:
s1 pd.Series([1,2,3], index list( abc ))
In [23]:
s1
Out[23]:
a 1
b 2
c 3
dtype: int64
In [24]:
s2 pd.Series([2,3,4], index list( bcd ))
In [25]:
s2
Out[25]:
b 2
c 3
d 4
dtype: int64
In [26]:
s1 s2
Out[26]:
a NaN
b 4.0
c 6.0
d NaN
dtype: float64
s1,s2都具有b,c索引,而a,d为各自独有,无法对齐,所有相加结果为空
4. 使用index更多更强大的数据结构支持
*很多强大的索引数据结构*
CategoricalIndex 基于分类数据的Index 提升性能
MultiIndex 多维索引 用于groupby多维聚合后结果等
DatetimeIndex 时间类型索引 强大的日期和时间的方法支持
十二、Pandas怎样实现DataFrame的Merge
Pandas的Merge 相当于Sql的Join 将不同的表按key关联到一个表
merge的语法
pd.merge(left, right, how ‘inner’, on None, left_on None, right_on None, left_index False, right_index False, sort True, suffixes (’*x’, ‘*y’), copy True, indicator False, validate None)
left right 要merge的dataframe或者有name的Series
how join类型 ‘left’, ‘right’, ‘outer’, ‘inner’
on join的key left和right都需要有这个key
left_on left的df或者series的key
right_on right的df或者seires的key
left_index right_index 使用index而不是普通的column做join
suffixes 两个元素的后缀 如果列有重名 自动添加后缀 默认是(’*x’, ‘*y’)
文档地址 https://pandas.pydata/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html
本次讲解提纲
电影数据集的join实例
理解merge时一对一、一对多、多对多的数量对齐关系
理解left join、right join、inner join、outer join的区别
如果出现非Key的字段重名怎么办
1、电影数据集的join实例
电影评分数据集
是推荐系统研究的很好的数据集
位于本代码目录 ./datas/movielens-1m
包含三个文件
用户对电影的评分数据 ratings.dat
用户本身的信息数据 users.dat
电影本身的数据 movies.dat
可以关联三个表 得到一个完整的大表
数据集官方地址 https://grouplens/datasets/movielens/
In [8]:
import pandas as pd
In [12]:
df_ratings pd.read_csv(
./pandas-learn-code/datas/movielens-1m/ratings.dat ,
sep :: ,
engine python ,
names UserID::MovieID::Rating::Timestamp .split( :: )
)
In [13]:
df_ratings.head()
Out[13]:
UserID
MovieID
Rating
Timestamp
0
1
1193
5
978300760
1
1
661
3
978302109
2
1
914
3
978301968
3
1
3408
4
978300275
4
1
2355
5
978824291
In [14]:
df_users pd.read_csv(
./pandas-learn-code/datas/movielens-1m/users.dat ,
sep :: ,
engine python ,
names UserID::Gender::Age::Occupation::Zip-code .split( :: )
)
In [15]:
df_users.head()
Out[15]:
UserID
Gender
Age
Occupation
Zip-code
0
1
F
1
10
48067
1
2
M
56
16
70072
2
3
M
25
15
55117
3
4
M
45
7
02460
4
5
M
25
20
55455
In [17]:
df_movies pd.read_csv(
./pandas-learn-code/datas/movielens-1m/movies.dat ,
sep :: ,
engine python ,
names MovieID::Title::Genres .split( :: )
)
In [18]:
df_movies.head()
Out[18]:
MovieID
Title
Genres
0
1
Toy Story (1995)
Animation|Children’s|Comedy
1
2
Jumanji (1995)
Adventure|Children’s|Fantasy
2
3
Grumpier Old Men (1995)
Comedy|Romance
3
4
Waiting to Exhale (1995)
Comedy|Drama
4
5
Father of the Bride Part II (1995)
Comedy
In [ ]:
df_
In [21]:
# inner:两边都有某个数据时才会保留
df_ratings_users pd.merge(
df_ratings, df_users, left_on UserID , right_on UserID , how inner
)
In [22]:
df_ratings_users.head()
Out[22]:
UserID
MovieID
Rating
Timestamp
Gender
Age
Occupation
Zip-code
0
1
1193
5
978300760
F
1
10
48067
1
1
661
3
978302109
F
1
10
48067
2
1
914
3
978301968
F
1
10
48067
3
1
3408
4
978300275
F
1
10
48067
4
1
2355
5
978824291
F
1
10
48067
In [25]:
df_ratings_users_movies pd.merge(
df_ratings_users, df_movies, left_on MovieID , right_on MovieID , how inner
)
In [26]:
df_ratings_users_movies.head()
Out[26]:
UserID
MovieID
Rating
Timestamp
Gender
Age
Occupation
Zip-code
Title
Genres
0
1
1193
5
978300760
F
1
10
48067
One Flew Over the Cuckoo’s Nest (1975)
Drama
1
2
1193
5
978298413
M
56
16
70072
One Flew Over the Cuckoo’s Nest (1975)
Drama
2
12
1193
4
978220179
M
25
12
32793
One Flew Over the Cuckoo’s Nest (1975)
Drama
3
15
1193
4
978199279
M
25
7
22903
One Flew Over the Cuckoo’s Nest (1975)
Drama
4
17
1193
5
978158471
M
50
1
95350
One Flew Over the Cuckoo’s Nest (1975)
Drama
2、理解merge时数量的对齐关系
以下关系要正确理解
one-to-one 一对一关系 关联的key都是唯一的
比如(学号 姓名) merge (学号 年龄)
结果条数为 1*1
one-to-many 一对多关系 左边唯一key 右边不唯一key
比如(学号 姓名) merge (学号 [语文成绩、数学成绩、英语成绩])
结果条数为 1*N
many-to-many 多对多关系 左边右边都不是唯一的
比如(学号 [语文成绩、数学成绩、英语成绩]) merge (学号 [篮球、足球、乒乓球])
结果条数为 M*N
2.1 one-to-one 一对一关系的merge
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gL3djpVk-1597761927707)(http://localhost:8888/notebooks/pandas-learn-code/other_files/pandas-merge-one-to-one.png)]
In [31]:
left pd.DataFrame({ sno :[11, 12, 13, 14],
name :[ name_a , name_b , name_c , name_d ]
})
left
Out[31]:
sno
name
0
11
name_a
1
12
name_b
2
13
name_c
3
14
name_d
In [28]:
right pd.DataFrame({ sno :[11, 12, 13, 14],
age :[ 21 , 22 , 23 , 24 ]
})
right
Out[28]:
sno
age
0
11
21
1
12
22
2
13
23
3
14
24
In [30]:
# 一对一关系,结果中有4条
pd.merge(left, right, on sno )
Out[30]:
sno
name
age
0
11
name_a
21
1
12
name_b
22
2
13
name_c
23
3
14
name_d
24
2.2 one-to-many 一对多关系的merge
注意 数据会被复制
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7xToCx8V-1597761927707)(http://localhost:8888/notebooks/pandas-learn-code/other_files/pandas-merge-one-to-many.png)]
In [32]:
left pd.DataFrame({ sno :[11, 12, 13, 14],
name :[ name_a , name_b , name_c , name_d ]
})
left
Out[32]:
sno
name
0
11
name_a
1
12
name_b
2
13
name_c
3
14
name_d
In [33]:
right pd.DataFrame({ sno :[11, 11, 11, 12, 12, 13],
grade :[ 语文88 , 数学90 , 英语75 , 语文66 , 数学55 , 英语29 ]
})
right
Out[33]:
sno
grade
0
11
语文88
1
11
数学90
2
11
英语75
3
12
语文66
4
12
数学55
5
13
英语29
In [35]:
# 数目以多的一边为准
pd.merge(left, right, on sno )
Out[35]:
sno
name
grade
0
11
name_a
语文88
1
11
name_a
数学90
2
11
name_a
英语75
3
12
name_b
语文66
4
12
name_b
数学55
5
13
name_c
英语29
2.3 many-to-many 多对多关系的merge
注意 结果数量会出现乘法
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y9grLyta-1597761927708)(http://localhost:8888/notebooks/pandas-learn-code/other_files/pandas-merge-many-to-many.png)]
In [36]:
left pd.DataFrame({ sno :[11, 11, 12, 12, 12],
爱好 :[ 篮球 , 羽毛球 , 乒乓球 , 篮球 , 足球 ]
})
left
Out[36]:
sno
爱好
0
11
篮球
1
11
羽毛球
2
12
乒乓球
3
12
篮球
4
12
足球
In [37]:
right pd.DataFrame({ sno :[11, 11, 11, 12, 12, 13],
grade :[ 语文88 , 数学90 , 英语75 , 语文66 , 数学55 , 英语29 ]
})
right
Out[37]:
sno
grade
0
11
语文88
1
11
数学90
2
11
英语75
3
12
语文66
4
12
数学55
5
13
英语29
In [38]:
pd.merge(left, right, on sno )
Out[38]:
sno
爱好
grade
0
11
篮球
语文88
1
11
篮球
数学90
2
11
篮球
英语75
3
11
羽毛球
语文88
4
11
羽毛球
数学90
5
11
羽毛球
英语75
6
12
乒乓球
语文66
7
12
乒乓球
数学55
8
12
篮球
语文66
9
12
篮球
数学55
10
12
足球
语文66
11
12
足球
数学55
3、理解left join、right join、inner join、outer join的区别
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-45nVqPR9-1597761927708)(http://localhost:8888/notebooks/pandas-learn-code/other_files/pandas-leftjoin-rightjoin-outerjoin.png)]
In [52]:
left pd.DataFrame({ key :[ K0 , K1 , K2 , K3 ],
A :[ A0 , A1 , A2 , A3 ],
B :[ B0 , B1 , B2 , B3 ]})
right pd.DataFrame({ key :[ K0 , K1 , K4 , K5 ],
C :[ C0 , C1 , C2 , C3 ],
D :[ D0 , D1 , D2 , D3 ]})
In [53]:
left
Out[53]:
key
A
B
0
K0
A0
B0
1
K1
A1
B1
2
K2
A2
B2
3
K3
A3
B3
In [54]:
right
Out[54]:
key
C
D
0
K0
C0
D0
1
K1
C1
D1
2
K4
C2
D2
3
K5
C3
D3
3.1 inner join 默认
左边和右边的key都有 才会出现在结果里
In [55]:
pd.merge(left, right, how inner )
Out[55]:
key
A
B
C
D
0
K0
A0
B0
C0
D0
1
K1
A1
B1
C1
D1
3.2 left join
左边的都会出现在结果里 右边的如果无法匹配则为Null
In [56]:
pd.merge(left, right, how left )
Out[56]:
key
A
B
C
D
0
K0
A0
B0
C0
D0
1
K1
A1
B1
C1
D1
2
K2
A2
B2
NaN
NaN
3
K3
A3
B3
NaN
NaN
3.3 right join
右边的都会出现在结果里 左边的如果无法匹配则为Null
In [57]:
pd.merge(left, right, how right )
Out[57]:
key
A
B
C
D
0
K0
A0
B0
C0
D0
1
K1
A1
B1
C1
D1
2
K4
NaN
NaN
C2
D2
3
K5
NaN
NaN
C3
D3
3.4 outer join
左边、右边的都会出现在结果里 如果无法匹配则为Null
In [58]:
pd.merge(left, right, how outer )
Out[58]:
key
A
B
C
D
0
K0
A0
B0
C0
D0
1
K1
A1
B1
C1
D1
2
K2
A2
B2
NaN
NaN
3
K3
A3
B3
NaN
NaN
4
K4
NaN
NaN
C2
D2
5
K5
NaN
NaN
C3
D3
4、如果出现非Key的字段重名怎么办
In [61]:
left pd.DataFrame({ key :[ K0 , K1 , K2 , K3 ],
A :[ A0 , A1 , A2 , A3 ],
B :[ B0 , B1 , B2 , B3 ]})
right pd.DataFrame({ key :[ K0 , K1 , K4 , K5 ],
A :[ A10 , A11 , A12 , A13 ],
D :[ D0 , D1 , D4 , D5 ]})
In [60]:
left
Out[60]:
key
A
B
0
K0
A0
B0
1
K1
A1
B1
2
K2
A2
B2
3
K3
A3
B3
In [62]:
right
Out[62]:
key
A
D
0
K0
A10
D0
1
K1
A11
D1
2
K4
A12
D4
3
K5
A13
D5
In [64]:
pd.merge(left, right, on key )
Out[64]:
key
A_x
B
A_y
D
0
K0
A0
B0
A10
D0
1
K1
A1
B1
A11
D1
In [65]:
# 两个元素的后缀 如果列有重名 自动添加后缀 默认是( x , y )
pd.merge(left, right, on key , suffixes ( _left , _right ))
Out[65]:
key
A_left
B
A_right
D
0
K0
A0
B0
A10
D0
1
K1
A1
B1
A11
D1
十三、Pandas实现数据的合并concat
使用场景
批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列
一句话说明concat语法
使用某种合并方式(inner/outer)
沿着某个轴向(axis 0/1)
把多个Pandas对象(DataFrame/Series)合并成一个。
concat语法 pandas.concat(objs, axis 0, join ‘outer’, ignore_index False)
objs 一个列表 内容可以是DataFrame或者Series 可以混合
axis 默认是0代表按行合并 如果等于1代表按列合并
join 合并的时候索引的对齐方式 默认是outer join 也可以是inner join
ignore_index 是否忽略掉原来的数据索引
append语法 DataFrame.append(other, ignore_index False)
append只有按行合并 没有按列合并 相当于concat按行的简写形式
other 单个dataframe、series、dict 或者列表
ignore_index 是否忽略掉原来的数据索引
参考文档
pandas.concat的api文档 https://pandas.pydata/pandas-docs/stable/reference/api/pandas.concat.html
pandas.concat的教程 https://pandas.pydata/pandas-docs/stable/user_guide/merging.html
pandas.append的api文档 https://pandas.pydata/pandas-docs/stable/reference/api/pandas.DataFrame.append.html
In [1]:
import pandas as pd
import warnings
warnings.filterwarnings( ignore )
一、使用Pandas.concat合并数据
In [2]:
df1 pd.DataFrame({ A :[ A0 , A1 , A2 , A3 ],
B :[ B0 , B1 , B2 , B3 ],
C :[ C0 , C1 , C2 , C3 ],
D :[ D0 , D1 , D2 , D3 ],
E :[ E0 , E1 , E2 , E3 ]
})
df1
Out[2]:
A
B
C
D
E
0
A0
B0
C0
D0
E0
1
A1
B1
C1
D1
E1
2
A2
B2
C2
D2
E2
3
A3
B3
C3
D3
E3
In [3]:
df2 pd.DataFrame({ A :[ A4 , A5 , A6 , A7 ],
B :[ B4 , B5 , B6 , B7 ],
C :[ C4 , C5 , C6 , C7 ],
D :[ D4 , D5 , D6 , D7 ],
F :[ F4 , F5 , F6 , F7 ]
})
df2
Out[3]:
A
B
C
D
F
0
A4
B4
C4
D4
F4
1
A5
B5
C5
D5
F5
2
A6
B6
C6
D6
F6
3
A7
B7
C7
D7
F7
1. 默认的concat, 参数为axis 0, join outer, ignore_index False
In [4]:
pd.concat([df1, df2])
Out[4]:
A
B
C
D
E
F
0
A0
B0
C0
D0
E0
NaN
1
A1
B1
C1
D1
E1
NaN
2
A2
B2
C2
D2
E2
NaN
3
A3
B3
C3
D3
E3
NaN
0
A4
B4
C4
D4
NaN
F4
1
A5
B5
C5
D5
NaN
F5
2
A6
B6
C6
D6
NaN
F6
3
A7
B7
C7
D7
NaN
F7
2. 使用ignore_index True可以忽略原来的索引
In [5]:
pd.concat([df1, df2], ignore_index True)
Out[5]:
A
B
C
D
E
F
0
A0
B0
C0
D0
E0
NaN
1
A1
B1
C1
D1
E1
NaN
2
A2
B2
C2
D2
E2
NaN
3
A3
B3
C3
D3
E3
NaN
4
A4
B4
C4
D4
NaN
F4
5
A5
B5
C5
D5
NaN
F5
6
A6
B6
C6
D6
NaN
F6
7
A7
B7
C7
D7
NaN
F7
3. 使用join inner过滤掉不匹配的列
In [6]:
pd.concat([df1, df2], ignore_index True, join inner )
Out[6]:
A
B
C
D
0
A0
B0
C0
D0
1
A1
B1
C1
D1
2
A2
B2
C2
D2
3
A3
B3
C3
D3
4
A4
B4
C4
D4
5
A5
B5
C5
D5
6
A6
B6
C6
D6
7
A7
B7
C7
D7
4. 使用axis 1相当于添加新列
In [7]:
df1
Out[7]:
A
B
C
D
E
0
A0
B0
C0
D0
E0
1
A1
B1
C1
D1
E1
2
A2
B2
C2
D2
E2
3
A3
B3
C3
D3
E3
A:添加一列Series
In [9]:
s1 pd.Series(list(range(4)), name F )
pd.concat([df1, s1], axis 1)
Out[9]:
A
B
C
D
E
F
0
A0
B0
C0
D0
E0
0
1
A1
B1
C1
D1
E1
1
2
A2
B2
C2
D2
E2
2
3
A3
B3
C3
D3
E3
3
B:添加多列Series
In [10]:
s2 df1.apply(lambda x:x[ A ] _GG , axis 1)
In [11]:
s2
Out[11]:
0 A0_GG
1 A1_GG
2 A2_GG
3 A3_GG
dtype: object
In [12]:
s2.name G
In [13]:
# 列表可以只有Series
pd.concat([s1,s2], axis 1)
Out[13]:
F
G
0
0
A0_GG
1
1
A1_GG
2
2
A2_GG
3
3
A3_GG
In [14]:
# 列表是可以混合顺序的
pd.concat([s1, df1, s2], axis 1)
Out[14]:
F
A
B
C
D
E
G
0
0
A0
B0
C0
D0
E0
A0_GG
1
1
A1
B1
C1
D1
E1
A1_GG
2
2
A2
B2
C2
D2
E2
A2_GG
3
3
A3
B3
C3
D3
E3
A3_GG
二、使用DateFrame.append按行合并数据
In [15]:
df1 pd.DataFrame([[1, 2], [3, 4]], columns list( AB ))
df1
Out[15]:
A
B
0
1
2
1
3
4
In [16]:
df2 pd.DataFrame([[5, 6], [7, 8]], columns list( AB ))
df2
Out[16]:
A
B
0
5
6
1
7
8
1. 给一个DataFrame添加另一个DataFrame
In [18]:
df1.append(df2)
Out[18]:
A
B
0
1
2
1
3
4
0
5
6
1
7
8
2. 忽略原来的索引 另ignore_index True
In [19]:
df1.append(df2, ignore_index True)
Out[19]:
A
B
0
1
2
1
3
4
2
5
6
3
7
8
3.可以一行一行的给DataFrame添加数据
In [21]:
# 创建一个空的df
df pd.DataFrame(columns [ A ])
df
Out[21]:
A
A:低性能版
In [22]:
for i in range(5):
# 注意 这里每次都在复制
df df.append({ a :i}, ignore_index True)
df
Out[22]:
A
a
0
NaN
0.0
1
NaN
1.0
2
NaN
2.0
3
NaN
3.0
4
NaN
4.0
B:性能好的版本
In [23]:
# 第一个
pd.concat(
[pd.DataFrame([i], columns [ A ]) for i in range(5)],
ignore_index True
)
Out[23]:
A
0
0
1
1
2
2
3
3
4
4
In [27]:
ss pd.DataFrame( i for i in range(5))
ss
Out[27]:
0
0
0
1
1
2
2
3
3
4
4
十四、Pandas批量拆分Excel与合并Excel
实例演示
将一个大Excel等份拆成多个Excel
将多个小Excel合并成一个大Excel并标记来源
In [51]:
work_dir D:/WinterIsComing/python/New_Wave/pandas_basic/15.excel_split_merge
# 用来放置拆分后的小文件
splits_dir f {work_dir}/splits
In [52]:
import os
if not os.path.exists(splits_dir):
os.mkdir(splits_dir)
0. 读取源Excel到Pandas
In [54]:
import pandas as pd
In [53]:
df_source pd.read_excel(r D:/WinterIsComing/python/New_Wave/pandas_basic/15.excel_split_merge/crazyant_blog_articles_source.xlsx )
In [55]:
df_source.head()
Out[55]:
id
title
tags
0
2585
Tensorflow怎样接收变长列表特征
python,tensorflow,特征工程
1
2583
Pandas实现数据的合并concat
pandas,python,数据分析
2
2574
Pandas的Index索引有什么用途
pandas,python,数据分析
3
2564
机器学习常用数据集大全
python,机器学习
4
2561
一个数据科学家的修炼路径
数据分析
In [56]:
df_source.index
Out[56]:
RangeIndex(start 0, stop 258, step 1)
In [57]:
# 258行 3列
df_source.shape
Out[57]:
(258, 3)
In [58]:
# 通过df_source.shape得到元组(258, 3)
# 通过df_source.shape[0]得到行数
total_row_count df_source.shape[0]
total_row_count
Out[58]:
258
1、将一个大excel等份拆成多个Excel
使用df.iloc方法 将一个大的DataFrame 拆分成多个小DataFrame
将使用DataFrame.to_excel保存每个小Excel
1. 1 计算拆分后的每个excel的行数
In [59]:
# 将一个大Excel 拆分给这几个人
user_names [ A , B , C , D , E , F ]
In [60]:
# 每个人的任务数目
split_size total_row_count // len(user_names)
# 此处的作用在于如果有余数 可以将未分配的行数 分配给前面几人 保证所有的行都分配出去
if total_row_count % len(user_names) ! 0:
split_size 1
split_size
Out[60]:
43
1.2 拆分成多个DataFrame
In [64]:
df_subs []
for idx, user_name in enumerate(user_names):
# iloc的开始索引
begin idx*split_size
# iloc的结束索引
end begin split_size
# 实现df按照iloc拆分
df_sub df_source.iloc[begin:end]
# 将每个子df存入列表
df_subs.append((idx, user_name, df_sub))
df_subs[0][2].head(5)
Out[64]:
id
title
tags
0
2585
Tensorflow怎样接收变长列表特征
python,tensorflow,特征工程
1
2583
Pandas实现数据的合并concat
pandas,python,数据分析
2
2574
Pandas的Index索引有什么用途
pandas,python,数据分析
3
2564
机器学习常用数据集大全
python,机器学习
4
2561
一个数据科学家的修炼路径
数据分析
In [65]:
df_subs[1][2].head(5)
Out[65]:
id
title
tags
43
2120
Zookeeper并不保证读取的是最新数据
zookeeper
44
2089
Mybatis源码解读-初始化过程详解
mybatis
45
2076
怎样借助Python爬虫给宝宝起个好名字
python,爬虫
46
2022
Mybatis源码解读-设计模式总结
mybatis,设计模式
47
2012
打工者心态、主人公意识、个人公司品牌
程序人生
1.3 将每个DataFrame存入excel
In [63]:
for idx, user_name, df_sub in df_subs:
file_name f {splits_dir}/spike_pandas_{idx}_{user_name}.xlsx
df_sub.to_excel(file_name, index False)
2、合并多个小Excel到一个大Excel
遍历文件夹 得到要合并的Excel文件列表
分别读取到DataFrame 给每个df添加一列用于标记来源
使用pd.concat进行df批量合并
将合并后的DataFrame输出到excel
2.1 遍历文件夹 得到要合并的Excel名称列表
In [66]:
import os
excel_names []
# listdir返回指定目录下的所有文件和文件夹名称
for excel_name in os.listdir(splits_dir):
excel_names.append(excel_name)
excel_names
Out[66]:
[ spike_pandas_0_A.xlsx ,
spike_pandas_1_B.xlsx ,
spike_pandas_2_C.xlsx ,
spike_pandas_3_D.xlsx ,
spike_pandas_4_E.xlsx ,
spike_pandas_5_F.xlsx ]
2.2 分别读取到DataFrame
In [70]:
df_list []
for excel_name in excel_names:
# 读取每个excel到df
excel_path f {splits_dir}/{excel_name}
df_split pd.read_excel(excel_path)
# 得到username 通过字符串切片
username excel_name.replace( spike_pandas_ , ).replace( .xlsx , )[2:]
# print(username)
# 给df_split添加一列username
df_split[ username ] username
df_list.append(df_split)
2.3 使用pd.concat进行合并
In [71]:
df_merged pd.concat(df_list)
In [72]:
df_merged.shape
Out[72]:
(258, 4)
In [74]:
df_merged.head()
Out[74]:
id
title
tags
username
0
2585
Tensorflow怎样接收变长列表特征
python,tensorflow,特征工程
A
1
2583
Pandas实现数据的合并concat
pandas,python,数据分析
A
2
2574
Pandas的Index索引有什么用途
pandas,python,数据分析
A
3
2564
机器学习常用数据集大全
python,机器学习
A
4
2561
一个数据科学家的修炼路径
数据分析
A
In [76]:
df_merged[ username ].value_counts()
Out[76]:
B 43
F 43
D 43
E 43
A 43
C 43
Name: username, dtype: int64
2.4 将合并后的DataFrame输出到Excel
In [77]:
df_merged.to_excel(f {work_dir}/spike_pandas_merged.xlsx , index False)
十五、Pandas怎样实现groupby分组统计
类似SQL
select city,max(temperature) from city_weather group by city;
groupby 先对数据分组 然后在每个分组上应用聚合函数、转换函数
本次演示
一、分组使用聚合函数做数据统计
二、遍历groupby的结果理解执行流程
三、实例分组探索天气数据
In [1]:
import pandas as pd
import numpy as np
# 加上这一句 能在jupyter notebook展示matplo图表
%matplotlib inline
In [4]:
df pd.DataFrame({ A : [ foo , bar , foo , bar , foo , bar , foo , foo ],
B : [ one , one , two , three , two , two , one , three ],
C : np.random.randn(8),
D : np.random.randn(8)})
df
Out[4]:
A
B
C
D
0
foo
one
-0.102369
0.042233
1
bar
one
1.552845
-0.623522
2
foo
two
0.770077
0.205682
3
bar
three
-1.989910
-0.617111
4
foo
two
1.230455
-0.422428
5
bar
two
-0.697516
-0.964579
6
foo
one
-0.939646
-0.414017
7
foo
three
0.763570
0.451086
1、分组使用聚合函数做数据统计
1.1 单个列groupby 查询所有数据列的统计
In [5]:
df.groupby( A ).sum()
Out[5]:
C
D
A
bar
-1.134582
-2.205211
foo
1.722086
-0.137444
我们看到
groupby中的’A’变成了数据的索引列
因为要统计sum 但B列不是数字 所以被自动忽略掉
1.2 多个列groupby 查询所有数据列的统计
In [6]:
# 以A,B为索引 查询C,D的平均值
df.groupby([ A , B ]).mean()
Out[6]:
C
D
A
B
bar
one
1.552845
-0.623522
three
-1.989910
-0.617111
two
-0.697516
-0.964579
foo
one
-0.521008
-0.185892
three
0.763570
0.451086
two
1.000266
-0.108373
In [7]:
# 取消A.B作为索引
df.groupby([ A , B ], as_index False).mean()
Out[7]:
A
B
C
D
0
bar
one
1.552845
-0.623522
1
bar
three
-1.989910
-0.617111
2
bar
two
-0.697516
-0.964579
3
foo
one
-0.521008
-0.185892
4
foo
three
0.763570
0.451086
5
foo
two
1.000266
-0.108373
1.3 同时查看多种数据统计
In [8]:
df.groupby( A ).agg([np.sum, np.mean, np.std])
Out[8]:
C
D
sum
mean
std
sum
mean
std
A
bar
-1.134582
-0.378194
1.792834
-2.205211
-0.735070
0.198786
foo
1.722086
0.344417
0.864635
-0.137444
-0.027489
0.385242
我们看到 列变成了多级索引
1.4 查看单列的结果数据统计
In [10]:
# 预过滤 性能更好
df.groupby( A )[ C ].agg([np.sum, np.mean, np.std])
Out[10]:
sum
mean
std
A
bar
-1.134582
-0.378194
1.792834
foo
1.722086
0.344417
0.864635
In [9]:
# 方法2
df.groupby( A ).agg([np.sum, np.mean, np.std])[ C ]
Out[9]:
sum
mean
std
A
bar
-1.134582
-0.378194
1.792834
foo
1.722086
0.344417
0.864635
1.5 不同列使用不同的聚合函数
In [12]:
# 以字典的形式对不同的列使用不同的聚合函数
df.groupby( A ).agg({ C :np.sum, D :np.mean})
Out[12]:
C
D
A
bar
-1.134582
-0.735070
foo
1.722086
-0.027489
2、遍历groupby的结果理解执行流程
for循环可以直接遍历每个group
2.1 遍历单个列聚合的分组
In [13]:
g df.groupby( A )
g
Out[13]:
In [16]:
df
Out[16]:
A
B
C
D
0
foo
one
-0.102369
0.042233
1
bar
one
1.552845
-0.623522
2
foo
two
0.770077
0.205682
3
bar
three
-1.989910
-0.617111
4
foo
two
1.230455
-0.422428
5
bar
two
-0.697516
-0.964579
6
foo
one
-0.939646
-0.414017
7
foo
three
0.763570
0.451086
In [15]:
for name,group in g:
print(name)
print(group)
print()
# name:bar and foo
# group:是两个DataFrame
bar
A B C D
1 bar one 1.552845 -0.623522
3 bar three -1.989910 -0.617111
5 bar two -0.697516 -0.964579
foo
A B C D
0 foo one -0.102369 0.042233
2 foo two 0.770077 0.205682
4 foo two 1.230455 -0.422428
6 foo one -0.939646 -0.414017
7 foo three 0.763570 0.451086
*可以获取单个分组的数据*
In [17]:
g.get_group( bar )
Out[17]:
A
B
C
D
1
bar
one
1.552845
-0.623522
3
bar
three
-1.989910
-0.617111
5
bar
two
-0.697516
-0.964579
2.2 遍历多个列聚合的分组
In [20]:
g df.groupby([ A , B ])
g
Out[20]:
In [21]:
for name, group in g:
print(name)
print(group)
print()
# 分组的名称变成了元组
( bar , one )
A B C D
1 bar one 1.552845 -0.623522
( bar , three )
A B C D
3 bar three -1.98991 -0.617111
( bar , two )
A B C D
5 bar two -0.697516 -0.964579
( foo , one )
A B C D
0 foo one -0.102369 0.042233
6 foo one -0.939646 -0.414017
( foo , three )
A B C D
7 foo three 0.76357 0.451086
( foo , two )
A B C D
2 foo two 0.770077 0.205682
4 foo two 1.230455 -0.422428
可以看到 name是一个2个元素的tuple 代表不同的列
In [22]:
g.get_group(( foo , one ))
Out[22]:
A
B
C
D
0
foo
one
-0.102369
0.042233
6
foo
one
-0.939646
-0.414017
*可以直接查询group后的某几列 生成Series或者子DataFrame*
In [24]:
# 获得一个SeriesGroupBy
g[ C ]
Out[24]:
In [25]:
for name, group in g[ C ]:
print(name)
print(group)
print(type(group))
print()
( bar , one )
1 1.552845
Name: C, dtype: float64
( bar , three )
3 -1.98991
Name: C, dtype: float64
( bar , two )
5 -0.697516
Name: C, dtype: float64
( foo , one )
0 -0.102369
6 -0.939646
Name: C, dtype: float64
( foo , three )
7 0.76357
Name: C, dtype: float64
( foo , two )
2 0.770077
4 1.230455
Name: C, dtype: float64
其实所有的聚合统计 都是在dataframe和series上进行的
3、实例分组探索天气数据
In [27]:
fpath ./pandas-learn-code/datas/beijing_tianqi/beijing_tianqi_2018.csv
df pd.read_csv(fpath)
df.head()
Out[27]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3℃
-6℃
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2℃
-5℃
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2℃
-5℃
多云
北风
1-2级
28
优
1
3
2018-01-04
0℃
-8℃
阴
东北风
1-2级
28
优
1
4
2018-01-05
3℃
-6℃
多云~晴
西北风
1-2级
50
优
1
In [28]:
# 替换掉温度的后缀℃
df.loc[:, bWendu ] df[ bWendu ].str.replace( ℃ , ).astype( int32 )
df.loc[:, yWendu ] df[ yWendu ].str.replace( ℃ , ).astype( int32 )
df.head()
Out[28]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3
-6
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
4
2018-01-05
3
-6
多云~晴
西北风
1-2级
50
优
1
In [29]:
# 新增一列为月份
df[ month ] df[ ymd ].str[:7]
df.head()
Out[29]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
month
0
2018-01-01
3
-6
晴~多云
东北风
1-2级
59
良
2
2018-01
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
2018-01
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
2018-01
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
2018-01
4
2018-01-05
3
-6
多云~晴
西北风
1-2级
50
优
1
2018-01
3.1 查看每个月的最高温度
In [31]:
data df.groupby( month )[ bWendu ].max()
data
Out[31]:
month
2018-01 7
2018-02 12
2018-03 27
2018-04 30
2018-05 35
2018-06 38
2018-07 37
2018-08 36
2018-09 31
2018-10 25
2018-11 18
2018-12 10
Name: bWendu, dtype: int32
In [32]:
type(data)
Out[32]:
pandas.core.series.Series
In [34]:
data.plot()
Out[34]:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ssxk6ssS-1597761927710)( /AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDMuMC4zLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvnQurowAAIABJREFUeJzt3Xl8VNX9//HXJ5N9ISEkgZAEwx7CkqAhoLiLghvY1p0iClStti6lX63WumtbrdhNrQqIIlqtK0UlUiqgVtmErBB2SYBshGwkJCQ5vz9m9Ecpy2SZubN8no/HPDK5uXPv 0DymTvn3nOuGGNQSinlGwKsDqCUUqr7aFFXSikfokVdKaV8iBZ1pZTyIVrUlVLKh2hRV0opH6JFXSmlfIgWdaWU8iFa1JVSyocEunuHcXFxJjU11d27VUopr7Z /foqY0z8ydZze1FPTU1l3bp17t6tUkp5NRH51pn1tPtFKaV8iBZ1pZTyIVrUlVLKh2hRV0opH6JFXSmlfIgWdaWU8iFa1JVSyoe4/Tp1pVxl7a5q8ktrGZEUzYikHoQH66 38j/6W6 83oGDLTzx8SbeWV/6/bIAgSG9o8hIjmFUSjQZyTEM7RNFkE0/nCrfpkVdeS1jDO9v2MPjH22irukwt507kOvH9qO4rJ7c0lpyS2rIKSrjrXUlAIQEBjC8bw8yUmLISI4hIyWG1F7hiIjFLVGq 4gxxq07zMrKMjpNgOqqXVUHeeCDAr7YVsWp/WJ48ocjSevT43/WM8ZQUt3ExtIacktqyCutIX9PLYcOtwMQHRbEqOTo74t8RnI0CT1C3d0cpU5KRNYbY7JOtp4eqSuv0tLazsuf7 DPy7cSbAvgsStGMDW7HwEBxz7aFhH69QqnX69wJmf0BaC1rZ2tFQ3kltSQW1pDbkktL6zcTlu7/QAnMTr0 26bzOQYRiRH0yM0yG1tVKortKgrr7H 22ruey fLeUNXDoykYcuT /UUXWgLYBhiT0YltiDa7P7AdDU0kbh3trvu21yS2tYWlgGgAgMiIsgIyWGzJQYRiXHMCwxipBAW7e2T6nuoEVdebzapsM8tXQzi1bvJikmjHnTs7hgWO9u3UdYsI2s1FiyUmO/X3bgYAt5e2q/77ZZtaWK977ZA0CQTUhP7MGoI7ptBsZHHvcTg1Luon3qymMZY/gofx P/LOI/Q3NzBjfn7svHEJEiDXHIsYY9tUeIrekho2lNeSV1JJXWsPBljYAIkMCGZkU/X23TUZKDInRoXoiVnUL7VNXXq30QCO/ aCAz4orGZkUzSs3jmFEUrSlmUSEvjFh9I0J4 KRiQC0tRt2VDawsaSGvNJacktrmP/FTg632Q W4iJDyEyJ/q8j pjwYCuboXycFnXlUVrb2nnly13MWbYFEfjNZelMP/0UAj30 nJbgDC4dxSDe0dxVVYKAM2tbWzaV3/Eidga/rWp4vvXnNIr3H4iNjmazJQYhveNJixY dV99CirjxGXmkN972XT HeOiYMS CRKSNIigmzOlaHhQTayHScVP1O3aHDFJTWft9ts3ZXNYtz9wL2N4YhvaPIdAySGpUcw5DekR77RqY8m/apK8s1NLfyzKfFvPqfXcRHhfDI5OFMHN7H5/uiK oO/dfVNrklNdQdagUgNCiAEX2j7V02jm6bfrE6UMqfOdunrkVdWerTwjIeWlxIWd0hpo07hV9OHOq314QbY9i1v5G80ho2ltiLfOHeOppb7QOlYsKD7IOkku3FflRyDPFRIRanVu6iJ0qVRyurPcRDiwvIKSwnrU8Uz009lVP79bQ6lqVEhP5xEfSPi2BKZhIAh9vaHdMe2Lttcktr OtnlTjGSZEUE8bVWSncccEgPYpXgBZ15WZt7YbXv/6Wp3OKaW1v595Jacw6q79OtHUcQbYAx6yT0Uwda1/W2NJKwZ46cktq GJbFc/ awstbW3838Q0a8Mqj6BFXblN0d467n8/n40lNZw1OI4nrhhJv17hVsfyOuHBgWT3jyW7fyyzzurP/e8X8Nxn2wkPDuT28wZZHU9ZTIu6crmmljb uHwLcz/fSc/wIP50bSaTM/pqd0E3EBEev2IETS2tPJ1TTFiQjRln9rc6lrKQU0VdREKBVUCI4zXvGGMeEpEFwDlArWPVG40xG10RVHmnlVsqeeCDfEqqm7h2TAq/ujhNB990M1uA8IerMmg63MajS4oID7Z9P6eN8j/OHqk3A cbYxpEJAj4QkQ cfzs/4wx77gmnvJWlfXNPLakiMW5exkYH8FbN49j7IBeVsfyWYG2AP583Whufm09972fT1iw7fuTrcq/OFXUjf26xwbHt0GOh3uvhVRe4 21JTz URGHDrdz94Qh3HruAJ3R0A1CAm28OO00bnxlDb94O5fQIBsTh/exOpZyM6cvORARm4hsBCqAZcaY1Y4fPSEieSLyrIgc86JZEblZRNaJyLrKyspuiK081fMrtnHPu3kMS zBJ3edxZ0TBmtBd6PQIBtzp49hZFI0P39jAyu36N bv3G6qBtj2owxmUAykC0iI4D7gDRgDBAL3Huc175kjMkyxmTFx8d3Q2zliRZ8uZOnlhYzJbMvb/xkHAPjI62O5JciQwJ59aZsBiVEcsvCdazesd/qSMqNOnxxsDGmBlgBTDLG7DN2zcArQHY351Ne4u21JTz8zyIuSu/NH67KwKbzilsqOjyIhTOzSe4ZzowFa9lYUmN1JOUmThV1EYkXkRjH8zBgArBZRBIdywS4AihwVVDluRbn7uXe9/I4e0g8f7l tA4k8hC9IkN4feZYekWGcMO81RTtrbM6knIDZ//6EoHPRCQPWIu9T30JsEhE8oF8IA543DUxladaVlTOL97ayJjUWF788Wnaf 5h kSHsmjWWCJCApk2bzXbKhpO/iLl1XRCL9Vpn2 tZOaCdQzr24NFs8YSadEdidTJ7ahs4OoXv8YWAP 45QwdyeuFnJ3QSz8nq05Zs7Oan7y2joEJkbx2U7YWdA83ID6S12dl09zazvVzv2ZfbZPVkZSLaFFXHZZbUsOMBWtJiglj4cxsosP9c6pcb5PWpwevzcimpvEwU19eTWV9s9WRlAtoUVcdsmlfHTfMX0PPiCAWzRpHXKTO5 1NRiXH8MpNY9hXe4hp81ZT09hidSTVzbSoK6dtr2xg2rzVhAXZeGPWOPpEh1odSXXCmNRYXr4hix2VB5k fw31hw5bHUl1Iy3qyikl1Y1Mfdk iHjRT8aSEqsn2rzZmYPjeH7qqRTurWPmgnU0tbRZHUl1Ey3q6qTKag8xde5qmg63sXDmWB0p6iMmpPfm2WsyWfdtNTcvXEdzqxZ2X6BFXZ1QVUMzU d TfXBFl6bkc2wxB5WR1Ld6PKMvvzuR6P4fGsVP3tjA4fb2q2OpLpIi7o6rtrGw0ybt4Y9NU3Mv3EMGSkxVkdSLnB1VgqPThnOsqJyZr dS1u7TsDqzfTiYnVMDc2tTH9lDdsrGpg7PYvs/rFWR1IudMPpqTS2tPG7TzYTFmTjtz8cSYDO3 OVtKir/9HU0sbMBWvJ31PLC1NP5ewhOrOmP7j1nIE0Nrfy539vIyzYxkOXp stB72QFnX1X5pb27j19fWs2VXNn64dzUV6kwW/cveFQ2hsaWPuFzsJD7Zxz6Q0qyOpDtKirr7X2tbOHW/ab6zw1I9GMTmjr9WRlJuJCL dBiNh9t4fsV2IkICuf28QVbHUh2gRV0B0NZu OU/cskpLOfhy9O5ekyK1ZGURUSEx6eMoKmljadzigkLsjHjzP5Wx1JO0qKuMMbwwAf5fLBxL/dMGsqN4/UP2N8FBAhPXzmKppY2Hl1SRHiwjWuz 1kdSzlBL2n0c8YYHluyiTfXlPCz8wZx27n6UVvZBdoC PN1ozl3aDz3vZ/Phxv3WB1JOUGLup bs2wL87/cyU3jU5l90RCr4ygPExwYwN9 fBpj 8fyi7dzWVpQZnUkdRJa1P3Y8yu28Zd/b PaMSk8eJlevqaOLTTIxtzpYxiVHM3P3/yGFcUVVkdSJ6BF3U8t HInTy0tZkpmX574wUgt6OqEIkMCWXBTNoMTorhl4Xq 3rHf6kjqOLSo 6G315bw8D LmDi8N89clYFNRw4qJ0SHBbFwZjYpseHMXLCWDbsPWB1JHYMWdT zOHcv976Xx9lD4vnzdaMJtOmvgHJer8gQFs0aS1xUCNPnr9EbWXsg/Yv2I8uKyvnFWxsZkxrLiz8 jZBAm9WRlBfq3SOU12eOJcgWwC0L1 lNNjyMFnU/8fnWSm5f9A0jkqKZf MYwoK1oKvOS4kN57mpp7JrfyOz386lXWd29Bha1P3Amp3V/OS1dQxMiOTVm7KJDNExZ6rrxg3oxa8vGcanReU8v2Kb1XGUg1NFXURCRWSNiOSKSKGIPOJY3l9EVovIVhF5S0SCXRtXdVRuSQ0zFqwlKSaMhTOziQ4PsjqS8iE3jU/lB6OTeGbZFj7brJc6egJnj9SbgfONMRlAJjBJRMYBvweeNcYMBg4AM10TU3XGpn113DB/DT0jglg0axxxkSFWR1I RkR48gcjGdanB3f8fQO7qg5aHcnvOVXUjd13p7mDHA8DnA 841j KnBFtydUnVK0t45p81YTFmTjjVnj6BMdanUk5aPCgm28OO00bAHCLQvXc7C51epIfs3pPnURsYnIRqACWAZsB2qMMd/9D5YCScd57c0isk5E1lVWVnY1szqBppY2fr90M5P/ gUiwqKfjCUlNtzqWMrHpcSG89frTmVrRT33vJOHMXri1CpOF3VjTJsxJhNIBrKBYcda7TivfckYk2WMyYqP17vouMqqLZVM/OMqXlixnR MTuLTu85mYHyk1bGUnzhzcBz3Tkrjo/x9vLhqh9Vx/FaHL4MwxtSIyApgHBAjIoGOo/VkYG8351NOqGpo5rElRXy4cS8D4iJ48yfjOH1gL6tjKT9089kDyNtTy1NLNzO8bw/OGqwHce7m7NUv8SIS43geBkwANgGfAVc6VpsOfOiKkOrYjDG8tXY3Fzyzkk/yy7jzgsF8ctdZWtCVZUTs87AP6R3Fz9/cQEl1o9WR/I6z3S JwGcikgesBZYZY5YA9wK/EJFtQC9gnmtiqqNtq2jgmpe 5t538xnaJ4qP7zyLuy8coqNEleXCgwN5cdpptLcbbl64nqaWNqsj RVx9wmNrKwss27dOrfu05c0t7bx/GfbeWHFdsKCbdx/SRpXnZZCgE7KpTzMZ8UVzFiwlikZfXn2mkydCbSLRGS9MSbrZOvp0EIv8vWO/dz/fj47Kg8yJbMvD1yaTnyUXnuuPNN5QxOYfeEQ/vDpFkYmxzBT73PqFlrUvcCBgy08 fEm/rG lJTYMF6dkc05Q/QElPJ8t507iPw9tTz58SaGJUZxxsA4qyP5PJ37xYMZY3h/QykT5qzkvQ17uPWcgXx61zla0JXXCAgQnrk6k/5xEfz8jQ3sqWmyOpLP06Luob7df5Ab5q/h7rdySYkNZ8nPz RXF6fp7IrK60SG2E ctrS2c vC9Rw6rCdOXUmLuoc53NbOc59t46JnV7Fxdw2PTRnOuz89g2GJPayOplSnDYyPZM41meTvqeWBDwp0xKkLaZ 6B1n/7QHufy f4vJ6Lh7Rh4cnD6d3D52zRfmGC9N7c cFg/nT8q1kJEcz7fRUqyP5JC3qHqC26TBPLd3MG2t2k9gjlLk3ZDEhvbfVsZTqdndeMJiCPbU88s8i0hJ7MCY11upIPke7XyxkjOGjvH1MmLOSN9fs5qYz vPpL87Rgq58VkCAMOeaTFJiw/np699QVnvI6kg R4u6RUoPNDLz1XXc/sY3JESF8OHtZ/Lg5el6VyLl86LDgnhp2mk0tbTy00XraW7VE6fdSYu6m7W2tTP38x1cOGcVX23fzwOXDuPD28czMjna6mhKuc3g3lH84aoMNuyu4eHFRVbH8Sl6WOhG aW13Pd HgV76jg/LYFHpwwnuafOda7808UjE7nt3IE8v2I7o5KjuS67n9WRfIIWdTdoaG7lmU LefU/u4iLDOH5qady8Yg OheG8nuzLxpKwd46HvqwkKF9oji1X0 rI3k97X5xsZVbKrlozkoW/GcX14/tx79mn8MlIxO1oCsF2AKEP1 bSZ/oUH76 noq6vXEaVdpUXehxpZWbl24nvCQQN659Qwev2IkPUKDrI6llEeJCQ/mxWmnUdfUyu2LvqGltd3qSF5Ni7oLrdpSSdPhNh6dMpzTTtGPlUodz7DEHvz ylGs3XWAJz7SE6ddoX3qLrS0oIye4UFk6wALpU5qckZf8ktrePnznYxIiuaqrBSrI3klPVJ3kZbWdpZvrmDCsN4E2vSfWSln3DspjTMG9uLXHxSQV1pjdRyvpNXGRb7asZ/6Q61MGtHH6ihKeY1AWwB/vf5U4iNDuHXhevY3NFsdyetoUXeRnMIyIoJtjB kNwVQqiNiI wnTvcfbOH2N76htU1PnHaEFnUXaGs3fFpYzrlDEwgN0vnPleqoEUnR/PaHI/l6RzW//WSz1XG8ip4odYENuw9Q1dDMRO16UarTfnhqMnmltcz7YiejkqOZkplkdSSvoEfqLrC0oIxgWwDnDdXbzinVFb dBjZ/WO59908CvfWWh3HKzhV1EUkRUQ E5FNIlIoInc6lj8sIntEZKPjcYlr43o Yww5RWWMH9SLKB1opFSXBNkCeO76U4kJC aWhes5cLDF6kgez9kj9VZgtjFmGDAOuF1E0h0/e9YYk l4fOySlF5k0756SqqbmDhcu16U6g7xUSH8bdppVNQ1c8ffN9DWrrfCOxGniroxZp8x5hvH83pgE6AdXMewtLCMAEFvdKFUN8pMieGxK4bz dYqns4ptjqOR twn7qIpAKjgdWORT8TkTwRmS8ifj8W/tPCMrJSY4mLDLE6ilI 5Zox/Zg6th9/W7mdj/P3WR3HY3WoqItIJPAucJcxpg54ARgIZAL7gGeO87qbRWSdiKyrrKzsYmTPtavqIJvL6pmkXS9KucRDlw8nMyWG 97Lp7xOZ3Q8FqeLuogEYS/oi4wx7wEYY8qNMW3GmHbgZSD7WK81xrxkjMkyxmTFx/vuFSE5hWUAXDRcu16UcoXgwACevSaT5tY27n03D2O0f/1ozl79IsA8YJMxZs4RyxOPWO0HQEH3xvMuSwvLGJkUrXczUsqF sdFcN/Fw1hRXMnf15ZYHcfjOHukPh6YBpx/1OWLT4lIvojkAecBd7sqqKcrrzvEht01TNSjdKVcbtq4Uxg/qBePLymipLrR6jgexdmrX74wxogxZtSRly8aY6YZY0Y6lk82xvjt2YtPHV0veimjUq4XECA8dWUGASLM/kcu7XqZ4/d0RGk3ySksZ0B8BIMSIq2OopRfSIoJ48HL01mzs5r5X 60Oo7H0KLeDWoaW/hqx34mDtebSSvlTleelsyEYQk8lVPMtop6q N4BC3q3WD5pgra2o1eyqiUm4kIT/5wJBHBNma/navT9KJFvVssLSwjMTqUUcnRVkdRyu8kRIXy BUjyS2t5YUV262OYzkt6l3U2NLKqi2V2vWilIUuHZXI5Iy /Gn5Vgr2 PdsjlrUu2hlcSXNre064Egpiz06ZTixEcHMfjuX5tY2q NYRot6F UUltEzPIjs1Firoyjl12LCg/n9j0ZRXF7Ps8u2Wh3HMlrUu6CltZ3lmyuYMKw3gTb9p1TKauelJXDtmBReWrWd9d9WWx3HElqJuuCrHfupP9TKJL1tnVIe44HL0ukbE8bst3NpbGm1Oo7baVHvgpzCMiKCbYwfFGd1FKWUQ2RIIE9fmcGu/Y38zg9vWq1FvZPa2g2fFpZzbloCoUE2q MopY5w sBezBjfn9e pYvtlZZHcettKh30obdB6hqaNa5XpTyUPdMGsqA AjueSeXukOHrY7jNlrUO2lpQRnBtgDOG q788Mr5c1Cg2zMuTqT8vpmHv1nkdVx3EaLeicYY8gpKmP8oF5EhQZZHUcpdRyZKTHcdu5A3llfyrKicqvjuIUW9U4o2ldHSXWTdr0o5QV fv5g0hN7cN97eVQfbLE6jstpUe EnMJyAgQmpOsoUqU8XXBgAHOuyaC26TAPfJDv87fA06LeCTkFZWSlxhIXGWJ1FKWUE9L69ODuC4fwcX4Zi3P3Wh3HpbSod9DOqoMUl9frNLtKeZlbzh7I6H4x/OaDAsrrDlkdx2W0qHdQjuO2dTqBl1LexRYgzLk6k5a2du55J89nu2G0qHdQTmEZI5OiSe4ZbnUUpVQH9Y L4L6Lh7FySyV/X1tidRyX0KLeAWW1h9iwu4aJepSulNeaNu4UzhjYi8eXFFFS3Wh1nG6nRb0DlhXZu150Ai lvFdAgPD0VRmICLP/kUt7u291w2hR74ClhWUMiI9gUEKU1VGUUl2QFBPGg5ens2ZnNfO/3Gl1nG7lVFEXkRQR UxENolIoYjc6VgeKyLLRGSr42tP18a1Tk1jC1/vqNYBR0r5iKtOS2bCsASeyilmW0W91XG6jbNH6q3AbGPMMGAccLuIpAO/ApYbYwYDyx3f 6Tlmypoazd6KaNSPkJEePKHI4kItjH77Vxa29qtjtQtnCrqxph9xphvHM/rgU1AEjAFeNWx2qvAFa4I6QmWFpaRGB3KqORoq6MopbpJQlQoj18xktzSWp5fsd3qON2iw33qIpIKjAZWA72NMfvAXviBhO4M5ykaW1pZtaWSicP7ICJWx1FKdaNLRyUyOaMvf16 lYI9tVbH6bIOFXURiQTeBe4yxtR14HU3i8g6EVlXWVnZ0YyWW1lcSXNruw44UspHPTplOLERwcx O5fm1jar43SJ00VdRIKwF/RFxpj3HIvLRSTR8fNEoOJYrzXGvGSMyTLGZMXHe9/84zmFZfQMDyI7NdbqKEopF4gJD b3PxpFcXk9zy7banWcLnH26hcB5gGbjDFzjvjRYmC64/l04MPujWe9ltZ2lm uYMKw3gTa9ApQpXzVeWkJXDsmhZdWbWf9t9VWx k0Z6vUeGAacL6IbHQ8LgF B1woIluBCx3f 5Svduyn/lCrDjhSyg88cFk6fWPCmP12Lo0trVbH6RRnr375whgjxphRxphMx NjY8x Y8wFxpjBjq/e /Z2HEsLyogItjF UJzVUZRSLhYZEsjTV2awa38jv/tks9VxOkX7E06grd2wrKicc9MSCA2yWR1HKeUGpw/sxYzx/Xntq2/5YmuV1XE6TIv6CXyz wBVDc06ilQpP3PPpKEMiI/gnndyqTt02Oo4HaJF/QRyCsoItgVw3lDvu2JHKdV5oUE25lydSVndIR5ZXGR1nA7Ron4cxhiWFpYxflAvokKDrI6jlHKzzJQYbjt3EO9 U8qnjpvjeAMt6sdRtK O0gNN2vWilB 744LBpCf24P7389nf0Gx1HKdoUT OnIIyAgQmpOsoUqX8VXBgAHOuyaC26TAPfFDgFbfA06J HDmF5WSlxhIXGWJ1FKWUhdL69ODuC4fwSUEZi3P3Wh3npLSoH8POqoMUl9frNLtKKQBuOXsgo/vF8JsPCqis9 xuGC3qx5DjOCmiE3gppQBsAcLTV2bQdLiNp5Z69qAkLerHkFNYxsikaJJ7hlsdRSnlIQYlRDLjzP78Y30p6789YHWc49KifpSy2kNs2F3DRD1KV0od5Y7zB9O7RwgPLS6gzUNvWK1F/SjLiuxdLzqBl1LqaBEhgfz60nQK9tTxxprdVsc5Ji3qR1laWMaA AgGJURZHUUp5YEuH5XI6QN68YecYqoPtlgd539oUT9CTWMLX o1qtelFLHJSI8MmU4Dc2tPJ3jeSdNtagf4V bKmhrNzqKVCl1QkN6R3HjGan8fW0JuSU1Vsf5L1rUj5BTWEZidCijkqOtjqKU8nB3TRhMXGQID35YQLsHnTTVou7Q2NLKqi2VTBzeB/vd 5RS6viiQoO4/5I0cktreXtdidVxvqdF3WFlcSXNre064Egp5bQrMpMYk9qT3y/dTE2jZ5w01aLusLSwjJ7hQWSnxlodRSnlJUSERyaPoLbpMH/4tNjqOIAWdQBaWtv596YKJgzrTaBN/0mUUs5L79uDG05PZdHq3RTsqbU6jhZ1gP9sr6K uVUHHCmlOuXuC4fQKyLYI06aalHHPs1uRLCN8YPirI6ilPJC0WFB3DspjW921/DuN6WWZvH7ot7WblhWVMa5aQmEBtmsjqOU8lI/OjWZ0f1i N0nm6ltsu5m1U4VdRGZLyIVIlJwxLKHRWSPiGx0PC5xXUzX Wb3AaoaWnTAkVKqSwIChMemjKC6sYVnl22xLoeT6y0AJh1j bPGmEzH4 Pui U OQVlBNsCOG9ovNVRlFJebkRSNFPH9uO1r3axaV dJRmcKurGmFVAtYuzuJ0xhqWFZYwf1Iuo0CCr4yilfMAvLxpKdFgQD35ozT1Nu9qn/jMRyXN0z/TslkRuVLSvjtIDTdr1opTqNjHhwdwzKY21uw7wwcY9bt9/V4r6C8BAIBPYBzxzvBVF5GYRWSci6yorK7uwy 6VU1BGgMCEdB1FqpTqPtdkpZCRHM2TH2 m/pB7T5p2uqgbY8qNMW3GmHbgZSD7BOu ZIzJMsZkxcd7Tt91TmE5WamxxEWGWB1FKeVDAgKER6eMoKqhmT/9a6t7993ZF4pI4hHf/gAoON66nmhn1UGKy t17nSllEtkpMRw7ZgUXvnPLraU17ttv85e0vgm8BUwVERKRWQm8JSI5ItIHnAecLcLc3a7nEL7bet0Ai llKv838Q0IkMC3XrSNNCZlYwx1x1j8bxuzuJWSwvKGJkUTXLPcKujKKV8VGxEML cOJTffFDAkrx9XJ7R1 X79MsRpWW1h9hYUsNEPUpXSrnY9dn9GJHUgyc 2sTB5laX788vi/qnRfauF53ASynlarYA /S8ZXWH PO/XX/S1C Lek5hGQPiIxiUEGV1FKWUHzjtlJ5ceVoy8z7fybaKBpfuy K oGDLXy9o1qvelFKudWvLk4jLNjGw4sLXXrS1O K vLNFbS1Gx1FqpRyq7jIEGZfOIQvtlUAmgBuAAAMdUlEQVSxtKDMZfvxu6K tKCMxOhQRiVHWx1FKeVnfjzuFNL6RPHYkiIaW1xz0tSvinpjSyufb61k4vA iIjVcZRSfibQFsCjU0awt/YQz322zSX78KuivrK4kubWdh1wpJSyTHb/WH4wOomXV 1kZ9XBbt XxX1pYVl9AwPIjs11uooSik/dt/FaQQHBvDIP7v/pKnfFPWW1nb vamCCcN6E2jzm2YrpTxQQo9Q7powmBXFlSwrKu/WbftNdfvP9irqm1t1wJFSyiNMPyOVIb0jeXRJEYcOt3Xbdv2mqOcUlhMRbGP8oDiroyilFEG2AB6ZPILSA028sGJ7t23XL4p6W7thWVEZ56YlEBpkszqOUkoBcPrAXlye0ZcXVm5n9/7GbtmmXxT1L7ZVUdXQogOOlFIe5/5L0ggMEB5dUtgt2/P5or65rI47/76B5J5hXJCWYHUcpZT6L4nRYdxxwWD tamCf2/u klTny7qOyob PHc1YQG2nhj1jgiQpyaPl4ppdxqxvj DIyP4JF/dv2kqc8W9ZLqRqbOXY0x8PqssfTrpTfDUEp5puDAAB6ePJxv9zfy8qodXdqWTxb1stpDTJ27moPNrSycOZZBCZFWR1JKqRM6a3A8F4/ow3MrtlF6oPMnTX2uqO9vaGbq3K/Z39DMqzOySe/bw pISinllAcuS0cQHltS1Olt FRRr208zI/nrWFPTRPzbxzD6H49rY6klFJOS4oJ42fnDyKnsJyVWyo7tQ2fKeoNza1Mf2UN2ysaeHFaFmMH9LI6klJKddiss/qT2iucRxYX0tza8ZOmPlHUm1ramLlgLfl7avnL9aM5Z0i81ZGUUqpTQgJtPDR5ODuqDjLvi50dfr3XF/Xm1jZufX09a3ZVM fqDB1gpJTyeucNTeDC9N78Zfk29tY0dei1ThV1EZkvIhUiUnDEslgRWSYiWx1f3d6B3drWzh1vbmDllkp 4ORTMlMcncEpZRyiQcvS6fdGJ74eFOHXufskfoCYNJRy34FLDfGDAaWO753m/Z2wy//kUtOYTkPXpbOtdn93Ll7pZRyqZTYcG47dxAf5e3jy21VTr/OqaJujFkFVB 1eArwquP5q8AVTu 1i4wx/PqDAj7YuJf/mziUGWf2d9eulVLKbW45ZwApsWE8tNj5eWG60qfe2xizD8Dx1S0TqxhjeGzJJt5cs5vbzxvI7ecNcsdulVLK7UKDbDx02XC2VTQ4/Rq3nCgVkZtFZJ2IrKus7Ny1l9 Zs2wL87/cyY1npPLLi4Z2U0KllPJME9J7c/PZA5xevytFvVxEEgEcXyuOt6Ix5iVjTJYxJis vvOXGz6/Yht/ fc2rslK4cHL0hGRTm9LKaW8xf2XDHN63a4U9cXAdMfz6cCHXdjWSb36n108tbSYyRl9efKHIwkI0IKulFJHc/aSxjeBr4ChIlIqIjOB3wEXishW4ELH9y7x9toSHlpcyIXpvXnm6gxsWtCVUuqYnJpg3Bhz3XF dEE3Zjmmxbl7ufe9PM4aHMdfrx9NkM3rx0sppZTLeHSFXFZUzi/e2siYU2J5aVoWIYF6f1GllDoRjy3qn2 t5PZF3zA8KZp5N2YRFqwFXSmlTsYji/qandX85LV1DIiP4NWbxhAVGmR1JKWU8goeV9RzS2qYsWAtfWPCeH3WWGLCg62OpJRSXsOjivqmfXXcMH8NPSOCeGPWOOIiQ6yOpJRSXsVjivqOygamzVtNWJCNN2aNo090qNWRlFLK63hEUS pbmTq3NUYA6/PGktKbLjVkZRSyis5dZ26K5XVHmLq3NU0trTx95vHMSgh0upISinltSw9Ut/f0MzUuV9TfbCFV2dkMyyxh5VxlFLK61lW1GsbD/PjeWvYU9PEvOlZZKbEWBVFKaV8hiVFvaG5lemvrGF7RQMvTsti7IBeVsRQSimf4/Y 9XYDMxesJX9PLS9MPZVzhnR Kl6llFL/ze1Ffff gxzYVc0fr8nkouF93L17pZTyaW4v6vXNrTz3w5FMyUxy966VUsrnub1PPTE6lGvG9HP3bpVSyi 4vajr0H llHIdjxhRqpRSqntoUVdKKR iRV0ppXyIFnWllPIhWtSVUsqHaFFXSikfokVdKaV8iBZ1pZTyIWKMce8OReqBYrfu1HpxQJXVIdxM2 z7/K29YG2bTzHGnHQGRCvufFRsjMmyYL WEZF12mbf529t9rf2gne0WbtflFLKh2hRV0opH2JFUX/Jgn1aTdvsH/ytzf7WXvCCNrv9RKlSSinX0e4XpZTyISct6iKSIiKficgmESkUkTsdy2NFZJmIbHV87elYniYiX4lIs4j88qht3e3YRoGIvCkiocfZ53THdreKyPQjlj8hIiUi0tC1ZntVm5eKSK5jG38TEZsftHmFiBSLyEbHI8GX2ywiUUe0daOIVInIH321vY7l14hInmMbT3V3Wy1u81IRqRGRJUct/5mIbBMRIyJxrmozxpgTPoBE4FTH8yhgC5AOPAX8yrH8V8DvHc8TgDHAE8Avj9hOErATCHN8/zZw4zH2FwvscHzt6Xje0/GzcY48DSfL3ZWHh7W5h OrAO8C1/pBm1cAWa78P/a0Nh 13nrgbF9tL9AL2A3EO9Z7FbjAF/6PHT 7ALgcWHLU8tFAKrALiHPV7/VJj9SNMfuMMd84ntcDmxwNnOL4z/juP UKxzoVxpi1wOFjbC4QCBORQCAc2HuMdSYCy4wx1caYA8AyYJJj218bY/adLHNXeVib647YTjDgkpMgntRmd/HENovIYOyF5fMuNu9/eFB7BwBbjDGVjvX BfyoG5r4PyxoM8aY5UD9MZZvMMbs6lKDnNChPnURScX brMa6P1dgXV8PeFHZGPMHuAP2N h9wG1xphPj7FqElByxPeljmWW8IQ2i0gOUIH9F WdTjbFaZ7QZuAVR1fEb0REOtkUp3lImwGuA94yjkM7V7G4vduANBFJdRTIK4CUrrTHGW5qs WcLuoiEon94/9dRxw9Os3RZzUF6A/0BSJE5MfHWvUYyyy5RMdT2myMmYj9Y2QIcH5Hc3SEh7R5qjFmJHCW4zGtozk6wkPa/J1rgTc7mqEjrG6v46j9p8Bb2D R7AJaO5qjI9zYZss5VdRFJAj7P8giY8x7jsXlIpLo Hki9iPJE5kA7DTGVBpjDgPvAWeIyNgjThBNxv5ufuS7djLH ZjjSp7WZmPMIWAx9l8sl/CUNjuOir77uPwGkN09LfxfntJmx74ygEBjzPpuadwxeEp7jTH/NMaMNcacjn0uqK3d1cajubnNlnPm6hcB5gGbjDFzjvjRYuC7s9nTgQ9PsqndwDgRCXds8wLHNlcbYzIdj8VADnCRiPR0vDte5FjmNp7SZhGJPOIXLxC4BNjcXe08kge1OfC7KwMcf4yXAQXd1c4jeUqbj9jOdbjwKN2T2iuOK5ocy28D5nZPK/ bBW22njn52eMzsX9EzAM2Oh6XYD DvRz7O xyINaxfh/s79B1QI3j XdXcDyCvSgVAAuBkOPscwb2frdtwE1HLH/Ksb12x9eHT5a/Mw9PaTPQG1jryFEI/AX7kZwvtzkC 9Uf37X5T4DNl9t8xM92AGmuaKuntRf7m1eR4 GSK7osbPPnQCXQ5Hj9RMfyOxzft2L/xDLXFW3WEaVKKeVDdESpUkr5EC3qSinlQ7SoK6WUD9GirpRSPkSLulJK RAt6kqdhIjEiMhtR3x/rhw1A59SnkKLulInF4N9gIxSHk LuvIpjkmiNovIXLHPe71IRCaIyJdinzs7W xzaX8g9vm8vxaRUY7XPiwi88U n/sOEbnDsdnfAQMdQ8GfdiyLFJF3HPta5BhlqJTlAq0OoJQLDAKuAm7GPiL3euwjCycD92OfOXCDMeYKETkfeA3IdLw2DTgP 9zbxSLyAvb5tkcYYzLB3v2Cfba/4dhHBn4JjAe cEfjlDoRPVJXvminMSbfGNOOfaqB5cY dDof 00KzsQ zBtjzL BXiIS7XjtR8aYZmNMFfZJnnofZx9rjDGljn1sdGxXKctpUVe qPmI5 1HfN O/dPpiabAPfK1bRz/06yz6ynlVlrUlT9aBUyF77tSqsyJ59iux94do5TH06ML5Y8exn5npTygkf8/BesxGWP2O060FgCfAB 5PqJSnaOzNCqllA/R7hellPIhWtSVUsqHaFFXSikfokVdKaV8iBZ1pZTyIVrUlVLKh2hRV0opH6JFXSmlfMj/AwCmttdcI8/aAAAAAElFTkSuQmCC)]
3.2 查看每个月的最高温度、最低温度、平均空气质量指数
In [35]:
df.head()
Out[35]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
month
0
2018-01-01
3
-6
晴~多云
东北风
1-2级
59
良
2
2018-01
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
2018-01
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
2018-01
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
2018-01
4
2018-01-05
3
-6
多云~晴
西北风
1-2级
50
优
1
2018-01
In [38]:
group_data df.groupby( month ).agg({ bWendu :np.max, yWendu :np.min, aqi :np.mean})
group_data
Out[38]:
bWendu
yWendu
aqi
month
2018-01
7
-12
60.677419
2018-02
12
-10
78.857143
2018-03
27
-4
130.322581
2018-04
30
1
102.866667
2018-05
35
10
99.064516
2018-06
38
17
82.300000
2018-07
37
22
72.677419
2018-08
36
20
59.516129
2018-09
31
11
50.433333
2018-10
25
1
67.096774
2018-11
18
-4
105.100000
2018-12
10
-12
77.354839
In [39]:
group_data.plot()
Out[39]:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Lwmi8hwM-1597761927711)( /AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDMuMC4zLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvnQurowAAIABJREFUeJzs3Xd4VFX6wPHvSe kE0hIAiQQOoTQi6AiSLEg1XVX176ua0Fsuz/B3VVXUFlZXVxx7UhHUVDRtQSQTugkgYSSkFASUgjpycz5/XGHEKSFtJlM3s/z5GHmzp173wmT95577rnvUVprhBBC2C8HawcghBCiYUmiF0IIOyeJXggh7JwkeiGEsHOS6IUQws5JohdCCDsniV4IIeycJHohhLBzkuiFEMLOOVk7AIDAwEAdGRlp7TCEEKJJSUhIOK21DrraejaR6CMjI9m fbu1wxBCiCZFKZVWk/Wk60YIIeycJHohhLBzkuiFEMLO2UQfvRAVFRVkZGRQWlpq7VCaBDc3N8LCwnB2drZ2KKIJkEQvbEJGRgbe3t5ERkailLJ2ODZNa01OTg4ZGRm0bdvW2uGIJkC6boRNKC0tJSAgQJJ8DSilCAgIkLMfUWOS6IXNkCRfc/K7EtdCEr0VHMg9wJYTW6wdhhCimZBE38jM2sxTa5/iof89xNYTW60djqjm6NGjdO3a9YJlX375JbfddlvV83/84x9ERUVVPV 1ahW33HJLvew/MjKS06dP18u2hKhOEn0j23h8I2kFabg5uTF97XSOFx63dkjiCgYOHMimTZuqnm/atAkfHx ysrIA2LhxI4MGDbJWeELUiCT6RrYwaSGB7oF8evOnVJgreOLnJyitlItqtqKyspK7776b7t27M2HCBDw9PWnRogWpqakAZGZmcscdd7Bx40bASPQDBw4E4Pvvv2fAgAHExsYyceJECgsLAaOlPnPmTGJjY nWrRvJyckA5OTkcNNNN9GrVy8eeughtNbAxWcWr7/ Oi GJj/QqEHZLhlY0ovSCdXzJ/4eEeDxPtF80/hvyDP/30J/6 e 8NOglucBm8ddV 0k8XlCv2 zc2oeZ47pcdb0DBw7w/vvvM2jQIO69917mzZvHwIED2bhxIyaTiejoaPr37893333H2LFj2bNnD3369OH06dO89NJL/PDDD3h6ejJr1izmzJnDjBkzAAgMDGTHjh3MmzeP119/nf/ 97/89a9/ZfDgwcyYMYOvv/6a fPn1 tnFuIcadE3okXJi3BUjkzsMBGAYW2G8UiPR/jq0FcsTF5o5egEQJs2baq6Yu666y5 eUXBg0axMaNG9m4cSMDBgygb9 bNmyhZ07d9KxY0fc3NzYvHkziYmJDBo0iJ49e/Lxxx Tlna 3tT48eMB6N27N0ePHgVg3bp13HXXXQCMGTMGPz /xv2wotmQFn0jKa4oZmXqSkZEjiDI43xV0Yd6PERibiKvbXuNDn4d6BPSx4pR2oaatLwbyq/PqpRSDBw4kLfeeguTycQDDzyAt7c3paWlxMfHVx0UtNaMGDGCRYsWXXK7rq6uADg6OlJZWXnZ/QE4OTlhNpurnst4eVFX0qJvJKsOraKwopA7Y 68YLmDcuCVwa/QxrsN09dO52TRSStFKADS09OrLr4uWrSIwYMH07lzZ44fP8769evp1asXAD179uQ///lPVf98//792bBhQ1VffnFxMQcPHrzivoYOHcpnn30GwLfffkteXh4ALVu2JCsri5ycHMrKyli9enWDfFbRfEiibwRaaxYlL6JzQGd6BPW46HVvF2/mXj XMlOZXJy1sk6dOvHxxx/TvXt3cnNz cMf/oBSin79 hEYGFhVW2bAgAEcPny4KtEHBQXx0UcfMXXqVLp3707//v2rLrpezsyZM1m3bh2xsbF8//33hIeHA Ds7MyMGTPo168fY8eOJSYmpmE/tLB76tyVfmuKi4vT9jzxyOYTm3ng wd4adBL3Bp162XX yn9Jx7/ XFuaX9Ls7s4m5SURKdOnawdRpMivzOhlErQWsddbT1p0TeChUkL8XP1Y1TbUVdc7/rw63m4x8N8degrFh9Y3EjRCSHsnST6BpZZmMnajLVM6DABV0fXq67/hx5/4Lqw65i9dTbbT9rvWY4QovFcNdErpT5QSmUppfZVW/aaUipZKbVHKfWFUsq32mvPK6VSlVIHlFIjGyrwpmJJ8hIUikkdJ9VofQflwD G/IMw7zCeWvuUXJwVQtRZTVr0HwG/7nP4H9BVa90dOAg8D6CU6gxMAbpY3jNPKeVYb9E2MSWVJaxIWcH14dcT4hlS4/d5u3jz5vA3Ka0sZVr8NMpMZQ0YpRDC3l010Wut1wG5v1r2vdb63GDgzUCY5fGtwGKtdZnW giQCvStx3iblG8Of0NBecFFQypror1ve14Z/Ap7T /l5c0vYwsXzYUQTVN99NHfC3xreRwKHKv2WoZlWbOjtWZh8kI6 HWgd8vetdrGDRE38GD3B/ki9QuWHlhazxEKIZqLOiV6pdRfgErgs3OLLrHaJZuiSqkHlVLblVLbs7Oz6xKGTUo4lcDBvIPcGXNnnYZJPtLjEYaEDuHVra y49SOeoxQXM3tt9/OypUrq5537NiRl156qer5HXfcweeff17n/cTHxzN27Ng6b0eIy6l1oldK3Q2MBX6jz/crZABtqq0WBlyyDq/Wer7WOk5rHRcUFHSpVZq0hckL8XHxYXS70XXajqODI68OfZXWXq2ZFj NU0Wn6ilCcTXnipmBUWnSy8vropLF526YEsKW1SrRK6VGAc8Ct2iti6u99BUwRSnlqpRqC0QDzW52jZNFJ/kp/SfuiL4Ddyf3Om/Px8WHucPnUlxZzLT4aZSbyushSlHdCy 8wNy5c6ue/ Uvf6GkpOSCcsRjx44lOzsbrTVHjhzB3d2dkJAQTCYTTz/9NH369KF79 68 67gNFSHzZsGBMmTCAmJobf/OY3Vdda1qxZQ0xMDIMHD77grODFF1/k9ddfr3retWvXqiJoQtTWVYuaKaUWAcOAQKVUBjATY5SNK/A/S7fEZq31w1rr/UqppUAiRpfOH7XWpoYK3lYtPbAUjWZyzOR622aUXxQvD36ZafHTeGXLK7w48MV627bN fY5OLm3frcZ0g1ufvWyL993332MHz exx9/HLPZzOLFi9m4cSNz5syhvLycjRs3ct1113H48GGSkpLYuXNnVUGz999/nxYtWrBt2zbKysoYNGgQN910EwA7d 5k//79tG7dmkGDBrFhwwbi4uJ44IEH Omnn4iKimLy5Pr7nghxKVdN9FrrqZdY/P4V1n8ZeLkuQTVlZaYylh9cznVh1xHqVb/XoUdEjOCBbg/w3t736BLYparcsai7yMhIAgIC2LlzJ6dOnaJXr160bNmSLl26sGPHDjZv3swzzzzD4cOH2bhxIzt37rxgwpE9e/awfPlyAM6cOUNKSgouLi707duXsDBjUFrPnj05evQoXl5etG3blujoaMAohyy16EVDkjLF9WzNkTXkleVxZ6drH1JZE3/s UcScxN5ZcsrRPtG0zO4Z4Psx6qu0PJuSPfffz8fffQRJ0 e5N577wWMfvp169Zx9uxZ/Pz86N /P2 //TY7d 7k4YcfBowRVm 99RYjR154f2B8fHxVeWK4sETx5S7QS4li0RCkBEI9Ojeksn2L9vQL6dcg 3B0cGTWkFm08mzFk/FPklWc1SD7aY5uv/121qxZw7Zt26qS9qBBg3j33Xfp0cOoOtq9e3c2b95Meno6XboYdfNHjhzJO 8Q0VFBQAHDx6kqKjosvuJiYnhyJEjHDp0COCCGvaRkZHs2GGMrtqxYwdHjhyp/w8qmh1J9PVod/ZuEnMSmRoztUErT7ZwbcHc4XMpqihiWvw0KkwVDbav5sTFxYXhw4czadIkHB2NG7oHDhzI4cOHGTBgAGC0uIODg4mLi8PBwfjzuf/ ncuTOxsbF07dqVhx566ILJRX7Nzc2N fPnM2bMGAYPHkxERETVa3fccQe5ubn07NmTd955hw4dOjTgJxbNhZQprkfPrHuGXzJ 4YeJP Dh7NHg /vu6HdMXzudiR0mMmPAjAbfX0OyhZK7ZrOZ2NhYli1bVtV/bsts4XcmrEvKFDey7OJs/nf0f9wadWujJHmAkZEjubfrvSw7uIzlB5c3yj7tVWJiIlFRUdxwww1NIskLcS3kYmw9WXZwGSZtYmrMpQYpNZzHej1Gcm6ycXHWL/qSM1iJq vcuTOHDx 2dhhCNAhp0deDClMFyw4uY3DoYMJ9wht1344OjsweOptgj2Cm/TyN0yWnG3X/QgjbJ4m Hnyf9j2nS0432JDKqzl3cfZsxVm5OCuEuIgk nqwMHkhET4RDGxtvbonHf078reBf2Nn1k5mbZtltTiEELZHEn0d7T 9nz3Ze5gaMxUHZd1f56i2o/h9l9 z5MASvkj5wqqxCCFshyT6OlqYvBAPJw9ubX rtUMB4LHYx jfqj9/3/x39mbXc70YcYH//Oc/fPLJJ9YOQ4irkkRfBzklOXx75FtuaX8LXi5e1g4HACcHJ14b hrBHsE8Ef EXJxtQA8//DC/ 93vrB2GEFclib4OVqSsoMJcwdROjTuk8mp83Xx5c/ibFJQV8FT8U3Jx9hrcdttt9O7dmy5dulQVGvvwww/p0KED1113HQ888ACPPvoocHFJYSFslYyjr6UKcwVLDixhQKsBtGvRztrhXCTGP4a/Dvwrz65/lte2v8af /3Z2iHV2Kyts0jOTa7Xbcb4x/Bs32evut4HH3yAv78/JSUl9OnThzFjxjBz5kwSEhJo0aIFw4cPp1evXvUamxANTVr0tfRT k9kFWdZbUhlTYxuN5q7O9/NouRFrExdefU3CP71r3/Ro0cP vfvz7Fjx/j0008ZNmwYQUFBuLi4SO14cYFKcyVrjqyhqOLyRexsgbToa2lh0kJCvUIZEjrE2qFc0RO9nyA5N5m/b/o7Ub5RdA3sau2QrqomLe GEB8fzw8//MCmTZvw8PBg2LBhxMTEkJSUZJV4hO1bnLyYWdtmMazNMOYOn2v1kXeXY5tR2bjk3GR2ZO1gasxUHB0crR3OFTk5OPHada8R6B7IEz8/QU5JjrVDsllnzpzBz88PDw8PkpOT2bx5MyUlJcTHx5OTk0NFRQXLli2zdpjCRuSV5jFv9zyC3IOIPxbPe3ves3ZIlyWJvhYWJi3E3cmd26Jus3YoNeLn5sebw98kvyyfp9Y xZ7sPRRXFF/9jc3MqFGjqKyspHv37rzwwgv079 fVq1a8eKLLzJgwABuvPFGYmNjrR2msBH/3vVviiuKee m9xjTbgz/3vVv1mest3ZYlyRliq9Rfmk Ny6/kXHtxzFzwExrh3NNVh9ezZ/X/xmN8X8e6hVKtG800X7RRPlGEe0XTaRPJM6Ozo0eW1MpufvRRx xfft23n77bWuH0mR Z/boQO4BJq2exJSOU3i 3/OUVJbw229 y/Gi4ywZs4Q2Pm0aJY6alimuyeTgHwBjgSytdVfLMn9gCRAJHAUmaa3zlDHbxlxgNFAM3KO13lHbD2GLVqSsoMxU1uhVKuvD2HZj6R3cm6TcJFLyUkjNTyUlL4X1mesxWeZwd1JORLaIJNo3mii/qKp/Q71Cbbb/UYjGpLVm9rbZeLt480jPRwBwd3Lnn8P/yZTVU3gi/gkWjF6Au5O7lSM976oteqXUUKAQ KRaop8N5GqtX1VKPQf4aa2fVUqNBv6Ekej7AXO11ledU6 ptOgrzZWM/nw0Yd5hfDDyA2uHU2/KTeUcOXOE1PzUquSfmp9KZmFm1TruTu5E UZVtfzP/RvgFlAvs2lJ6/Taye/MOn5M 5En4p/gL/3 wpSYKRe89kvmLzzywyPc3PZmXh3yaoPONAf12KLXWq9TSkX avGtwDDL44 BeOBZy/JPtHH02KyU8lVKtdJan6h56LZr7bG1nCg6wTN9nrF2KPXKxdGFjv4d6ejf8YLlheWFHDpzqCrxp alsjZjLV knq j4 fqd0HLP9rXOAjU5k5hrXWD/2HYC1vocm2OykxlvLb9NaJ8o5jQYcJFrw8OHcyjvR7lrZ1v0S2wG3d1vssKUV6stsMrW55L3lrrE0qpYMvyUOBYtfUyLMsuSvRKqQeBBwHCwxu3hnttLUxeSIhnCMPaDLN2KI3Cy8WLHkE9LprMJKckh5T8FFLzzp8BfJH6BSWVJVXrtPJsVdXyj/KNooNfB9r7tsfJ4dJfOTc3N3JycggIqJ8zBHumtSYnJwc3Nzdrh9LsfJr4KZmFmbx303uX/S7f3 1 9p3ex vbX6ejf0f6hPRp5CgvVt/j6C/1F3rJpofWej4wH4yum3qOo96l5KWw9eRWHo99/LL/wc1FgHsAAe4B9G/Vv2qZWZs5Xni8KvGn5BtnARuPb6TSbEyUHeUbxZxhc2jbou1F2wwLCyMjI4Ps7OxG xxNmZubG2FhYdYOo1nJLs5m/p75DG8z/ILv/q85KAdeGfwKU7 eyvS101k6diktPVs2YqQXq23GOnWuS0Yp1QrIsizPAKpfbg4DjtclQFuxKHkRLg4u3BF9h7VDsUkOyoEw7zDCvMMuOOOpMFWQVpDG3tN7mZMwhymrp/DXQX9lVOSoC97v7OxM27YXHwCEsBVzd8yl0lzJ9LjpV13Xy8WLN4e/yZ1f38m0tdP4cOSHuDi6NEKUl1bbYRRfAXdbHt8NfFlt e UoT9wxh7658 UnWH14dWMbjcaPzc/a4fTpDg7OhPlF8Xt0bezbNwyov2ieXrt07y69VUptiaajH2n9/HloS/5beff1ni60Pa 7Xlp8Evsyd7Dq1tfbeAIr yqiV4ptQjYBHRUSmUope4DXgVGKKVSgBGW5wDfAIeBVOA94JEGibqRrUxdSUllSZMcUmlLQjxD HDkh9zV6S4 S/qMe9bcw4nCJt8OEHZOa82rW18lwC2AB7s/eE3vHRExgnu73suyg8v4POXzBorw6moy6uZy2e2GS6yrgT/WNShbYjKbWJy8mJ5BPekc0Nna4TR5zo7OPNv3WWJbxvLChheYuHoirw55lcGhg60dmhCX9M2Rb9idvZu/Dfwbns6e1/z x3o9RmJOIi9vfpkOfh2sUm9K7oC5il8yfyGjMMOmq1Q2RSMiRrB4zGJaerTkkR8e4e2db2Mym6wdlhAXKK4oZk7CHDoHdObWqNrNIufo4MjsobMJdA/kyfgnyS3Nrecor04S/VUsTF5IkHsQN0bcaO1Q7E5ki0gWjF7ALe1v4d097/LQDw9J0TVhUz7c/yFZxVk81/e5Ot0Z7ufmxz H/5O80jyeWftM1Ui0xiKJ/gqOnDnCxuMbmdhxIs4OjV//pTlwd3LnpcEv8beBf2NX1i4mrZrEzqyd1g5LCI4XHufDfR9yc9ub6RVc98lmOgd05oX L7Dl5Bbm7phbDxHWnCT6K1iUvAgnBycmdpho7VDs3u3Rt7Ng9AJcnVz5/Zrf8/H j XuT2FVcxLmoFBM6z2t3rZ5a9StTO44mY/2f8Sao2vqbbtXI4n MgrLC/ky9UtGRo4k0D3Q2uE0CzH MSwZu4ThbYbz vbXeTL SQrKC6wdlmiGEk4l8N3R77i3672EeIbU67af7fMsPYN6MmPDDFLyUup125cjif4yvjz0JcWVxdwZIxdhG5O3izdzhs1hetx01h5by5TVU p9/lghrsRkNjFr6yxCPEO4p s99b59Z0dn3hj2Bp7Ono3WmJFEfwlmbWZx8mK6BnSle1B3a4fT7CiluLvL3Xww6gPKTGX85uvf8HnK59KVIxrFytSVJOUmMa33tAYrNRzsEcwb171B5tlM/rL L5i1uUH2c44k kvYdHwTRwuOypBKK sV3IulY5cS2zKWmRtn8sKGFy4onCZEfTtbfpZ/7fwXvYJ7XVSmo77Ftozl6T5PE58Rz7t73m3QfUmiv4SFyQvxd/NnZORIa4fS7AW4B/CfG//Dwz0e5qtDX/Gbb37D0TNHrR2WsFPz98wnrzSPZ/s 2yhVVKfGTGVcu3G8s sd1mWsa7D9SKL/lWMFx1ifsZ4JHSZYtQiROM/RwZE/9vwj826cR3ZxNlO nsJ3R7 zdljCzqQVpLEgaQG3Rd1Gl4AujbJPpRQzBsygo39Hnlv/HOkF6Q2yH0n0v7LowCIclSOTOkyydijiVwaHDmbZuGW0923P9LXTmbV1lhRGE/Xm9W2v4 roymOxjzXqft2c3PjnsH/ioBx4Iv4JiiuK630fkuirKa4oZmXKSm6IuMHq9aPFpYV4hvDRyI 4q9NdLEhawD3f3cPJopPWDks0cRszNxKfEc D3R 0ynDqMO8wZg ZTWpeKi9uerHeBx5Ioq9m9eHVnK04K0Mqbdy5wmivX/c6qXmpTFw1kQ2ZG6wdlmiiKswVzN42mzbebbirk/Wm/hsYOpDHYh/j2yPf8mnip/W6bUn0FlprFiUvIsY/pl5udxYNb2TkSBaPXUygeyB/ OEPzNs1TwqjiWu29MBSDp05xNNxT1v9utx9Xe/jhvAbmJMwh20nt9XbdiXRW2w9uZXU/FTujLlT5ixtQtq2aMvCMQsZ134c7 x h4d/eNgq1QFF05Rfms 8XfPo36q/TcwFrZTipUEvEe4TzvS10 utW1ISvcXCpIX4uvpyc9ubrR2KuEbuTu68NOgl/jrwr w4tYOJqyayK2uXtcMSTcC/d/2boooinunzjM008M5NQ1hmKmNa/DTKTeV13qYkeowqdfEZ8YyPHo bk5u1wxG1oJRifPR4ozCao1EY7ZP9n8jdtOKyUvJSWHpwKRM7TCTaL9ra4VygXYt2vDzoZfae3ss/tv6jztuTRA8sPrAYgMkdJ1s5ElFXnQI6sXjsYoaGDeW17a8xLX4aZ8vPWjssYWO01szaNgsvZy/ 2NM2J8W7IeIG7u92P8sPLmfFwRV12ladEr1S6kml1H6l1D6l1CKllJtSqq1SaotSKkUptUQpZdN3HZVWlvJ5yucMbzOc1l6trR2OqAc Lj68OfxNpsdN5 djPzNp1SQ T/mc0spSa4cmbMTPx35my4kt/LHnH/F187V2OJf1aM9HGdh6IC9veZm92XtrvZ1aJ3qlVCjwGBCnte4KOAJTgFnAP7XW0UAecF to2sE3xz5hjNlZ2RIpZ2pKow28gM8nT2ZuXEmNy2/ibd3vk12cba1wxNWVG4q5/Xtr9O RXsmdbTtGyMdHRyZNWQWwR7BPBn/ZK1nYKtr140T4K6UcgI8gBPA9cByy sfA7fVcR8NRmvNwqSFRPlG0Sekj7XDEQ0gtmUsy8Yt44ORH9AjuAfz98znphU38Zdf/kJSTpK1wxNWsCBpAcfOHuOZvs/g5OBk7XCuytfNl38O yf5Zfk8ve7pWk1DWOtEr7XOBF4H0jES/BkgAcjXWp LJAMIre0 GtqOrB0cyDvA1JipNnPFXdQ/pRR9Qvrw1vVvsfr21UzuOJkf0n5g0upJ3LPmHn5M/1HG3zcTp0tO8 7udxkWNoyBrQdaO5wa6xTQiZkDZrLt5DbeTHjzmt9fl64bP BWoC3QGvAELjU28ZLDHpRSDyqltiultmdnW dUemHSQrxdvBnbbqxV9i8aX7hPOM/1fY7/Tfwf0 Omc6LwBE/8/ARjvxjLgsQFFJYXWjtE0YD teNflJvLmd5nurVDuWbj2o9jasxUPk78mG PfHtN761L182NwBGtdbbWugL4HBgI Fq6cgDCgOOXerPWer7WOk5rHRcUFFSHMGrnh7Qf DH9R26Puh0PZ49G37 wLh8XH 7ucjdfj/ aN657gyCPIGZtm8WNy29k1tZZZJzNsHaIop7tz9nPytSV/LbTb4nwibB2OLXydNzT9AruxcyNMzmYd7DG76tLok8H iulPJTR73EDkAj8DEywrHM38GUd9lHvtNa8u/tdnox/ki4BXXig2wPWDklYkZODEzdF3sQnN3/CojGLuC7sOhYnL2bMF2N44ucnSDiVIGPx7YDWmllbZ Hn5seD3R 0dji15uzozBvXvYGXsxdP/PxEjd9Xlz76LRgXXXcAey3bmg88C0xTSqUCAcD7td1HfSutLOXZdc/y9q63GdtuLB M sCmh1aJxtU1sCuzhs5izR1ruLfrvWw/tZ171tzD5NWTWXVolZREbsLWHF3DzqydPB77OF4uXtYOp06CPIKYM2wOJ4pO1Pg9yhZaK3FxcXr79u0Nuo s4iwe kxEnMSeSz2Me7rep9cgBVXVFJZwurDq1mQuIDDZw4T6B7IlI5TmNRxEn5uftYOT9RQSWUJ474Yh7 bP4vGLMLRwdHaIdWLZQeXManjpAStddzV1m0WiX7f6X08/tPjnK04y6tDXuX68OsbbF/C/pi1mU3HN/Fp4qdsOL4BV0dXxrYby12d7iLKL8ra4YmreGfXO8zbPY PRn1E75a9rR1OvVJK1SjR2/4g0jpac2QN/7fh/whwC DTmz lo39Ha4ckmhgH5cCg0EEMCh3EofxDLEhawKpDq1iRsoIBrQZwV e7GBw6GAclFUVszYnCE3yw7wNGRY6yuyR/Ley2RW/WZubtmse7e94lNjiWOcPmEOAeUK/7EM1Xfmk y1OWsyhpEVklWUT6RHJXp7sY136cjOKyIc sfYafjv3EqttW0cqrlbXDqXc1bdHbZaIvrijm/zb8H/9L x 3Rd3GC/1fsPqEAsI VZgq D7tez5N/JT9OfvxcfFhQocJTI2ZSohniLXDa9Z2nNrB3Wvu5uEeD9ts4bK6araJ/mTRSf700584mHeQab2n8bvOv5OLrqLBaa3Zlb2LTxM/5cf0H1Eoboq4ifu7308Hvw7WDq/ZMWszU7 eSk5JDl/d9pXdnmU1yz763dm7efynxykzlfHW9W8xNGyotUMSzYRSil7BvegV3IvMwkwWJS1iRcoKvk/7nqkxU3mk5yN4u3hbO8xm48vUL0nMSeTVIa/abZK/FnZz9WjVoVXcu Ze3J3cWTB6gSR5YTWhXqFM7zOdb8d/y/jo8XyW9Bm3rLyF1Ycc29InAAAgAElEQVRXy81XjaCwvJC5O bSM6gno9uOtnY4NqHJJ3qzNvPPhH/y51/ TI/gHiwas4j2vu2tHZYQ Lr5MmPADBaNWUSIRwjPr3 e33/3 2u6dV1cu/l755NTmsOzfZ VbluLJp3oiyqKePynx/lg3wdM7DCRd0e8K3e6CpvTJbALn435jJkDZpKan8qkVZOYvW22FFBrAOkF6SxIXMCt7W la2BXa4djM5psos8szOS33/6W9Znreb7v87zQ/wWcHZytHZYQl SgHJjQYQKrb1vN7dG3syBxAeNWjpPunHr2 vbXcXZw5vHYx60dik1pkol x6kdTF09lZOFJ5l34zzu7HSnnKKJJsHXzZeZA2aycMxCWnq0rOrOSclLsXZoTd6m45v4 djPPND9AYI8Gr8iri1rcon i5QvuO/7 2jh2oLPxnzWpCYPEOKcroFd Wz0Z8wYMIPU/FQmrpoo3Tl1UGmuZPa22YR5hfHbzr 1djg2p8kkepPZxGvbXmPGxhnEtYxjwegFtG3R1tphCVFrjg6OTOww8aLunK8Pfy3dOddAa817e98jNT V6XHTcXV0tXZINqdJJPqz5Wd59KdH STxE 6MuZN3bnyHFq4trB2WEPXiXHfOZ6M/o6VHS55b/xz3fncvqXmp1g7N5hVXFPPc ueYt2seIyJGSMHCy7D5O2OPFRzj0Z8eJb0gnef7PW/zs7YLURcms4nPUz9n7o65FJYX8ptOv EPPf7Q5GuoN4SUvBSeWvsUaQVpPNrzUe7rdl zKyxX0ztjbfq3svXEVqZ M5Wc0hzeHfGuJHlh985156y6bRW3Rd3Gp4mfcsvKW6Q751e OvQVd359JwVlBbw34j0e6P5As0vy18JmfzNLDyzlof89RIBbAItGL6Jvq77WDkmIRuPn5seLA19kwegFBHkESXeORWllKTM3zuQvv/yFbkHdWH7LcskNNWBzXTfnrp4vSl7E4NDBzB46W2qEiGbNZDaxImUFc3fMpbii2OjO6fkHPJ09rR1ao0orSOOp Kc4kHeAB7o9wCM9H8HJwa7KdV2zJlm98kzZGaavnc7mE5u5u/PdPNn7SbuZ9kuIusorzWPujrmsSFlBkHsQ0 Omc3Pbm5vFPSTfH/2eGRtn4OTgxD8G/4MhYUOsHZJNaJREr5TyBf4LdAU0cC9wAFgCRAJHgUla67wrbScuLk4v 3EZf/rpT2QWZjKj/wxuj7691nEJYc/2ZO/h5S0vk5iTSJ QPvy575/tdkrDClMFbyS8wWdJn9E9sDuvX/e6XU4gUluNleg/BtZrrf rlHIBPIA/A7la61eVUs8BflrrZ6 0nZgeMdr/OX clBNvDn T2JaxtY5JiOagOXTnHC88zvS109l7ei93dbqLab2n4ewoZU6qa/BEr5TyAXYD7XS1jSilDgDDtNYnlFKtgHit9RUnavVo66FHvjmSt294m1Cv0FrFI0RzlFuay9wdc/k85XOC3YOZ3mc6oyJHNfnunHUZ6/jzL3/GZDbxt0F/Y0TECGuHZJMaI9H3BOYDiUAPIAF4HMjUWvtWWy9Pa 13pW217NhSH9532K5aI0I0pt3Zu3l588sk5SbRN6Qvz/d9vkl251SaK/n3rn/z373/paNfR YMm0O4T7i1w7JZjZHo44DNwCCt9Ral1FygAPhTTRK9UupB4EGA8PDw3mlpabWKQwhhMJlNLD 4nLk7jZutBoUOYkrHKQwOHdwkBjVkF2fzzLpn2H5qO3dE38FzfZ/DzcnN2mHZtMZI9CHAZq11pOX5EOA5IIpr7Lqp78nBhWjOcktzWZy8mOUHl5Ndkk1rz9ZM7DiR8dHj8Xfzt3Z4l7TlxBaeWfcMJZUlvND/Bca1H2ftkJqExroYux64X2t9QCn1InCu7yWn2sVYf631M1fajiR6IepfhbmCn9N/ZsmBJWw9uRVnB2duiryJKR2n0COoh03045u1mff2vMe83fOI8IlgznVzmmSXk7U0VqLviTG80gU4DPwe427bpUA4kA5M1FrnXmk7kuiFaFiH8g x5MASvjr0FUUVRcT4xzC542RGtx1ttcmz80rzeH7982w4voHRbUczc8BMmcj7GjXJG6aEEA2ruKKY1YdXs TAEg7mHcTL2Ytbo25lUsdJtGvRrtHi2JW1i lrp5NbmstzfZ9jYoeJNnGG0dRIohdCXJbWml3Zu1icvJjv076n0lxJv5B TI6ZzPA2wxustIDWmk8SP HNhDdp6dmSOcPm0Dmgc4PsqzmQRC EqJHTJadZmbqSpQeWcqLoBMHuwUzoOIEJ0RPqdUq gvICZmyYwY/pP3J9m v5 C/4 PiU2/bb44k0QshronJbGJ95noWH1jMhswNOCknrg /nikxU4hrGVenrpXEnESein Kk0UneaL3E/yu8 kq6YeSKIXQtRaekE6Sw8s5YvULygoL6Bdi3ZM7jiZce3HXVM1Wa01yw4uY9bWWfi6 fLGdW/QM7hnA0bevEiiF0LUWWllKWuOrmFJ8hL25ezD3cmdse3GMrnjZDr6X/H2GIorivnrpr/yzZFvGNR6EK8MecVmx/E3VZLohRD1at/pfSw5sIRvj3xLmamM2OBYJneczI0RN Li6HLBuofyDzEtfhpHC47ySI9HZAaoBiKJXgjRIM6UnWFl6kqWHFjCsbPH8Hfz547oO5jYYSKtvFqx6tAq/r7577g7uTN76Gz6tepn7ZDtliR6IUSDMmszm45vYvGBxazLWAdAjH8MiTmJ9G7Zm9lDZxPsEWzlKO1bTRN9856HSwhRaw7KgUGhgxgUOojjhcdZfnA5P6T/wP3d7uePPf/Y7Kf5syXSohdCiCaqpi16uToihBB2ThK9EELYOUn0Qghh5yTRCyGEnZNEL4QQdk4SvRBC2DlJ9EIIYeck0QshhJ2TRC EEHauzoleKeWolNqplFpted5WKbVFKZWilFqilHK52jaEEEI0nPpo0T8OJFV7Pgv4p9Y6GsgD7quHfQghhKilOiV6pVQYMAb4r W5Aq4HlltW Ri4rS77EEIIUTd1bdG/CTwDmC3PA4B8rXWl5XkGEFrHfQghhKiDWid6pdRYIEtrnVB98SVWvWR5TKXUg0qp7Uqp7dnZ2bUNQwghxFXUpWD0IOAWpdRowA3wwWjh yqlnCyt jDg KXerLWeD8wHo0xxHeIQ4pJKyk2k5xaTfbYMN2cHPFyc8HBxxMPVEU8XJ9ydHXFwuFTbRAj7UutEr7V HngeQCk1DJiutf6NUmoZMAFYDNwNfFkPcQpxEa01 cUVpOUWk5ZTRHpOcdXjtJxiss6WXXUb7s6OeLo64u5iJH8PF8eqA4Knq5NluWO1g4ST5bmxzNPVEXdn499z68gBRNiahpgC5llgsVLqJWAn8H4D7EM0E2az5kRB6QWJ3PjXSOZnSysvWL ljysR/p4M7RBEhL8H4QEehPi4UW4yU1Rmori8kuJy49 iMhMlFSaKyoxlRWWVVc9PF5ZdtN618Kh2MDj32NP14gOJx1UOGp4uTni4OlYdQIzxDkJcm3pJ9FrreCDe8vgw0Lc tiuah9IKExl5xaTlGD/p51rlucVk5JZQbjJXrevsqAjz8yDc34PYcD/C/T2ICPAkIsCDNn4euLs4NkiMZrM2DgLllZSUm6oOGkXlJkosB4NzB5GichPFZdVeKzdRUm6isKySrIIyiisqKS4ztlVaYb76zi2UAg9n46yi6uDgUu1sxHJA8HRxIsDLhZ5t/Oge1gI354b5nYimQyZ1FI2iqKySw9lFVS3xc63y9JxiThSUUn1GS08XR8IDPOkQ7M2ITi0JD/AgMsCTcH8PWvu642iFbhEHB4WnqxOervX7J2OyHEDOHRiqDhZllgNKtWUXr2M8PltayamC0gvOUMoqjQOIs6OiS sWxEX40dvyE zjVq fQdg SfSi3mmtycwvISEtr on6UQB5mrJPNDLlYgAD/q3CyA8wIOIAA/C/Y2WeYCnS7PponB0UHi5OuFVzweQ3KLyqt/9jrQ8Pt2cxn9/OQJAG393eoefS/z dAzxtsrBUzQemRxc1FmFyUzi8QK2W5JKQloeJwtKAaOvule4L70j/OncyseS0D3qvWUsrqy80sz 42eqkv/2tDyyLRervVyd6BXuS6wl fcK98XbzdnKEYuaqOnk4JLoxTXLLy6/oLW OyO/qq851Ned3hF xEX6ERvuR0yIN06OUjvP1mitycgrsST9XBLS8jlw0jjrUgo6tvQmLtLS6g/3p42/e7M5y2pKJNGLeqG15vDpIhKO5lUlhUPZRQA4OSi6tPahd4R/Vf9vSAvp/22qzpZWsOtYftUBfGd6PoVlxqimIG/X8909kX50ae2Dq5Nc5LW2miZ6OX8WFyitMLH7WD4J6XkkHM1jR3oeecUVAPh6ONM73I/xsWHERfjRPcy3wUa5iMbn7ebMkOgghkQHAcaF4oOnzlZ1yW1Py2XN/pMAuDg50COsBbERflUHgAAvV2uGL65AWvTN3KmCUqOlfjSPhPQ89meeodJy1bR9kGdVS713hD/tAj3lRqBmLsvyfUlIM74v zLPUGEyvi9tAz2JDfdjYPsAhkQHyuieRiBdN IixeXGEMed6cbFuIS0PDLySgBwdXKgRxtfo389wo9e4X74e8pUAuLKSitM7M08c76xkJZbdQYYE LN0A5BDIkOpE kv4znbwCS6JshrTW5ReXn7x6tNlY9zVLz5Zxgb1fLxTajf71zKx9cnOSiqagbs1mTeKKA9SmnWZ SzfajeZSbzLg6OdC3rT9Do4MY0iGQji295eJuPZBEb6dMZs3x/BLL3aPVErnljtJzF8/OadXCzXL36Pk7SHuE RLmJ6MoRMMrLq9ky5Fc1h3MZn3KaVKzCgGjoTEkOoihHQIZFBVIoPTv14ok iastMLEsapEXky6pRxAek4xx/KKq/pEwbjzsY2fUdMlolo5gIgAD8L8POR0WdiU4/kl/JJymnUp2fySepp8SzdPl9Y RuKPDqR3pJ M6KkhSfQ2Lr 4/MJEXq1g17mbjc7xdnW66O7RcwW7WrWwTkkAIerKZNbsP36G9SmnWXcwm4S0PCrNGndnR/q182dIdBDXdQikfZCXnH1ehiR6G5WWU8TTy/ew9UjuBcuDvV0vTOSWO0gjAjzx83CWL7qwe4VllWw5nFPVzXP4tHG/RqsWbgyJDmRIdBCDogJlkEA1kuhtjNaaz7ak88o3STgqxYND29EhxLsqoXu4yC0NQlR3LLeYX1KNi7q/pJymoLQSpaBbaIuqxB8b7tesBxFIorchJ8 U8uyKPaw9mM3gqEBmT hOa193a4clRJNhMmv2ZORXjebZkZ6PyazxcHFkQLsAhnYI4roOQUQGelo71EYlid4GaK35avdxXli5j3KTmT P7sRd/SLkpiMh6qigtILNh3JYl2J086TlFANGjZ6RXUMY1SWETq3sfwinJHoryy0q5/9W7uWbvSfpFe7LGxN70C7Iy9phCWGX0nKK DEpi /2n2Tb0VzMGsL9PRjVNYSRXVrSq42fXTawJNFb0Y9Jp3h2xV7OlJTzxI0deGhoO6ngKEQjOV1Yxg Jp1iz/yQbUk9TYdIEe7tyU5eWjOrSin7t/HG2k79HSfRWcLa0gr vTmTp9gxiQryZM6knnVv7WDssYS2V5eDgaPwIqygoreDnZKOl/3NyNiUVJlq4O3NDp2BGdQlhaIegJn2vSYMneqVUG ATIAQwA/O11nOVUv7AEiASOApM0lrnXWlb9pDoNx3KYfqy3Zw4U8JD17XniRuj5aaP5ubsKTi2GY5thWNb4Pgu0CbwCADPYPCy/HgGgVfLix97BMhBoQGVVphYn3KaNftO8kPSKc6UVODu7MiwjkGM6hrC8JhgfJrYhCuNkehbAa201juUUt5AAnAbcA Qq7V VSn1HOCntX72Sttqyom tMLE7DUH GDDESIDPHhjUg96R/hbOyzR0MwmyEo0EvqxrZC GfLTjNccXSE0FsL6gJMrFGZBUTYUnoLCbCjKgsrSi7epHMAjsNoBIRi8LAeCXz/28JeDQh1UmMxsOZzLd/tP8t3 k2SdLcPZUTEoKpCRXUIY0bllkyjL0OhdN0qpL4G3LT/DtNYnLAeDeK11xyu9t6km t3H8pm2dBeHsov43YAInrs5RsbD26vSAsjcfj6pZ2yH8rPGa57BEN4P2vSDNv2hVXcjwV O1lBWcD7pVz8AXPDY8mMqu3gbysE4G7jcmYJ/e NgY ejTuqD2azZeSyf7/afZM2 k6TnFuOgIC7Sn1FdQhjZNYRQGx0O3aiJXikVCawDugLpWmvfaq/laa39LvGeB4EHAcLDw3unpaXVOY7GUmEy89aPKfw7/hBBXq68NrF71WQNwg5obbTOzyX1Y1shaz9oM6CgZRdo09dI6m36gl9kwyXUqoOCJelXPwBc8NhyxmAqP//eoE7Q5z7oPhnc5FpRTWitST55ljX7jJZ 8knjYN4ttIVlBE8IUcG2M3qu0RK9UsoLWAu8rLX XCmVX5NEX11TatEfPHWWaUt3sS zgPG9Qpl5SxdauDetfj3xK5XlcHKPJalbumIKjZmUcPGCsLjzST0sDtxaWDfey9EaSs8YST99M2x/H47vBGdP6D4R4u4zzjZEjR09XWS09PefZGd6PgBRwV6MtIzg6RrqY9Wx o2S6JVSzsBq4Dut9RzLsgPYYdeNyax5/5fDvP79QbxcnXjl9q6M6trK2mGJ2ijKgYxqrfXjO873mfuGn0/q4f0huHPT7gvP3GEk/L0roLLEuG4Qdx90uR2cZQaoa3HyTCnfJxot/c2HczGZNaG 7ozsEsItPVvTI6xFoyf9xrgYq4CPMS68PlFt WtATrWLsf5a62eutC1bT/TpOcVMX7abrUdzGdG5Ja/c3o0gb9u/UCMwWrmnD55P6sc2Q06q8ZqDM7TqYfSth/eDsL7gY6cH75I82LUItn8AOSng7ge97oLev4eA9taOrsnJKyrnh6RTfLf/JOtSTlNeaaZdkCfje4VyW69Qwvw8GiWOxkj0g4H1wF6M4ZUAfwa2AEuBcCAdmKi1zr3kRixsNdFrrVm09RgvfZ2Io1LMvKULd8SG2v1t1U2e2Wy02JNWQdJXkJ9uLHf3P5/U2/SD1r3A2TYvsjUYreHIOqOVn/w1mCuh/fVGK7/DKHCUwQTXqqC0gm/3nmDFjsyqqrT92vpzR2wYN3cLwbsBh2zKDVN1dKrAKEQWfyCbQVEBzJ7Qw2avvAuMfvaj643knvy1caHS0QXaDYOOoyFyMAREySiU6s6ehB2fQMJHUJAJPqEQezfE/s5 z2wa2LHcYlbuzOSLnZkcPl2Eq5MDN3UJYXyvUIZEB9b7HfKS6OvgXCGyskoTz42K4XcDIu2yTkaTV14Mh34ykvvBb40Lkc6eED0COo2D6JtktElNmCrh4BqjlX/oJ3BwgpgxRiu/7VA5ONaC1ppdx/L5YmcmX 0 Tn5xBYFertzSozXjY0Pp0rp LuJKoq FvKJy/u/LfXy95wQ92/gyZ5IUIrM5JfmQ8r3RJZPyg3GB0d3PaLXHjIX2w5tfd0x9yjkECR/CzgVGv35ANMTdCz2nGr9ncc3KK83EH8jii52Z/JiURbnJTIeWXtzeK4zberWmVYvaf18l0V jn5OzeGbFHvKLpRCZzSnMMrpjklYZ/cvmCvBuZbQ6O42DiEHgKENc61VFKSSuhG3vG9c7nNyh2x1GKz801trRNVn5xeV8vfcEn /IJCEtD6VgYPsAxvcKY1TXEDxdr 0aiST6Giosq Sl1Yks3naMji29mTO5B11a2 g46eYkLw2SV0PSakjfBGjwa2sk9k63QGhvcJADcaM4scfo1tmzDCqKjIvYcfdB1zvApXFGl9ijo6eL MLSn5 eW4y7syOjuoZwe69QBkUF1mguaEn0V2E2azYdzuHZFXs4nl/Cg0Pb8 QIKURmVdkHjC6ZpFVwYrexrGVXI7nHjDXuSJX YuspPQN7lhqt/Owk48axHncaXTtBHawdXZOltSYhLY/Pd2ayevdxCkoraenjyq09Q7m9VyidWl3 OpMk l8pKTexOyOfhLQ8EtLy2JGeR35xBREBHsyRQmTWobVx52bSKuMnJ8VYHtYXOo01kruM8bY9WkPaRqOVn/iV0ZUWOQT63G90p0k3Wq2VVpj4OTmLFTsyiT QRaVZ06mVD N7hXJrz9YE 1x4k1uzT/Qnz5SSkJbH9rRcdqTlsf94AZVm47NGBXvRO9yP3pF jO3eSgqRNSazyeiKSVpldMsUZIByNIY/dhpnJAqf1taOUtRUYRbs/BS2fwRn0sErxEj4fe4zKmyKWsspLGP1nhN8vjOT3cfycVAwODqIO2JDualzCO4ujs0r0VeazCSfPFvVWk9IyyMzvwQAN2cHeoT50jvCj7hIP3q18cPP06W Qhc1YTbDkbWw/3NI/gaKTxulfKNuMJJ7h1GSFJo6swlSf4Ct70Hq/8DZA3r9FgY8YhR9E3WSmlVYNT4/M78ETxdHbu7Wijcm9bTfRF9QWsHO9HwSjuaSkJ7HrvR8ispNALT0cSUuwp/eEX70jvCjc2sfu5k2rMkpzoVdnxm33eceBhdv6DDS6JaJGgGuMnTVLp1KhE1vG/352gSdb4WBj8lonXpgNmu2Hs3l8x0ZfLP3JPv/Nso Er3WmvTcYrYfzSMhPY Eo3kczDqL1uCgoFMrH Ii/Ii1JPZQX3cpUWBNWhu12re/D/s N2qpt lvnMp3ukUKaTUnBcdhy39g 4dGqeXIIUbCj7pRRkzVg5JyEx6uTk0z0ZdVmtiXecboXz9qXDQ9XWjU2PZ2daJXhB9xlqTes43vNY87FQ2kvAj2LjNGZJzcY5T37T7ZGJER0tXa0QlrKi0wSi1snmeUWgiKgYF/gm4TrzxBi7iqJtVH36FLD/371xazPS2PvRlnKDcZNdIiAjyqumDiIvyJDvaSUgS2JivZaL3vXmy02lp2NZJ790ng6m3t6IQtMVUYZ3kb/wWn9hkXbvs/bFTQdPe9 vvFRZpUondtFa0j7v0XXUN9iIv0JzbcSO5SCthGVZYb4923fwBpG4ziYZ1vM7pn2vSTse7iyrQ2aups/BccjjfO/nrfA/0eBt821o6uSWlSib5z9556R0ICbs5ys5JNy083Kh3u MSYxcg3wmi997oLPAOtHZ1oik7sgY1vwb4VRgOhy3ijW0dmwqqRJpXobaHWjbgMswlSfzS6Zw5 Z/wxdhhl3ALf/nq5qCbqR/4x2PwO7PgYyguN8tIDHzO Y3KGeFmS6EXdFGYbN8IkfGi05D2DjTrlve R02vRcEryje/c5v8Y8/a27Ga08LuOlztuL0ESvbh2Wp fVDrxSzCVG0Pi4u41yhE4yY1mopFUlhmjuDa BdnJxqQo/f9gTIwicwxUkUQvaq60APYsMS6uZiWCawuj/njcvRB0xXndhWhYZrNxp 2Gf0HaL8Z3M 4e6PcHmQULSfSiJk7uNca9711m9Iu26mHUKel6B7h4Wjs6IS6UmWC08BO/NOojdZ9kdOsEd7J2ZFZT00TfYHcbKaVGAXMBR C/WutXG2pf4hpUlBp/KNvfh2NbwMnNSOznJpSQC1/CVoX2hokfQe4R4 arnQuMEhtRI2DQY0Y3o3x/L6lBWvRKKUfgIDACyAC2AVO11omXWl9a9A2ossyo7Z6 2UjsaRssU8RFGV0zPaZKQTHRNBXnGmekW981hvsGREPEQAjvb9zP4d/O7hO/tVv0fYFUrfVhSzCLgVuBSyZ6UY8Ks42EfmwLHNtq1Hs3lRmv beDDjdDj8nQ9jq7/yMQds7DH657GgY atyZnfw17F9pDNEE8Ag0En54P PfVj2bba2lhkr0ocCxas8zgH7VV1BKPQg8CBAeHt5AYdg5s9kYkXAuqR/bbFSJBONu1da9oN9Dxpe8TV/wCrZuvEI0BGd3iPu98WM2w kDljNYy9/Ega N9RxdjGTfpu/5Vn8z ZtoqER/qabiBX1EWuv5wHwwum4aKA77UlZoXJCqarFvg7IzxmueQcYXt/fvjX9b95SCUaL5cXAwLs4GdzISPxhnuRlbzyf/rfONMspgzENcvdUfFAMO9neHfkMl gyg l01YcDxBtqXfdIazmRUS pb4OQ o743yvgidx1//kvq11a6YoS4FK8gY aymDHG819ftzr0I xZbLzm6gNhfc7/XYX2tovifA2V6LcB0UqptkAmMAW4s4H2ZR9MFcZwx3NJPX0LnLUcG509ISwOhjxl fLFSbU/IWrLydXovmnT13iuNeQdMVr751r98f8ANCgHY1L6Nv3PJ/8WbZpco6pBEr3WulIp9SjwHcbwyg 01vsbYl9NVnEuZGw7n9QzE6DSmP6QFuHG6IFzX6zgLuAodfeFaBBKGQMV/NtBjynGspJ8yNxu/G0e2wK7FsK294zXvFtZrntZ/j5Dutt8eQa5YaqxVJQYk2If gkO/WzU4wZwcDK KOe NGF9oUWodWMVQlzIVAlZ y9s9Z9JN15z9oCON0P3KUYRtkZslMmdsdamtVFO4NBPxk/aRqgsNa78hw AtkONK/ tY8HFw9rRCiGuVcFxo7V/ZB3s/8K4P8UzGLpNMM4MQro3eBePJHprKMw2JlI4l9wLTxrLg2KMI337G4wuGUnsQtiXynJI d64qHtgDZgrIKiTkfC7TwKf1g2yW0n0jaGyzDiNO5fYT 4xlrv7Q/vhRnJvN1y6YoRoTopzjRb niVGix9lnMH3mAqdxoGrV73tShJ9Q9Aasg9U647ZABXFRj97m/5Gco 6AUJ6yIQcQgjIOQR7lsLuRZCfZvTndxoH3Scbk6vUccy JPr6UpQDR LPX0QtyDSWB0RbujeMg7UAAAhPSURBVGOuh8hBdjHWVgjRQLQ2Wve7Fxmt/dIzxuidbhOMln7LLrXarCT62qosN 6iO9dqP74L0ODmaxyB219vtNx9pWyDEKIWKkrh4BqjayflezBXGjNp9ZgM3SaCd0iNNyWJvqa0hpzU84n9yHqoKDLqXbfpe77V3rqXXd4aLYSwoqLTsO9z4yJuZoJxg1a74UYrP2bMVQduSKI/R2soKzBGxBRlQeGp84/PZMLRX86Ph/VvV607ZjC4tWiYmIQQ4teyDxqt/D1L4MwxcPGCzrca/fmRQy553c E73WUHbWqEFdeAoKsy7z2JLQK0sv3oZyMAqBhfU5n9z929bfhxJCiNowmyF9o6U//0soP2vMmdt9knFTVnBM1apNL9Fv22ZMZ1eYZUnWWVd fLnk7RFolB71DAKvlkZBI8/gix97 EtXjBDCtlWUwIFvjHr7qT8aRQ1b9TTG53edgPIObkKJvo2H3v6Qz/laLxdQ4BloSdCW5O0ZZCTzqsctjeceAZK8hRD2qTAL9i43 vNP7AbliHoxz7pzxl4TF0/oc5 lJV49oVuStxT0EkI0d17BMOAR4ycryWjl87cavdU2WvS2NLxSCCGaiJr20cvtm0IIYeck0QshhJ2TRC EEHZOEr0QQtg5SfRCCGHnJNELIYSdk0QvhBB2ThK9EELYOZu4YUopdRY4YO04GlkgcNraQTQy czNg3zmxhOhtQ662kq2UlvgQE3u7rInSqnt8pntn3zm5sHWP7N03QghhJ2TRC EEHbOVhL9fGsHYAXymZsH czNg01/Zpu4GCuEEKLh2EqLXgghRAOpVaJXSrVRSv2slEpSSu1XSj1uWe6vlPqfUirF8q fZXmMUmqTUqpMKTX9V9t60rKNfUqpRUopt8vs827LdlOUUndXW/6yUuqYUqqwNp liX7mNUqp3ZZt/Ecp1SDTatnYZ45XSh1QSu2y/ATb82dWSnlX 6y7lFKnlVJv2vNntiyfrJTaY9nG7Ib4vFb8zGuUUvlKqdW/Wv6oUipVKaWVUoEN8oG11tf8A7QCYi2PvYGDQGdgNvCcZflzwCzL42CgD/AyML3adkKBI4C75flS4J5L7M8fOGz518/y2M/yWn9LPIW1 SxN9DP7WP5VwApgSjP4zPFAXEP H9vaZ/7VegnAUHv zEAAkA4EWdb7GLjBHj6z5bUbgHHA6l8t7wVEAkeBwIb4vLVq0WutT2itd1genwWSLB/4Vst/zrn/pNss62RprbcBFZfYnNP/t3d3IVKVcRzHv3/aEnUhrYvNXsDeYKG3vdJeDMrEDQkRIsgsoi6CvJCug2C7i4oguuhmKyi2EERqQ8Jsu8gELULRrcxEpSyp1V4UKsn238X/mTrp7LgzOzPn6fj7wLA7Z87bT8b/Oc8553kWmG1mPcAc4Ps68wwCW9z9J3f/GdgC3J3Wvd3dj7SSoxmZZT5eWM8FQEdutOSUuVtyzGxm1xKFZusM49WVUeargH3uPpHm wC4tw0Rz1BCZtx9DDhRZ/pOdz80o0BnMeNr9Ga2kDgi7QD6akU3/WzYvHb374DniaP4EeBXd3 /zqyXAd8W3h9O00qRQ2Yz2wz8SHxxNrQYZdpyyAy8li5jPGVm1mKUacskM8BqYL2n079OKjnzfqDfzBamorkKuGImeaajS5lLNaNCb2a9xKWDJwpnmc0sP584gl4JXArMNbMH681aZ1opjwvlktndB4nm5yxgabP70YxMMq9x9xuA29ProWb3oxmZZK65H3ir2X1oVtmZ09n948B6ovVyCDjV7H40o4uZS9VyoTez84l/oBF335gm/2BmC9LnC4gzzkaWAQfdfcLd/wQ2Area2eLCTaiVxBG/eGS/nCmaR52UW2Z3/wMYJb5oHZFL5nTmVGtmvwksak/CM WSOW3rJqDH3T9rS7gp5JLZ3d9198Xufgsx/tXX7cp4ui5nLlWrT90Y8Arwpbu/UPhoFKjdQX8YeOcsq/oGuNnM5qR13pXWucPdB9JrFNgMLDez ekIujxN65pcMptZb GL2AOsAPa2K2dRRpl7ak8jpP c9wDj7cpZlEvmwnpW0 Gz ZwyW3qaKk1fCwy3J V/lZC5XN7aHeslRPNyN7ArvVYQd83HiKPwGHBRmv8S4ih HPgl/V57cuRpolCNA28As6bY5qPENbz9wCOF6c m9U2mn0OtZPq/ZAb6gE/TfnwOvESc8VU581ziqZNa5heB86qcufDZAaC/E1lzzEwc1L5Ir448TVZi5q3ABPB7Wn4wTV X3p8iWjbD7c6rnrEiIhWnnrEiIhWnQi8iUnEq9CIiFadCLyJScSr0IiIVp0Iv0gIzm2dmawvv77DTRiUUyYUKvUhr5hEdekSyp0IvlZcGydprZsMWY4aPmNkyM9tmMe74IotxyN 2GAt9u5ndmJYdMrNXLcbDP2Bm69JqnwGuTl3cn0vTes1sQ9rWSOopKVK6nrJ3QKRLrgHuAx4jehY/QPSOXAk8SYymuNPdV5nZUuB1YCAt2w/cSYxb/pWZvUyMVX69uw9AXLohRkC8jujduA24Dfi4G FEGtEZvZwrDrr7HnefJIZRGPPoFr6H KMPS4ju67j7h8DFZnZhWnaTu59096PEIFd9U2zjE3c/nLaxK61XpHQq9HKuOFn4fbLwfpJo2TYaLri47F9M3RKe7nwiXaVCLxI AtbAP5dhjnrj8clPEJdyRLKnMw6RMET8BavdwG/8O1RtXe5 LN3MHQfeAzZ1fhdFWqPRK0VEKk6XbkREKk6FXkSk4lToRUQqToVeRKTiVOhFRCpOhV5EpOJU6EVEKk6FXkSk4v4GsPIi oY43AcAAAAASUVORK5CYII )]
十六、Pandas的分层索引MultiIndex
为什么要学习分层索引MultiIndex
分层索引 在一个轴向上拥有多个索引层级 可以表达更高维度数据的形式
可以更方便的进行数据筛选 如果有序则性能更好
groupby等操作的结果 如果是多KEY 结果是分层索引 需要会使用
一般不需要自己创建分层索引(MultiIndex有构造函数但一般不用)
演示数据 百度、阿里巴巴、爱奇艺、京东四家公司的10天股票数据
数据来自 英为财经
https://cn.investing/
本次演示提纲
一、Series的分层索引MultiIndex
二、Series有多层索引怎样筛选数据
三、DataFrame的多层索引MultiIndex
四、DataFrame有多层索引怎样筛选数据
In [7]:
import pandas as pd
%matplotlib inline
In [8]:
fpath ./pandas-learn-code/datas/stocks/互联网公司股票.xlsx
stocks pd.read_excel(fpath)
In [10]:
stocks.shape
Out[10]:
(12, 8)
In [5]:
stocks.head()
Out[5]:
日期
公司
收盘
开盘
高
低
交易量
涨跌幅
0
2019-10-03
BIDU
104.32
102.35
104.73
101.15
2.24
0.02
1
2019-10-02
BIDU
102.62
100.85
103.24
99.50
2.69
0.01
2
2019-10-01
BIDU
102.00
102.80
103.26
101.00
1.78
-0.01
3
2019-10-03
BABA
169.48
166.65
170.18
165.00
10.39
0.02
4
2019-10-02
BABA
165.77
162.82
166.88
161.90
11.60
0.00
In [12]:
stocks[ 公司 ].unique()
Out[12]:
array([ BIDU , BABA , IQ , JD ], dtype object)
In [14]:
# 按公司分组查询收盘价的平均值
stocks.groupby( 公司 )[ 收盘 ].mean()
Out[14]:
公司
BABA 166.80
BIDU 102.98
IQ 15.90
JD 28.35
Name: 收盘, dtype: float64
1、Series的分层索引MultiIndex
In [16]:
# ser是Series,有两列索引
ser stocks.groupby([ 公司 , 日期 ])[ 收盘 ].mean()
ser
Out[16]:
公司 日期
BABA 2019-10-01 165.15
2019-10-02 165.77
2019-10-03 169.48
BIDU 2019-10-01 102.00
2019-10-02 102.62
2019-10-03 104.32
IQ 2019-10-01 15.92
2019-10-02 15.72
2019-10-03 16.06
JD 2019-10-01 28.19
2019-10-02 28.06
2019-10-03 28.80
Name: 收盘, dtype: float64
多维索引中 空白的意思是 使用上面的值
In [20]:
ser.index
Out[20]:
MultiIndex(levels [[ BABA , BIDU , IQ , JD ], [ 2019-10-01 , 2019-10-02 , 2019-10-03 ]],
codes [[0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]],
names [ 公司 , 日期 ])
In [21]:
# unstack把二级索引变成列
# 公司继续作为索引 但日期变为columns
ser.unstack()
Out[21]:
日期
2019-10-01
2019-10-02
2019-10-03
公司
BABA
165.15
165.77
169.48
BIDU
102.00
102.62
104.32
IQ
15.92
15.72
16.06
JD
28.19
28.06
28.80
In [22]:
ser
Out[22]:
公司 日期
BABA 2019-10-01 165.15
2019-10-02 165.77
2019-10-03 169.48
BIDU 2019-10-01 102.00
2019-10-02 102.62
2019-10-03 104.32
IQ 2019-10-01 15.92
2019-10-02 15.72
2019-10-03 16.06
JD 2019-10-01 28.19
2019-10-02 28.06
2019-10-03 28.80
Name: 收盘, dtype: float64
In [24]:
# 将两层索引(公司 日期)都变成了columns
ser.reset_index()
Out[24]:
公司
日期
收盘
0
BABA
2019-10-01
165.15
1
BABA
2019-10-02
165.77
2
BABA
2019-10-03
169.48
3
BIDU
2019-10-01
102.00
4
BIDU
2019-10-02
102.62
5
BIDU
2019-10-03
104.32
6
IQ
2019-10-01
15.92
7
IQ
2019-10-02
15.72
8
IQ
2019-10-03
16.06
9
JD
2019-10-01
28.19
10
JD
2019-10-02
28.06
11
JD
2019-10-03
28.80
2、Series有多层索引MultiIndex怎么筛选数据
In [25]:
ser
Out[25]:
公司 日期
BABA 2019-10-01 165.15
2019-10-02 165.77
2019-10-03 169.48
BIDU 2019-10-01 102.00
2019-10-02 102.62
2019-10-03 104.32
IQ 2019-10-01 15.92
2019-10-02 15.72
2019-10-03 16.06
JD 2019-10-01 28.19
2019-10-02 28.06
2019-10-03 28.80
Name: 收盘, dtype: float64
In [27]:
ser.loc[ BIDU ]
Out[27]:
日期
2019-10-01 102.00
2019-10-02 102.62
2019-10-03 104.32
Name: 收盘, dtype: float64
In [ ]:
# 多层索引 可以用元组的形式筛选
In [28]:
ser.loc[( BIDU , 2019-10-02 )]
Out[28]:
102.62
In [29]:
ser.loc[:, 2019-10-02 ]
Out[29]:
公司
BABA 165.77
BIDU 102.62
IQ 15.72
JD 28.06
Name: 收盘, dtype: float64
3、DataFrame的多层索引MultiIndex
In [30]:
stocks.head()
Out[30]:
日期
公司
收盘
开盘
高
低
交易量
涨跌幅
0
2019-10-03
BIDU
104.32
102.35
104.73
101.15
2.24
0.02
1
2019-10-02
BIDU
102.62
100.85
103.24
99.50
2.69
0.01
2
2019-10-01
BIDU
102.00
102.80
103.26
101.00
1.78
-0.01
3
2019-10-03
BABA
169.48
166.65
170.18
165.00
10.39
0.02
4
2019-10-02
BABA
165.77
162.82
166.88
161.90
11.60
0.00
In [40]:
stocks.set_index([ 公司 , 日期 ], inplace True)
. . .
In [41]:
stocks.head()
Out[41]:
收盘
开盘
高
低
交易量
涨跌幅
公司
日期
BIDU
2019-10-03
104.32
102.35
104.73
101.15
2.24
0.02
2019-10-02
102.62
100.85
103.24
99.50
2.69
0.01
2019-10-01
102.00
102.80
103.26
101.00
1.78
-0.01
BABA
2019-10-03
169.48
166.65
170.18
165.00
10.39
0.02
2019-10-02
165.77
162.82
166.88
161.90
11.60
0.00
In [42]:
stocks.index
Out[42]:
MultiIndex(levels [[ BABA , BIDU , IQ , JD ], [ 2019-10-01 , 2019-10-02 , 2019-10-03 ]],
codes [[1, 1, 1, 0, 0, 0, 2, 2, 2, 3, 3, 3], [2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1, 0]],
names [ 公司 , 日期 ])
In [43]:
stocks.sort_index(inplace True)
In [44]:
stocks
Out[44]:
收盘
开盘
高
低
交易量
涨跌幅
公司
日期
BABA
2019-10-01
165.15
168.01
168.23
163.64
14.19
-0.01
2019-10-02
165.77
162.82
166.88
161.90
11.60
0.00
2019-10-03
169.48
166.65
170.18
165.00
10.39
0.02
BIDU
2019-10-01
102.00
102.80
103.26
101.00
1.78
-0.01
2019-10-02
102.62
100.85
103.24
99.50
2.69
0.01
2019-10-03
104.32
102.35
104.73
101.15
2.24
0.02
IQ
2019-10-01
15.92
16.14
16.22
15.50
11.65
-0.01
2019-10-02
15.72
15.85
15.87
15.12
8.10
-0.01
2019-10-03
16.06
15.71
16.38
15.32
10.08
0.02
JD
2019-10-01
28.19
28.22
28.57
27.97
10.64
0.00
2019-10-02
28.06
28.00
28.22
27.53
9.53
0.00
2019-10-03
28.80
28.11
28.97
27.82
8.77
0.03
4、DataFrame有多层索引MultiIndex怎样筛选
【*重要知识*】在选择数据时
元组(key1,key2)代表筛选多层索引 其中key1是索引第一级 key2是第二级 比如key1 JD, key2 2019-10-02
列表[key1,key2]代表同一层的多个KEY 其中key1和key2是并列的同级索引 比如key1 JD, key2 BIDU
In [45]:
stocks.loc[ BIDU ]
Out[45]:
收盘
开盘
高
低
交易量
涨跌幅
日期
2019-10-01
102.00
102.80
103.26
101.00
1.78
-0.01
2019-10-02
102.62
100.85
103.24
99.50
2.69
0.01
2019-10-03
104.32
102.35
104.73
101.15
2.24
0.02
In [46]:
# BIDU, 2019-10-02当天所有的相关数据
stocks.loc[( BIDU , 2019-10-02 ), :]
Out[46]:
收盘 102.62
开盘 100.85
高 103.24
低 99.50
交易量 2.69
涨跌幅 0.01
Name: (BIDU, 2019-10-02), dtype: float64
In [48]:
# 逻辑关系为BIDU的2019-10-02的开盘数据
stocks.loc[( BIDU , 2019-10-02 ), 开盘 ]
Out[48]:
100.85
In [50]:
# 并列筛选 BIDU和JD为同级关系
stocks.loc[[ BIDU , JD ], :]
Out[50]:
收盘
开盘
高
低
交易量
涨跌幅
公司
日期
BIDU
2019-10-01
102.00
102.80
103.26
101.00
1.78
-0.01
2019-10-02
102.62
100.85
103.24
99.50
2.69
0.01
2019-10-03
104.32
102.35
104.73
101.15
2.24
0.02
JD
2019-10-01
28.19
28.22
28.57
27.97
10.64
0.00
2019-10-02
28.06
28.00
28.22
27.53
9.53
0.00
2019-10-03
28.80
28.11
28.97
27.82
8.77
0.03
In [51]:
stocks.loc[([ BIDU , JD ], 2019-10-03 ), :]
Out[51]:
收盘
开盘
高
低
交易量
涨跌幅
公司
日期
BIDU
2019-10-03
104.32
102.35
104.73
101.15
2.24
0.02
JD
2019-10-03
28.80
28.11
28.97
27.82
8.77
0.03
In [52]:
stocks.loc[([ BIDU , JD ], 2019-10-03 ), 收盘 ]
Out[52]:
公司 日期
BIDU 2019-10-03 104.32
JD 2019-10-03 28.80
Name: 收盘, dtype: float64
In [54]:
stocks.loc[( BIDU ,[ 2019-10-02 , 2019-10-03 ]), 收盘 ]
Out[54]:
公司 日期
BIDU 2019-10-02 102.62
2019-10-03 104.32
Name: 收盘, dtype: float64
In [55]:
# slice(None)代表筛选这一索引的所有内容
stocks.loc[(slice(None), [ 2019-10-02 , 2019-10-03 ]),:]
Out[55]:
收盘
开盘
高
低
交易量
涨跌幅
公司
日期
BABA
2019-10-02
165.77
162.82
166.88
161.90
11.60
0.00
2019-10-03
169.48
166.65
170.18
165.00
10.39
0.02
BIDU
2019-10-02
102.62
100.85
103.24
99.50
2.69
0.01
2019-10-03
104.32
102.35
104.73
101.15
2.24
0.02
IQ
2019-10-02
15.72
15.85
15.87
15.12
8.10
-0.01
2019-10-03
16.06
15.71
16.38
15.32
10.08
0.02
JD
2019-10-02
28.06
28.00
28.22
27.53
9.53
0.00
2019-10-03
28.80
28.11
28.97
27.82
8.77
0.03
In [56]:
# 将多层索引恢复成列
stocks.reset_index()
Out[56]:
公司
日期
收盘
开盘
高
低
交易量
涨跌幅
0
BABA
2019-10-01
165.15
168.01
168.23
163.64
14.19
-0.01
1
BABA
2019-10-02
165.77
162.82
166.88
161.90
11.60
0.00
2
BABA
2019-10-03
169.48
166.65
170.18
165.00
10.39
0.02
3
BIDU
2019-10-01
102.00
102.80
103.26
101.00
1.78
-0.01
4
BIDU
2019-10-02
102.62
100.85
103.24
99.50
2.69
0.01
5
BIDU
2019-10-03
104.32
102.35
104.73
101.15
2.24
0.02
6
IQ
2019-10-01
15.92
16.14
16.22
15.50
11.65
-0.01
7
IQ
2019-10-02
15.72
15.85
15.87
15.12
8.10
-0.01
8
IQ
2019-10-03
16.06
15.71
16.38
15.32
10.08
0.02
9
JD
2019-10-01
28.19
28.22
28.57
27.97
10.64
0.00
10
JD
2019-10-02
28.06
28.00
28.22
27.53
9.53
0.00
11
JD
2019-10-03
28.80
28.11
28.97
27.82
8.77
0.03
十七、Pandas的数据转换函数map、apply、applymap
数据转换函数对比 map、apply、applymap
map 只用于Series 实现每个值- 值的映射
apply 用于Series实现每个值的处理 用于Dataframe实现某个轴的Series的处理
applymap 只能用于DataFrame 用于处理该DataFrame的每个元素
1. map用于Series值的转换
实例 将股票代码英文转换成中文名字
Series.map(dict) or Series.map(function)均可
In [2]:
import pandas as pd
stocks pd.read_excel(r D:\WinterIsComing\python\New_Wave\pandas_basic\pandas-learn-code\datas\stocks\互联网公司股票.xlsx )
In [3]:
stocks.head()
Out[3]:
日期
公司
收盘
开盘
高
低
交易量
涨跌幅
0
2019-10-03
BIDU
104.32
102.35
104.73
101.15
2.24
0.02
1
2019-10-02
BIDU
102.62
100.85
103.24
99.50
2.69
0.01
2
2019-10-01
BIDU
102.00
102.80
103.26
101.00
1.78
-0.01
3
2019-10-03
BABA
169.48
166.65
170.18
165.00
10.39
0.02
4
2019-10-02
BABA
165.77
162.82
166.88
161.90
11.60
0.00
In [7]:
stocks[ 公司 ].unique()
Out[7]:
array([ BIDU , BABA , IQ , JD ], dtype object)
In [8]:
# 公司股票代码到中文的映射 注意这里是小写
dict_company_names {
bidu : 百度 ,
baba : 阿里巴巴 ,
iq : 爱奇艺 ,
jd : 京东
}
方法1 Series.map(dict)
In [9]:
stocks[ 中文公司1 ] stocks[ 公司 ].str.lower().map(dict_company_names)
In [10]:
stocks
Out[10]:
日期
公司
收盘
开盘
高
低
交易量
涨跌幅
中文公司1
0
2019-10-03
BIDU
104.32
102.35
104.73
101.15
2.24
0.02
百度
1
2019-10-02
BIDU
102.62
100.85
103.24
99.50
2.69
0.01
百度
2
2019-10-01
BIDU
102.00
102.80
103.26
101.00
1.78
-0.01
百度
3
2019-10-03
BABA
169.48
166.65
170.18
165.00
10.39
0.02
阿里巴巴
4
2019-10-02
BABA
165.77
162.82
166.88
161.90
11.60
0.00
阿里巴巴
5
2019-10-01
BABA
165.15
168.01
168.23
163.64
14.19
-0.01
阿里巴巴
6
2019-10-03
IQ
16.06
15.71
16.38
15.32
10.08
0.02
爱奇艺
7
2019-10-02
IQ
15.72
15.85
15.87
15.12
8.10
-0.01
爱奇艺
8
2019-10-01
IQ
15.92
16.14
16.22
15.50
11.65
-0.01
爱奇艺
9
2019-10-03
JD
28.80
28.11
28.97
27.82
8.77
0.03
京东
10
2019-10-02
JD
28.06
28.00
28.22
27.53
9.53
0.00
京东
11
2019-10-01
JD
28.19
28.22
28.57
27.97
10.64
0.00
京东
方法2 Series.map(function)
function的参数是Series的每个元素的值
In [13]:
# lambda x中的x代表Series的每个值(即stocks[ 公司 ]中的每个值)
stocks[ 公司中文2 ] stocks[ 公司 ].map(lambda x : dict_company_names[x.lower()])
In [12]:
stocks.head()
Out[12]:
日期
公司
收盘
开盘
高
低
交易量
涨跌幅
中文公司1
公司中文2
0
2019-10-03
BIDU
104.32
102.35
104.73
101.15
2.24
0.02
百度
百度
1
2019-10-02
BIDU
102.62
100.85
103.24
99.50
2.69
0.01
百度
百度
2
2019-10-01
BIDU
102.00
102.80
103.26
101.00
1.78
-0.01
百度
百度
3
2019-10-03
BABA
169.48
166.65
170.18
165.00
10.39
0.02
阿里巴巴
阿里巴巴
4
2019-10-02
BABA
165.77
162.82
166.88
161.90
11.60
0.00
阿里巴巴
阿里巴巴
2. apply用于Series和DataFrame的转换
Series.apply(function), 函数的参数是每个值
DataFrame.apply(function), 函数的参数是Series
Series.apply(function)
function的参数是Series的每个值
In [14]:
stocks[ 中文公司3 ] stocks[ 公司 ].apply(lambda x : dict_company_names[x.lower()])
In [16]:
stocks.head()
Out[16]:
日期
公司
收盘
开盘
高
低
交易量
涨跌幅
中文公司1
公司中文2
中文公司3
0
2019-10-03
BIDU
104.32
102.35
104.73
101.15
2.24
0.02
百度
百度
百度
1
2019-10-02
BIDU
102.62
100.85
103.24
99.50
2.69
0.01
百度
百度
百度
2
2019-10-01
BIDU
102.00
102.80
103.26
101.00
1.78
-0.01
百度
百度
百度
3
2019-10-03
BABA
169.48
166.65
170.18
165.00
10.39
0.02
阿里巴巴
阿里巴巴
阿里巴巴
4
2019-10-02
BABA
165.77
162.82
166.88
161.90
11.60
0.00
阿里巴巴
阿里巴巴
阿里巴巴
DataFrame.apply(function)
function的参数是对应轴的Series
In [18]:
stocks[ 中文公司4 ] stocks.apply(lambda x: dict_company_names[x[ 公司 ].lower()], axis 1)
In [19]:
stocks[ 公司 ]
Out[19]:
0 BIDU
1 BIDU
2 BIDU
3 BABA
4 BABA
5 BABA
6 IQ
7 IQ
8 IQ
9 JD
10 JD
11 JD
Name: 公司, dtype: object
注意这个代码
1、apply是在stocks这个DataFrame上调用
2、lambda x的x是一个Series 因为指定了axis 1所以Seires的key是列名 可以用x[‘公司’]获取
In [20]:
stocks.head()
Out[20]:
日期
公司
收盘
开盘
高
低
交易量
涨跌幅
中文公司1
公司中文2
中文公司3
中文公司4
0
2019-10-03
BIDU
104.32
102.35
104.73
101.15
2.24
0.02
百度
百度
百度
百度
1
2019-10-02
BIDU
102.62
100.85
103.24
99.50
2.69
0.01
百度
百度
百度
百度
2
2019-10-01
BIDU
102.00
102.80
103.26
101.00
1.78
-0.01
百度
百度
百度
百度
3
2019-10-03
BABA
169.48
166.65
170.18
165.00
10.39
0.02
阿里巴巴
阿里巴巴
阿里巴巴
阿里巴巴
4
2019-10-02
BABA
165.77
162.82
166.88
161.90
11.60
0.00
阿里巴巴
阿里巴巴
阿里巴巴
阿里巴巴
3. applymap用于DataFrame所有值的转换
In [21]:
sub_df stocks[[ 收盘 , 开盘 , 高 , 低 , 交易量 ]]
In [22]:
sub_df
Out[22]:
收盘
开盘
高
低
交易量
0
104.32
102.35
104.73
101.15
2.24
1
102.62
100.85
103.24
99.50
2.69
2
102.00
102.80
103.26
101.00
1.78
3
169.48
166.65
170.18
165.00
10.39
4
165.77
162.82
166.88
161.90
11.60
5
165.15
168.01
168.23
163.64
14.19
6
16.06
15.71
16.38
15.32
10.08
7
15.72
15.85
15.87
15.12
8.10
8
15.92
16.14
16.22
15.50
11.65
9
28.80
28.11
28.97
27.82
8.77
10
28.06
28.00
28.22
27.53
9.53
11
28.19
28.22
28.57
27.97
10.64
In [23]:
# 将这些数字取整数 应用于所有元素(即表格中所有的值)
sub_df.applymap(lambda x: int(x))
Out[23]:
收盘
开盘
高
低
交易量
0
104
102
104
101
2
1
102
100
103
99
2
2
102
102
103
101
1
3
169
166
170
165
10
4
165
162
166
161
11
5
165
168
168
163
14
6
16
15
16
15
10
7
15
15
15
15
8
8
15
16
16
15
11
9
28
28
28
27
8
10
28
28
28
27
9
11
28
28
28
27
10
In [25]:
# 直接修改原df的这几列
stocks.loc[:, [ 收盘 , 开盘 , 高 , 低 , 交易量 ]] sub_df.applymap(lambda x: int(x))
In [26]:
stocks.head()
Out[26]:
日期
公司
收盘
开盘
高
低
交易量
涨跌幅
中文公司1
公司中文2
中文公司3
中文公司4
0
2019-10-03
BIDU
104
102
104
101
2
0.02
百度
百度
百度
百度
1
2019-10-02
BIDU
102
100
103
99
2
0.01
百度
百度
百度
百度
2
2019-10-01
BIDU
102
102
103
101
1
-0.01
百度
百度
百度
百度
3
2019-10-03
BABA
169
166
170
165
10
0.02
阿里巴巴
阿里巴巴
阿里巴巴
阿里巴巴
4
2019-10-02
BABA
165
162
166
161
11
0.00
阿里巴巴
阿里巴巴
阿里巴巴
阿里巴巴
十八、Pandas怎样对每个分组应用apply函数?
知识 Pandas的GroupBy遵从split、apply、combine模式
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lUn7YSnp-1597761927713)(http://localhost:8891/notebooks/pandas-learn-code/other_files/pandas-split-apply-combine.png)]
这里的split指的是pandas的groupby 我们自己实现apply函数 apply返回的结果由pandas进行combine得到结果
GroupBy.apply(function)
function的第一个参数是dataframe
function的返回结果 可是dataframe、series、单个值 甚至和输入dataframe完全没关系
本次实例演示
怎样对数值列按分组的归一化
怎样取每个分组的TOPN数据
实例1 怎样对数值列按分组的归一化
将不同范围的数值列进行归一化 映射到[0,1]区间
更容易做数据横向对比 比如价格字段是几百到几千 增幅字段是0到100
机器学习模型学的更快性能更好
归一化的公式
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CuwTEdIl-1597761927714)(http://localhost:8891/notebooks/pandas-learn-code/other_files/Normalization-Formula.jpg)]
演示 用户对电影评分的归一化
每个用户的评分不同 有的乐观派评分高 有的悲观派评分低 按用户做归一化
In [1]:
import pandas as pd
In [7]:
ratings pd.read_csv(
./pandas-learn-code/datas/movielens-1m/ratings.dat ,
sep :: ,
engine python ,
names UserID::MovieID::Rating::Timestamp .split( :: )
)
In [8]:
ratings.head()
Out[8]:
UserID
MovieID
Rating
Timestamp
0
1
1193
5
978300760
1
1
661
3
978302109
2
1
914
3
978301968
3
1
3408
4
978300275
4
1
2355
5
978824291
In [10]:
# 实现按照用户ID分组 然后对ratings进行归一化
def ratings_norm(df):
# 实际参数是每个用户分组的df(按照UserID分组的DataFrame)
max_value df[ Rating ].max()
min_value df[ Rating ].min()
df[ Rating_norm ] df[ Rating ].apply(lambda x:(x - min_value)/(max_value - min_value))
return df
# 按照用户分组 apply一个函数 给该DataFrame新增了一列 实现了Rating列的归一化
ratings ratings.groupby( UserID ).apply(ratings_norm)
In [12]:
ratings[ Rating ]
. . .
In [16]:
type(ratings)
Out[16]:
pandas.core.frame.DataFrame
In [17]:
ratings[ratings[ UserID ] 1].head()
Out[17]:
UserID
MovieID
Rating
Timestamp
Rating_norm
0
1
1193
5
978300760
1.0
1
1
661
3
978302109
0.0
2
1
914
3
978301968
0.0
3
1
3408
4
978300275
0.5
4
1
2355
5
978824291
1.0
实例2 怎么取每个分组的TOP N数据
获取2018年每个月温度最高的2天数据
In [18]:
fpath ./pandas-learn-code/datas/beijing_tianqi/beijing_tianqi_2018.csv
df pd.read_csv(fpath)
In [19]:
df.head()
Out[19]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
0
2018-01-01
3℃
-6℃
晴~多云
东北风
1-2级
59
良
2
1
2018-01-02
2℃
-5℃
阴~多云
东北风
1-2级
49
优
1
2
2018-01-03
2℃
-5℃
多云
北风
1-2级
28
优
1
3
2018-01-04
0℃
-8℃
阴
东北风
1-2级
28
优
1
4
2018-01-05
3℃
-6℃
多云~晴
西北风
1-2级
50
优
1
In [21]:
# 替换掉温度后的℃
df.loc[:, bWendu ] df[ bWendu ].str.replace( ℃ , ).astype( int32 )
df.loc[:, yWendu ] df[ yWendu ].str.replace( ℃ , ).astype( int32 )
In [22]:
# 新增一列为月份
df[ month ] df[ ymd ].str[0:7]
df.head()
Out[22]:
ymd
bWendu
yWendu
tianqi
fengxiang
fengli
aqi
aqiInfo
aqiLevel
month
0
2018-01-01
3
-6
晴~多云
东北风
1-2级
59
良
2
2018-01
1
2018-01-02
2
-5
阴~多云
东北风
1-2级
49
优
1
2018-01
2
2018-01-03
2
-5
多云
北风
1-2级
28
优
1
2018-01
3
2018-01-04
0
-8
阴
东北风
1-2级
28
优
1
2018-01
4
2018-01-05
3
-6
多云~晴
西北风
1-2级
50
优
1
2018-01
In [24]:
def getWenduTopN(df, topn):
# 这里的df 是每个月份分组group的df
return df.sort_values(by bWendu )[[ ymd , bWendu ]][-topn:]
df.groupby( month ).apply(getWenduTopN, topn 2).head()
Out[24]:
ymd
bWendu
month
2018-01
13
2018-01-14
6
18
2018-01-19
7
2018-02
53
2018-02-23
10
56
2018-02-26
12
2018-03
86
2018-03-28
25
In [25]:
df[[ ymd , bWendu ]]
. . .
我们看到 groupby的apply函数返回的DataFrame 其实和原来的DataFrame其实可以完全不一样
Yu-Dem~~