Pandas
2024-11-02 19:15:10 0 举报
AI智能生成
Pandas是一个强大的开源数据分析库,广泛应用于Python中。它提供了用于处理和分析数据的各种数据结构和函数,如DataFrame和Series。用户可以利用Pandas进行数据清洗、转换、分析和可视化。Pandas还兼容许多其他Python库,如NumPy和Matplotlib,使其成为数据科学家和工程师的强大工具。
作者其他创作
大纲/内容
pd.Series
创建方式
name 索引名字
index 索引
name Series的名字
以数组返回值
value
基本属性
Series
pd.DataFrame
columns 列标签
index 行标签
shape 行列数
转置
T
属性
DataFrame
数据结构
字符串
默认是数字的label
单个列 df[label] 选取特定列
列的选择
df[切片]【index 或者 label】 选取行
行的选择
非标准
使用loc可以添加行列
添加行的时候会导致数据类型的变化
标准用法
数据选取
read_csv():读取结构化的文本数据
read_excel():读取excel文档
read_sql:读取关系型数据库
read_html:读取网页中的table标签
数据读操作
to_csv
to_excel
to_sql
列式存储文件
to_parquet【了解】
数据写操作
数据读写
对数据进行初步描述性统计
describe
聚合
sum/count/mean/median/std/var/max/min
累积求和
cumsum
数值
统计频率
value_counts
unique
nunique
mode
类别
数据统计分析
isnull
notnull
判断缺失值
dropna(how.thresh)
删除缺失值
固定值
向前向后填充
fillna
填充缺失值
缺失值
对series或者dataframe的数据实现替换(可通过字典形式)
replace
判断重复值
duplicated
重复值
分位数识别
标准差识别
异常值识别
异常值
函数:逐个元素进行特定处理
字典:key 为原来的值,value为新值
只应用于Series上
map
对 Series逐个元素进行特定处理
对 Dataframe 逐个 Series 进行特定处理
对 Groupby对象 逐个子dataframe 进行特定运算
apply
对dataframe逐个元素进行运算
applymap
自定义处理规则
series.str[index]
series.str[start:end]
[0-9] 或者 \\d 表示数字字符
[a-z] [A-Z]分别表示小写与大写字母
. 表示任意字符
\\s 任意空白字符
* 表示前面的字符出现任意多次
A|B 表示 匹配表达式A 如果A不成立再去看B表达式
( )圈定提取范围
正则表达式
replace() 用于替换字符串中的值 支持正则表达式
split() 用于切分每个字符串 支持正则表达式
extract() 可用于提取字符串中的内容,支持正则表达式写法
contains: 字符串中是否包含,用于columns时可以筛选特定列
cat() : 纵向拼接字符串
常见方法
字符串向量化操作Series.str
dayofweek......
子主题
时间字段.dt
切片操作 选择特定时间数据
提取时间维度
时间行索引
pd.to_datetime 将整数(unix_timestamp)或者字符串(date/datetime) 转换为时间类型
start
end
periods
freq
pd.date_range
时间数据处理
根据位置进行分箱
qcut
根据值进行分箱
cut
离散化
数据清洗转换
groupby 对象可以迭代
使用多个字段进行分组后返回的结果行的名字会有两层
groupyby
传入各种聚合函数
列表:每个字段都进行相同的几种聚合操作
字典:每个字段进行不同的聚合操作
aggregate/agg
过滤组
filter
转换组
transform
通用处理(根据自定义函数可以实现 聚合或者转换操作)
aggfunc
pd.pivot_table()
透视表
分组聚合
将行索引变为值,如果想删除原来的索引 drop=True
对于多层索引 可以指定 Level 参数
reset_index
将一列数据设置为行索引
set_index
索引重置
可以将dataframe 进行 横纵 方向的拼接
concat
实现了SQL中表的拼接形式
merge
数据拼接
根据行索引排序
sort_index
sort_values:根据字段去排序,字段可以是多个,用列表按序输入
rank:排名 可以实现各种排名规则
排序
数据重构
Python数据分析
0 条评论
回复 删除
下一页