pandas
2023-08-30 09:21:54 5 举报
AI智能生成
pandas 机器学习
作者其他创作
大纲/内容
封装了numpy 和 matplotlib
概念
用于存储一维数据的结构
作用
- Pd.Series(np.arange(num))
2. 创建指定索引
3. 使用字典创建
创建series
- 索引: 对象.index
- 值: 对象.values
常用属性
Series创建
1. Data: 数据
2. index: 行索引
3. Columns:列索引
1. 创建DataFrame
start: 起始日期
end: 结束日期
periods: 天数
freq: 默认一天挨着一天; 如果指定为'B' 跳过周六日
2. 生成日期(了解)
创建DataFrame
- 形状: shape
- 行索引: index
- 列索引: columns
- 数据的ndarray: values
- 转置: 对象.T
常见属性:
- 获取前5条数据: head()
- 获取后5条数据: tail()
常见方法:
Pd.index = index_new
索引的修改
- API:dataframe.reset_index(key)
- drop: bool
- 默认: False
重设索引
- key: 索引名字或是索引名列表
- Drop:判断是否删除原索引列
以某列设置新的索引
DataFrame结构
创建MultiIndex
- data: 表示数据
- items:最外层索引
- major_axis:中间层索引
- minor_axis:内层索引
创建panel
MultiIndex与Panel
pandas介绍
Dataframe[列名] [行名]
必须使用名称索引
- 必须使用下表索引
索引操作
1. Dataframe['字段名'] = 值
2. dataframe.字段名 = 值
赋值操作
Series.sort_values()
值排序
Series.sort_index()
索引排序
series
Dataframe.sort_values()
按照值进行排序
dataframe.sort_index()
按照索引进行排序
DataFrame排序
排序
基本数据操作
直接使用: + - * /
- Dataframe.add()
- Dataframe.sub()
- Dataframe.mul()
- Dataframe.div()
推荐使用方法进行运算
算术运算
- 比较: < > >= <= == !=
- 逻辑: 比较两边数据的逻辑大小
逻辑运算符号
- dataframe.query(查询条件)
1. 查询满足条件的数据
- Dataframe.isin(范围)
2. 判断数据是否在某个离散范围
逻辑运算函数
逻辑运算
- 统计函数: describe()
- 最小值: min()
- 最大值: max()
- 众数: mode()
- 中位数: median()
- 均值: mean()
- 求和: sum()
- 整体统计(描述)
- 最大值索引:\tidxmax()
- 最小值索引: idxmin()
- 获取索引函数
统计运算
- 累计求和: cumsum()
- 累计最大值: cummax()
- 累计最小值: cummin()
- 累计求积: cumprod()
累计统计函数
自定义运算
DataFrame运算
- x: x 轴
- y: y 轴
- Dataframe.plot(kind)
- 折线图: line
- 柱状图(垂直): bar
- 柱状图(水平): barh
- 散点图: scatter
- 饼状图: pie
- 直方图: hist
- kind: 图的种类:
Pandas画图(了解)
- 读取csv文件
- 写入csv文件
- 操作CSV文件
- 读取hdf文件
- 写入hdf文件
- 操作HDF5文件:
- orient: 存储的json形式
- lines: 行读取 True False 不按照行读取
- 读取json文件
- 写入json文件
- 操作JSON文件
文件读取与存储
- pandas中默认缺失值是: ?
- Dataframe.isnull()
- pd.isnull(df)
- Dataframe.notnull()
- pd.notnull(df)
- Np.any(df.isnull())
- np.all(df.notnull())
3. 判断是否包含缺失值(全局角度)
判断缺失值
- Df.dropna(axis)
1. 删除缺失值
2. 替换缺失值
处理为nan的缺失值
1. 将特殊字符处理为nan
2. 缺失值的处理 删除 替换
处理不是Nan的缺失值
高级处理-缺失值处理
- 把连续数据划分为若干个区间.
1. 按照每组元素个数近似相等的方式进行分组
2. 按用于指定区间进行分组
series.value_counts()
3. 统计值的数量
数据的离散化
高级处理-数据离散化
- 表拼接
- 表连接
高级处理-合并
- 作用: 一列数据对于另一列数据的分组个数
交叉表
- value: 需要统计的字段名
- index: 分组的字段名
透视表
高级处理-交叉表与透视表
- Dataframe.groupby(分组的字段).聚合函数()
- DataFrame:
- Series.groupby(分组数据).聚合函数()
- Series:
分组
高级处理-分组与聚合
高级操作
pandas
0 条评论
回复 删除
下一页