首页  思维导图  详情

【数据分析库】-Pandas

2018-09-20 16:59:26   3  举报





AI智能生成

【数据分析库】--pandas

Pandas基础操作

数据分析

作者其他创作

大纲/内容

数据预处理实例

数据排序

data.sort_values()

字段

inplace

ascending

统计缺失值个数

1.查看字段的前几行的大概数值是否有缺失

2.查找缺失值并赋值

3.提取数据源中的缺失值并赋值

4.统计缺失值个数

自定义函数

1.书写自定义函数

2.设置apply函数

3.调用函数方法

数据的读取

read

read_csv

read_table

重点参数介绍

path

表示文件系统位置、URL、文件型对象的字符串

sep或delimiter

用于对行中各字段进行拆分的字符序列或正则表达式

header

用作列名的行号。默认为0（第一行），如果文件没有标题行就将header参数设置为None

index_col

用作行索引的列编号或列名。可以是单个名称/数字或有多个名称/数字组成的列表（层次化索引）

names

用于结果的列名列表，结合header=None，可以通过names来设置标题行

skiprows

需要忽略的行数（从0开始），设置的行数将不会进行读取

na_values

设置需要将值替换成NA的值

comment

用于注释信息从行尾拆分出去的字符（一个或多个）

parse_dates

尝试将数据解析为日期，默认为False。如果为True，则尝试解析所有列。除此之外，参数可以指定需要解析的一组列号或列名。如果列表的元素为列表或元组，就会将多个列组合到一起再进行日期解析工作

keep_date_col

如果连接多列解析日期，则保持参与连接的列。默认为False

converters

由列号/列名跟函数之间的映射关系组成的字典。如,{"age:",f}会对列索引为age列的所有值应用函数f

dayfirst

当解析有歧义的日期时，将其看做国际格式（例如，7/6/2012 ---> June 7 , 2012）。默认为False

date_parser

用于解析日期的函数

nrows

需要读取的行数

iterator

返回一个TextParser以便逐块读取文件

chunksize

文件块的大小（用于迭代）

skip_footer

需要忽略的行数（从文件末尾开始计算）

verbose

打印各种解析器输出信息，如“非数值列中的缺失值的数量”等

encoding

用于unicode的文本编码格式。例如，"utf-8"或"gbk"等文本的编码格式

squeeze

如果数据经过解析之后只有一列的时候，返回Series

thousands

千分位分隔符，如","或"."

dtype

整数

浮点数

字符串

head

tail

显示列名称，查看指标

data.columns

显示数据的行数及列数

data.shape

常用预处理方法

直接去除缺失值

样本的均值、中位数、众数填充法

数据透视表

data

values

统计的数和values的关系

index

统计时以index为基准

columns

aggfunc

以什么方式统计

fill_value

margins

dropna

margins_name

通过索引值查询数据集

loc

重设索引值

reset_index

Series结构

values

sort

相加功能

 收藏

立即使用

如果没有今天，明天会不会有昨天

 收藏

立即使用

记忆宫殿

 收藏

立即使用

第七章产品生命周期管理

 收藏

立即使用

NPDP产品经理认证

pandaboy Liu

职业： Data Analyst

去主页





0 条评论

下一页

为你推荐

查看更多

