《中级经济师经济基础》读书笔记
2021-10-07 10:12:34 24 举报
AI智能生成
《中级经济师-经济基础》备考
作者其他创作
大纲/内容
理论基础
统计学
定义:收集、整理、分析、得出结论的科学
分支
描述统计
总结现在
居民消费价格指数(CPI)等
推断统计
预测将来 / 判断规律
参数估计:利用样本推测总体特征
如:民调统计总统支持率、调查用户满意度
假设检验:利用样本推测总体假设是否成立
如:利用抽样数据进行回归分析、验证满意度更倾向于忠诚客户
变量
定性
男、女;本地、外来;...
定量
数量(数字)
数据
观测数据
GDP、CPI等
实验数据
使用寿命、药物数据(多在自然科学领域)
一手数据
调查、观察、实验
二手数据
别人发布的数据(如CPI结果)
统计调查
分类
按对象
全面调查
人口普查等
费时费力、误差大,但贵在全面!
非全面调查
抽样调查
重点调查
典型调查
非全面统计报表
按登记时间
连续调查
经常性、高频率调查(人口出生、原料投入等)
不连续调查
间隔相当长的时间才调查(耕地面积、生产设备统计等)
调查方式
统计报表
自上而下统一布置,自下而上提交数据,然后汇总统计分析
普查
每隔5年或10年:人口普查、农业普查、经济普查...
抽样调查
优点
经济性
时效性
适应面广
准确性高
相比全面调查因为工作量大、环节多,误差往往较大
子主题
重点调查
选取一部分重点单位进行调查
典型调查
选取一部分具有典型性、代表性的单位
大数据
4大特点
数据量大
数据多样性
价值密度低
数据产生与处理速度快
数据挖掘
特征
数据源:量大、真实、但有噪声
要发现用户感兴趣的知识
有需求
要发现的知识是可接受、可理解、可运用的
有价值
要发现的是特定的问题,不是放之四海皆准的知识
分类
监督学习(指导学习)
有学习目标,根据目标来建模
无监督学习
探索数据之间的联系,发现其隐藏规律与价值
算法
分类
已知分类种类,识别分类标签(监督学习)
聚类分析
未知分类种类,归纳出分类
关联分析
发现数据的内在关联性,并根据其一预测另一
如:啤酒和尿布
趋势与演化分析
利用现有数据,预测将来数据
如:根据twitter中公众情绪预测股价
特征分析
异常分析
抽样调查
概念
总体参数
如:总体总量、总体均值、总体方差、总体比例
样本统计量
如:样本均值、样本比例、样本方差
抽样框
在总体内,可被抽样的抓手。如:登记在册的公司,营业执照就是其抽样框,但无证经营的就没有框
抽样一般步骤
确定调查问题
问题/目标
设计调查方案
方案
实施调查过程
实施
数据处理分析
分析
撰写调查报告
报告
误差
抽样误差
由于抽样的随机性造成
非抽样误差
抽样框误差
抽样框缺失
无回答误差
随机因素
样本不在家
非随机因素
样本拒绝回答
不回答的样本没有统计在内
计量误差
诱导样本、记录错误、作弊、样本提供虚假信息
抽样分类
概率抽样(随机抽样)
特征
事先知道抽样原则
被抽中的概率已知或可计算
用样本反推总体时,应考虑样本抽中的概率
方法
简单随机抽样
放回
不放回
信息可能重叠,不准
优点:简便
缺点:没有充分利用抽样框的辅助信息
适用条件:抽样框没啥多余可用信息、调查对象较集中、个体差异不大
分层抽样
先把总体分成几个层级,然后在层内再抽样
优点:除总体参数外,还可估计各层参数;便于抽样(按行政区划或行业分层);降低抽样误差(每层都有)
样本分配方法
等比例分配
层中总数越多,抽样越多
不等比例分配
少的层数量太少,再按比例抽样就没有了
适用条件:抽样框中有足够辅助信息,能方便分层
系统抽样(排序抽样)
按一定顺序排列,随机抽取(通常是等距)
优点:操作简单、对抽样框要求低
缺点:方差估计复杂,计算抽样误差困难
整群抽样
按一定规则分为不同的群组,再【整组整组】地抽
如:先抽取一些企业,入样的企业的【所有】员工都抽样
优点:高效、抽样框编制变得很简单(不需要全部人员的抽样框)
缺点:群内差异较小,而群与群的差别比较大时,按群抽的误差会比较大
多阶段抽样
分成多阶段来抽样
现实中:多种抽样方法组合:比如第一阶段是分层,第二阶段是系统
非概率抽样
判断抽样:调查人员判断决定
方便抽样:如:小区门口拦截式调查
自愿样本:如:网上调查
配额抽样:将总体分成若干类型或组(再方便抽样)
估计量和样本量
估计量的无偏性
只要抽样次数足够足够足够多,估计量就是实际值
估计量的有效性
方差越小,抽样效率越高,误差越低。可以根据方差估计抽样有效性
估计量的一致性
样本越多,估计值越收敛于实际值(方向一致)
样本量的确定
样本量 ∝ 精度要求 * 离散程度(方差) * 总体规模 * 无回答比例 * 经费
描述统计
对数据分布的测度
集中趋势
均值
简单粗暴求平均
在离散程度大(方差大)的情况下,论平均值就是耍流氓!如:平均收入
缺点:平均值非常容易受到极端值的影响!代表性差!
适用:定量变量
中位数
按大小排序,排在中间数
优点:不易受极端值影响,抗干扰强。尤其适合【收入】这种偏斜分布的!
适用:定量、顺序(如时间)变量
众数
出现频率最高的
可适用数值型、也可适用非数值型!
优点:不受极端影响,分布呈偏态时,代表性好
适用:分类、顺序变量
离散程度(离散越小,集中趋势就越准)
方差
各数值与平均值的差的平方和
不放回》N-1
标准差
方差的开根
离散系数
=标准差 / 均值
消费了数据绝对值的因素,系数越大,越离散!
偏态
偏态系数
描述数据分布的正态性
=0:完全对称!
|0-0.5|:轻度偏!
|0.5-1|:中度偏!
|>1|:重度偏!
标准分数
用来比较不同群组中不同数值的所在水平
前提是:偏态系统较小,偏态系数越大越不准
如果正态分布
68%的数据与均值在1个标准差内
95%的数据与均值在2个标准差内
99%的数据与均值在3个标准差内
变量相关分析
相关性
完全相关、不完全相关、不相关
正相关、负相关
线性相关、非线性相关
散点图
用散点标记所有观测值,直观地观察相关关系
Pearson相关系数
永远在-1与1之间
|1|:Y完全依赖X
0:Y与X完全无关
-1与0之间:负相关
0与1之间:正相关
越靠近0,越不相关,越靠近|1|,越相关
回归分析
回归模型
相关分析
实质:分析变量间是否有相关性
回归分析
前提:变量有相关性
实质:分析相关性的具体形态(线性、正态、曲线..),再用数据模型来表达
分类
一元回归模型(1个自变量)
多元回归模型(2个以上自变量)
线性模型
非线性模型
最小二乘法
只适用于:一元线性回归模型
根据公式找到一条最近似的直线,让所有观测值与垂直线上点的距离绝对值(离差)的平方和最小
模型检验(拟合效果分析)
决定系数 R^2
0-1之间
系数越高,拟合效果越好
0:完全无效
1:完美拟合
回归系数的显著性检验
极端样本概率P值(反证法),如果小于0.05,说明反证不可信,拟合效果好
模型预测
模型完成后,直接预测:代入X,得出Y
二元回归模型
二元回归模型下,决定系数R^2可能不准(因为可能一个小R^2的自变量隐藏在另一个大R^2的自变量下,显得总体R^2还可以
二元回归模型下,用t检验取P值更好,只要两个P值都通过【<0.05】考验,拟合效果就行!
时间序列分析
在时间序列轴上,对数据进行比较、分析
数据所属时间
数据值
分类
绝对数时间序列
时期序列
过程量,如:年收入
时点序列
瞬间值,如:人口数
相对数时间序列
平均数时间序列
水平分析(多少)
发展水平(不讲人话!讲人话:数值多大)
最初水平(期初值)
中间水平(中间值)
最末水平(期末值)
报告期水平(报告值)
平均发展水平(平均值多大)
计算方法
数据为绝对数
时期序列
各时期值相加除总时期(算术平均)
时点序列
连续时点
逐日登记,逐日排列
算术平均
非逐日登记(变动才登记)
加权平均(变动相隔天数加权)
间断时点
固定间隔
先求:相邻间隔平均值(Y1+Y2)/2 ,再算术平均
非固定间隔
先求:相邻间隔平均值(Y1+Y2)/2 ,再加权平均(间隔长度)
数据为相对数(百分比)
不能直接计算,必须将分子分母的平均数先算出,再求比
增长量
逐期增长量
累计增长量
平均增长量
逐期增长量的算术平均
速度分析(多快)
发展速度(新值 / 基值)
定基
环比
增长速度(增量 / 基值)
定基
环比
平均发展速度
增长速度的开N次根(N期)
平均增长速度
(无法计算),直接=平均发展速度-1
速度指标禁忌
出现0或负数
平滑预测
适用:平稳时间序列的预测
移动平均:最近N期的算术平均
指数平滑法:下期预测值 = 本期的预测值*(1-权重)+本期实际值*权重
0 条评论
下一页