精通特征工程
2021-04-22 10:28:43 0 举报
AI智能生成
精通特征工程
作者其他创作
大纲/内容
第一章 机器学习流程
1.1 数据
1.2 任务
1.3 模型
错误数据
冗余数据
缺失数据
1.4 特征
1.5 模型评价
特征工程在机器学习流程中的位置
第三章 文本数据:扁平化、过滤和分块
3.1 元素袋:将自然文本转换为扁平向量
3.1.1 词袋
3.1.2 n元词袋
3.2 使用过滤获取清洁特征
3.2.1 停用词
3.2.2 基于频率的过滤
高频词
罕见词
3.2.3 词干提取
3.3 意义的单位:从单词、n元词到词语
3.3.1 解析与分词
3.3.2 通过搭配提取进行短语检测
1.基于频率的方法
2.用于搭配提取的假设检验
似然比检验常见短语的算法
1.计算出所有单词的出现概率
2.对所有的唯一二元词,计算出成对单词出现的条件概率
3.对所有的唯一二元词,计算出似然比log
4.按照似然比为二元词排序
5.将似然比最小的二元词作为特征
3.文本分块和词性标注
文本分块要比找出n元词复杂一些,复杂在于,它要使用基于规则的模型并基于词性生成标记序列
3.4 小结
3.5 参考文献
第五章 分类变量:自动化时代的数据计数
5.1 分类变量的编码
5.1.1 one-hot 编码
5.1.2 虚拟编码
5.1.3 效果编码
5.1.4 各种分类变量编码的优缺点
5.2 处理大型分类变量
5.2.1 特征散列化
5.2.2 分箱计数
5.3 小结
5.4 参考文献
第七章 非线性特征化与k-均值模型堆叠
7.1 k-均值聚类
7.2 使用聚类进行曲面拼接
7.3 用于分类问题的k-均值特征化
7.4 优点、缺点以及陷阱
7.5 小结
7.6 参考文献
第九章 回到特征:建立学术论文推荐器
9.1 基于项目的协同过滤
9.2 第一关 数据导入、清理和特征解析
9.3 第二关 更多特征工程和更智能的模型
9.4 第三关 更多特征=更多信息
9.5 小结
9.6 参考文献
前言
简介
特征
特征工程
第二章 简单而又奇妙的数值
2.1 标量、向量和空间
一个向量
2.2 处理计数
2.2.1 二值化
2.2.2 区间量化(分箱)
固定宽度分箱
分位数分箱
2.3 对数变换
2.3.1 对数变换实战
2.3.2 指数变换:对数变换的推广
2.4 特征缩放/归一化
2.4.1 min-max 缩放
公式
2.4.2 特征标准化/方差缩放
公式
attention
2.4.3 欧几里得范数归一化
公式
2.5 交互特征
公式
2.6 特征选择
过滤
打包方法
嵌入式方法
2.7 小结
2.8 参考文献
第四章 特征缩放的效果:从词袋到 tf-idf
4.1 ti-idf:词袋的一种扩展
4.2 ti-idf 方法测试
4.2.1 创建分类数据集
4.2.2 使用ti-idf变换来缩放词袋
4.2.3 使用逻辑回归进行分类
4.2.4 使用正则化对逻辑回归进行调优
通过重采样估计方差
4.3 深入研究:发生了什么
4.4 小结
4.5 参考文献
第六章 数据降维:使用PCA挤压数据
6.1 直观理解
6.2 数学推导
6.2.1 线性投影
6.2.2 方差和经验方差
6.2.3 主成分:第一种表示形式
6.2.4 主成分:矩阵-向量表示形式
6.2.5 主成分的通用解
6.2.6 特征转换
6.2.7 PCA实现
6.3 PCA实战
6.4 白化与ZCA
6.5 PCA的局限性与注意事项
6.6 用例
6.7 小结
6.8 参考文献
第八章 自动特征生成:图像特征提取和深度学习
8.1 最简单的图像特征(以及它们因何失效)
8.2 人工特征提取:SIFT和HOG
8.2.1 图像梯度
8.2.2 梯度方向直方图
8.2.3 SIFT体系
8.3 通过深度神经网络学习图像特征
8.3.1 全连接层
8.3.2 卷积层
8.3.3 ReLU变换
8.3.4 响应归一化层
8.3.5 池化层
8.3.6 AlexNet的结构
8.4 小结
8.5 参考文献
附录 A 线性建模和线性代数基础
A.1 线性分类概述
A.2 矩阵的解析
A.2.1 从向量到子空间
A.2.2 奇异值分解(SVD)
A.2.3 数据矩阵的四个基本子空间
A.3 线性系统求解
A.4 参考文献
0 条评论
下一页