机器学习 - 监督学习/非监督学习 知识点提纲
2022-10-14 10:13:15 0 举报
AI智能生成
机器学习 - 监督学习/非监督学习 知识点提纲
作者其他创作
大纲/内容
监督学习/无监督学习
业务问题
问题定义
数据收集和整合
需要什么数据
监督学习?标签?
数据从哪获取?
数据库
存储
流数据
抓取
数据保存在哪里
数据仓库
结构化
预处理
数据湖
原始数据
data catalog
数据预处理和可视化
python
pandas
numpy
sk-learn
异常数据处理
异常类型
异常值
过大
过小
串行
缺失值
单位不对
拼写错误
异常数据发现
均值
众数
中位数
唯一值
可视化
标准差
异常值处理
删除
行
列
填充
均值
中值
众数
数据关联
纬度和推理的关联
纬度之间的关联
Pearson相关系数
协方差/标准差
模型训练和优化
数据
S3
数据湖
EFS
FSX for lustre
算法
AWS内置算法
基于框架自带脚本
自带算法
Market place
交叉验证
训练数据
验证数据
测试数据
K折交叉验证
留一交叉验证
分层K折
梯度下降法
梯度下降法
随机梯度下降法
批量梯度下降法
模型评估
拟合
过拟合
欠拟合
偏差
方差
分类
查准率
TP / 全
查全率(Recall)
TP+TN / 全
准确率
F1
ROC/AUC
回归
均方差MSE
R平方
调整R平方
特征工程
特征提取
特征选择
不需要的特征
明显重复的特征(总收入/总销量)
创建与转换
对数
平方根/立方根
分箱/离散化
缩放
均值/方差标准化
最小最大缩放
最大绝对值缩放
稳健缩放
归一化
独热编码
防止维度灾难
类别数字化(考虑数字大小)
超参数
类型
定义算法/模型
定义优化器
定义数据
自动化调整
随机
贝叶斯
模型部署
自由主题
收藏
0 条评论
下一页