机器学习 - 监督学习/非监督学习 知识点提纲
2022-10-14 10:13:15 0 举报
AI智能生成
机器学习 - 监督学习/非监督学习 知识点提纲
作者其他创作
大纲/内容
业务问题
问题定义
监督学习?标签?
需要什么数据
数据库
存储
流数据
抓取
数据从哪获取?
结构化
预处理
数据仓库
原始数据
data catalog
数据湖
数据保存在哪里
数据收集和整合
pandas
numpy
sk-learn
python
过大
过小
串行
异常值
缺失值
单位不对
拼写错误
异常类型
均值
众数
中位数
唯一值
可视化
标准差
异常数据发现
行
列
删除
中值
填充
异常值处理
纬度和推理的关联
协方差/标准差
Pearson相关系数
纬度之间的关联
数据关联
异常数据处理
数据预处理和可视化
S3
EFS
FSX for lustre
数据
AWS内置算法
基于框架自带脚本
自带算法
Market place
算法
训练数据
验证数据
测试数据
留一交叉验证
分层K折
K折交叉验证
交叉验证
梯度下降法
随机梯度下降法
批量梯度下降法
模型训练和优化
过拟合
欠拟合
偏差
方差
拟合
TP / 全
查准率
TP+TN / 全
查全率(Recall)
准确率
F1
ROC/AUC
分类
均方差MSE
R平方
调整R平方
回归
模型评估
特征提取
不需要的特征
明显重复的特征(总收入/总销量)
特征选择
对数
平方根/立方根
分箱/离散化
均值/方差标准化
最小最大缩放
最大绝对值缩放
稳健缩放
归一化
缩放
防止维度灾难
独热编码
类别数字化(考虑数字大小)
创建与转换
定义算法/模型
定义优化器
定义数据
类型
随机
贝叶斯
自动化调整
超参数
特征工程
模型部署
监督学习/无监督学习
自由主题
机器学习
收藏
0 条评论
下一页