机器学习基础
2023-08-29 21:01:30 11 举报
AI智能生成
机器学习基础
作者其他创作
大纲/内容
机器学习概述
人工智能发展必备三要素
数据
算法
计算力
CPU,GPU,TPU
CPU主要适合I\O密集型的任务
GPU主要适合计算密集型任务
计算密集型的程序
易于并行的程序
人工智能和机器学习,深度学习的关系
机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展而来
人工智能的发展历程
人工智能元年
1956
发展历程
第一是起步发展期:1956年—20世纪60年代初
第二是反思发展期:20世纪60年代—70年代初
第三是应用发展期:20世纪70年代初—80年代中
第四是低迷发展期:20世纪80年代中—90年代中
第五是稳步发展期:20世纪90年代中—2010年
第六是蓬勃发展期:2011年至今
主要分支
计算机视觉(CV)
指机器感知环境的能力
自然语言处理(NLP)
文本挖掘/分类
可用于理解、组织和分类结构化或非结构化文本文档
主要任务有句法分析、情绪分析和垃圾信息检测
机器翻译
利用机器的力量自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)
语音识别
指识别语音(说出的语言)并将其转换成对应文本的技术
机器人
机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理
分类
固定机器人
移动机器人
机器学习工作流程
机器学习
从数据中自动分析获得模型,并利用模型对未知数据进行预测
工作流程
1.获取数据
数据集
样本
一行数据
特征
一列数据
有些数据有目标值(标签值),有些数据没有目标值
类型构成
数据类型一:特征值+目标值(目标值是连续的和离散的)
数据类型二:只有特征值,没有目标值
聚类算法
数据分割
训练数据
用于训练,构建模型
训练集:70% 80% 75%
测试数据
在模型检验时使用,用于评估模型是否有效
测试集:30% 20% 25%
2.数据基本处理
缺失值
异常值
3.特征工程
概念
使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
意义
会直接影响机器学习的效果
包含的内容
特征提取
特征预处理
特征降维
4.机器学习(模型训练)
选择合适的算法对模型进行训练
5.模型评估
结果达到要求,上线服务
没有达到要求,重新上面步骤
算法分类
监督学习
定义
输入数据是由输入特征值和目标值所组成
回归
函数的输出可以是一个连续的值
分类
输出是有限个离散值
无监督学习
定义
输入数据是由输入特征值组成,没有目标值
半监督学习
定义
训练集同时包含有标记样本数据和未标记样本数据
强化学习
定义
实质是make decisions 问题,即自动进行决策,并且可以做连续决策
模型评估
分类模型评估
准确率: 预测正确数量与总样本数量的比例
精确率
召回率
F1-Score
AUC指标
回归模型评估
- 均方根误差(RMSE): 预测值 减 真实值的平方和除以样本数量, 然后开根号
分支主题
- 相对均方误差(RSE): (预测值 减 真实值的平方和) 除以 (真实值的均值 减 真实值的平方和)
- 平均绝对误差(MAE): 预测值 减 真实值的绝对值的和, 然后除以样本数量
分支主题
fi是预测值, yi是真实值
- 相对绝对误差(RAE): ( 预测值 减 真实值的绝对值的和) 除以 (真实值的均值 减 真实值的绝对值的和)
- 误差越小越好.
拟合
欠拟合
- 表现: 在训练集表现不好, 在测试集上表现也不好
- 原因: 模型太简单, 学到的特征太少
过拟合
- 表现: 在训练集表现很好, 但是在测试集表现的不好
- 原因: 模型太复杂了, 学到的特征太多了.
深度学习
神经网络
输入 -> 多个层(每一个层有多个节点) -> 输出
机器学习环境安装与使用
创建虚拟环境
mkvirtualenv -p ai
安装
pip install 包==版本号
Jupyter Notebook使用
启动
1. workon ai
2. Jupyter notebook
两种模式
编辑模式
- 作用: 可以编写单元格中代码或文档(MarkDown)
- 进入: enter/ 代码 在单元格中单击, 文档: 双击
命令
- 多光标操作: ctrl + 鼠标左键单击
- 回退: ctrl(CMD) + z
- 代码补全: Tab
- 注意需要安装扩展插件
- 注释/取消注释: ctrl(CMD) + /
命令模式
- 作用: 操作单元格, 修改单元格模式, 添加单元格, 删除单元格, 移动单元格
- 进入: Esc/ 单击单元格左边
命令
- 代码模式: Y
- markdown模式: M
- 在上面添加cell: A
- 在下面添加cell: B
- 删除当前cell: DD
- 回退: Z
0 条评论
下一页