机器学习入门
2024-10-16 11:18:26 0 举报
AI智能生成
三大要素:数据、学习算法、模型 机器学习必备条件:有规律可以学习、编程很难做到、有足够多能学到其中规律的数据 解决如下五个问题:回归、分类、聚类、归因、异常检测 学习过程:准备数据、建立模型、模型应用 学习类型:有监督学习、无监督学习、半监督学习、强化学习
作者其他创作
大纲/内容
机器学习,顾名思义,就是让计算机也能像人类一样学习,通过观
察和训练,发现事物规律,从而获得分析问题、解决问题的能力。
人类学习与机器学习的对比
机器学习三要素
什么问题适合用机器学习方法解决
必备条件
机器学习可解决的问题
通常我们可以使用机器学习解决以下五类问题。
子主题
分类
回归
计算机程序会通过输入数据的属性值(特征)找出规律来预测
新的输出数值。
通常我们把通过连续值构建模型的任务称为回归任务
预测任务是通过连续值构建函数从而找到下一个预测值
分类
分类任务则是对离散值进行分类并判断预测值的所属类别
本质就是找到这一堆特征值和标签之间的关系。
聚类
聚类的目的是使得属于同一个簇的样本相似,而属于不同簇的样本应该足够不相似 。
与分类不同,我们进行聚类前并不知道将要划分成几个组以及是什么样的组,训练数据不需
要带有标签,完全依靠算法聚集成簇
要带有标签,完全依靠算法聚集成簇
归因
机器学习的另一个用处是帮助我们找到影响某个问题的重要因素。
异常检测
机器需要识别其特征显著不同于其他数据的异常值,
并标记为不正常的数据。异常检测任务的一个典型应用场景是信用卡欺诈检测。
并标记为不正常的数据。异常检测任务的一个典型应用场景是信用卡欺诈检测。
思路
产品经理拿到需求后,在构想整个使用场景的时候,应首先想这个
问题到底适不适合用机器学习的方式去解决,同时还需要思考怎么拿
到有效的数据,如果有数据缺失如何补充,数据类型是什么样的,是
否有合适的算法可以支持实现 。在心里有了初步的答案后,再和开发
工程师进行交流。这种对数据的提前考虑能够极大地提高沟通效率。
问题到底适不适合用机器学习的方式去解决,同时还需要思考怎么拿
到有效的数据,如果有数据缺失如何补充,数据类型是什么样的,是
否有合适的算法可以支持实现 。在心里有了初步的答案后,再和开发
工程师进行交流。这种对数据的提前考虑能够极大地提高沟通效率。
机器学习的过程
在机器学习中生成一个模型的过程包括准备数据、建立模型以及模型应用三个阶段。
准备数据有收集数据、探索数据及数据预处理三个步骤。
对数据进行处理后,在建立模型阶段开始训练模型、评估模型,然后通过反复迭代优化模型,最终在应用阶段上线投产
使用模型,在新数据上完成任务。
准备数据有收集数据、探索数据及数据预处理三个步骤。
对数据进行处理后,在建立模型阶段开始训练模型、评估模型,然后通过反复迭代优化模型,最终在应用阶段上线投产
使用模型,在新数据上完成任务。
机器学习的三个阶段
阶段
准备数据
在数据准备阶段,我们首先通过各种渠道收集相关数据
通过数据探索,我们可能会发现不少问题,如存在数据缺失、数据
不规范,有异常数据、非数值数据、无关数据和数据分布不均衡等情
况。
数据预处理的工作通常占据整个机器学习过程的大部分时间。
建模
整个机器学习中的重头戏——建模
训练模型的过程从本质上来说就是通过大量训练数据找到一个与理想函数最接近的函数
。这是所有机器学习研究的目标,也是机器学习的本质所在。
。这是所有机器学习研究的目标,也是机器学习的本质所在。
机器学习中,我们往往很难得到这个完整的方程,所以我们只能通过各种手段求最接近理想情况下
的未知项的值,使得这个结果最接近原本的方程。
的未知项的值,使得这个结果最接近原本的方程。
模型训练的本质
模型的训练及选择
一般情况下,不存在在任何情况下表现效果都很好的算法。因此在实际选择模型时,我们会选用几种不同的方法来训练模型,比较它们的
性能,从中选择最优的方案
性能,从中选择最优的方案
总结上述训练模型的过程,可分为以下三步:
(1)根据应用场景、实际需要解决的问题以及手上的数据,选择一个合适的模型。
(2)构建损失函数。需要依据具体的问题来确定损失函数,例如回归问题一般采用欧式距离作为损失函数,分类问题一般采用交叉熵代
价函数作为损失函数
(3)求解损失函数。求解损失函数是机器学习中的一个难点,因为做到求解过程又快又准不是一件容易的事情。常用的方法有梯度下降
法、最小二乘法等
(1)根据应用场景、实际需要解决的问题以及手上的数据,选择一个合适的模型。
(2)构建损失函数。需要依据具体的问题来确定损失函数,例如回归问题一般采用欧式距离作为损失函数,分类问题一般采用交叉熵代
价函数作为损失函数
(3)求解损失函数。求解损失函数是机器学习中的一个难点,因为做到求解过程又快又准不是一件容易的事情。常用的方法有梯度下降
法、最小二乘法等
机器学习的类型
子主题
有监督学习
有监督学习的训练集要求每一条数据都包括输入和输出,也就是说必须带有特征和分类结果 。
训练集中的分类结果是人为标注好的,有监督学习是一个通过已有训练样本的输入与输出训练模型,
再利用这个模型将所有的新输入数据映射为相应的输出,对输出进行判断从而实现分类的过程。
最终模型具备了对未知数据分类的能力。有监督学习的目标是让计算机去学习我们已经创建好的分类系统。
训练集中的分类结果是人为标注好的,有监督学习是一个通过已有训练样本的输入与输出训练模型,
再利用这个模型将所有的新输入数据映射为相应的输出,对输出进行判断从而实现分类的过程。
最终模型具备了对未知数据分类的能力。有监督学习的目标是让计算机去学习我们已经创建好的分类系统。
无监督学习
每一条数据没有所谓的“正确答案”,模型必须自己搞明白最后呈现的是什么。
无监督学习的目标不是告诉计算机怎么做,而是让计算机自己去学习怎么做,自己去探索数据并找到数据的规律 。
无监督学习的目标不是告诉计算机怎么做,而是让计算机自己去学习怎么做,自己去探索数据并找到数据的规律 。
对于新来的样本,计算新样本与原来样本的相似度后,模型可以按照相似程度对它们进行归类。
无监督学习网络在学习过程中并不知道其分类结果是否正确。无监督学习的特点是仅仅从样本中找出某个类别的潜在规律。
半监督学习
半监督学习(Semi-supervised Learning)其目的在于利用海量未带标签数据,辅之以少量带标签数据进行学习训练,增强计算机的学习能力
强化学习
所谓强化学习就是智能系统从环境到行为映射的学习,目的是获得最大的奖励信号。也就是说强化学习输出的是给
机器的反馈,用来判断这个行为是正确的还是错误的
机器的反馈,用来判断这个行为是正确的还是错误的
强化学习的结果反馈有延时,有时候可能在走了很多步以后才知道前面某一步选择的优劣,而有监督学习做了比较坏的选择之后会立刻反馈给法。
0 条评论
下一页