机器学习概述

2023-08-28 10:21:10   18  举报





AI智能生成

机器学习是人工智能的一个分支，它的基本思想是通过训练数据和算法让计算机自动学习并改进其性能。机器学习算法通常根据训练数据集的特征来构建一个数学模型，然后用该模型对新的数据进行预测或分类。常见的机器学习任务包括回归、分类、聚类、推荐系统等。机器学习在许多领域都有广泛的应用，如自然语言处理、图像识别、医疗诊断等。随着大数据和计算能力的不断提升，机器学习正成为解决复杂问题的重要工具。

人工智能

机器学习

Machine Learning

作者其他创作

大纲/内容

机器学习概述

人工智能发展必备三要素

数据

算法

计算力

CPU,GPU,TPU

CPU主要适合I\O密集型的任务

GPU主要适合计算密集型任务

计算密集型的程序

易于并行的程序

Google TPU介绍

CPU 与 GPU的区别

人工智能和机器学习，深度学习的关系

机器学习是人工智能的一个实现途径

深度学习是机器学习的一个方法发展而来

人工智能的发展历程

人工智能元年

1956

发展历程

第一是起步发展期：1956年—20世纪60年代初

第二是反思发展期：20世纪60年代—70年代初

第三是应用发展期：20世纪70年代初—80年代中

第四是低迷发展期：20世纪80年代中—90年代中

第五是稳步发展期：20世纪90年代中—2010年

第六是蓬勃发展期：2011年至今

主要分支

计算机视觉(CV)

指机器感知环境的能力，这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功的研究领域。

发展历史

自然语言处理(NLP)

文本挖掘/分类

可用于理解、组织和分类结构化或非结构化文本文档

主要任务有句法分析、情绪分析和垃圾信息检测

文本挖掘和分类领域的一个瓶颈出现在歧义和有偏差的数据上

发展历史

机器翻译

利用机器的力量自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)

发展历史

语音识别

指识别语音(说出的语言)并将其转换成对应文本的技术

语音识别领域仍然面临着声纹识别和「鸡尾酒会效应」等一些特殊情况的难题

鸡尾酒会效应（英语：cocktail party effect）是指人的一种听力选择能力，在这种情况下，注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。该效应揭示了人类听觉系统听觉系统中令人惊奇的能力，即我们可以在噪声中谈话

发展历史

机器人

机器人的设计、制造、运作和应用，以及控制它们的计算机系统、传感反馈和信息处理

分类

固定机器人

固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具

移动机器人

机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器；另外还有能够实现感知能力的软件，比如定位、地图测绘和目标识别

发展历史

机器学习工作流程

机器学习

从数据中自动分析获得模型，并利用模型对未知数据进行预测

工作流程

① 获取数据

数据集

样本

一行数据

特征

一列数据

有些数据有目标值（标签值），有些数据没有目标值

类型构成

数据类型一：特征值+目标值（目标值是连续的和离散的）

数据类型二：只有特征值，没有目标值

聚类算法

数据分割

训练数据

用于训练，构建模型

训练集：70% 80% 75%

测试数据

在模型检验时使用，用于评估模型是否有效

测试集：30% 20% 25%

② 数据基本处理

缺失值

异常值

③ 特征工程

概念

使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程

意义

会直接影响机器学习的效果

包含的内容

特征提取

将任意数据（如文本或图像）转换为可用于机器学习的数字特征

特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

特征降维

指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程

为什么需要特征工程？

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”
注：业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

④ 机器学习(模型训练)

选择合适的算法对模型进行训练

⑤ 模型评估

结果达到要求，上线服务

没有达到要求，重新上面步骤

算法分类

监督学习

定义

输入数据是由输入特征值和目标值所组成

回归 (regression)

函数的输出可以是一个连续的值

分类 (classfication)

输出是有限个离散值

无监督学习

定义

输入数据是由输入特征值组成，没有目标值

输入数据没有被标记，也没有确定的结果。样本数据类别未知
需要根据样本间的相似性对样本集进行类别划分。

有监督，无监督算法对比

半监督学习

定义

训练集同时包含有标记样本数据和未标记样本数据

监督学习的训练方式

半监督学习训练方式

强化学习

定义

实质是make decisions 问题，即自动进行决策，并且可以做连续决策

强化学习的目标就是获得最多的累计奖励

小孩想要走路，但在这之前，他需要先站起来，站起来之后还要保持平衡，接下来还要先迈出一条腿，是左腿还是右腿，迈出一步后还要迈出下一步。
小孩就是 agent，他试图通过采取行动（即行走）来操纵环境（行走的表面），并且从一个状态转变到另一个状态（即他走的每一步），当他完成任务的子任务（即走了几步）时，孩子得到奖励（给巧克力吃），并且当他不能走路时，就不会给巧克力。
主要包含五个元素：agent, action, reward, environment, observation；

监督学习和强化学习的对比

独立同分布IID（(independent and identically distributed）

在概率统计理论中，如果变量序列或者其他随机变量有相同的概率分布，并且互相独立，那么这些随机变量是独立同分布

独立：每次抽样之间没有关系，不会相互影响

举例：给一个骰子，每次抛骰子抛到几就是几，这是独立；如果我要抛骰子两次之和大于8，那么第一次和第二次抛就不独立，因为第二次抛的结果和第一次相关

同分布：每次抽样，样本服从同一个分布

举例：给一个骰子，每次抛骰子得到任意点数的概率都是六分之一，这个就是同分布

独立同分布：i.i.d.，每次抽样之间独立而且同分布

机器学习领域的重要假设

IID独立同分布即假设训练数据和测试数据是满足相同分布的，它是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障

目前发展

机器学习并不总要求独立同分布，在不少问题中要求样本数据采样自同一个分布是因为希望用训练数据集得到的模型可以合理的用于测试数据集，使用独立同分布假设能够解释得通
目前一些机器学习内容已经不再囿于独立同分布假设下，一些问题会假设样本没有同分布