AI算法工程师 | 涉及的数学知识
2023-05-27 18:47:20 1 举报
AI智能生成
人工智能学习数学的必要性:1、人工智能跟开发 APP 和后台服务器相比,人工智能需要大量的数学知识。2、人工智能需要一些必要的数学知识,这对后续理解机器学习、深度学习的算法有帮助,会理解得更加透彻。
作者其他创作
大纲/内容
微积分
数学相关知识
导数与求导公式
一阶导数与函数的单调性
一元函数极值判定法则
高阶导数
二阶导数与函数的凹凸性
一元导数泰勒展开
机器学习里用到的知识点
导数和偏导数的定义与计算方法
梯度向量的定义
极值定理
可导函数在极值点处导数或梯度必须为 0
雅克比矩阵
这是向量到向量映射函数的偏导数
构成的矩阵,在求导推导中会用到
Hessian 矩阵
这是 2 阶导数对多元函数的推广,
与函数的极值有密切的联系
凸函数的定义与判断方法
泰勒展开公式
核心:多元函数的泰勒展开公式
☞ 可推导出机器学习中常用的最优化方法
☞ 如:梯度下降法,牛顿法,拟牛顿法 等
拉格朗日乘数法
用于求解带等式约束的极值问题
说明
在机器学习中,微分部分的作用是求函数的极值,
☞ 就是很多机器学习库中的求解器(solver)所实现的功能
微积分和线性代数:微积分中会用到大量线性代数的知识,☞ 线性代数中也会用到微积分的知识
线性代数
数学相关知识
向量及其运算
矩阵及其运算
张量
行列式
二次型
特征值与特征向量
机器学习里用到的知识点
向量和它的各种运算
加法,减法,数乘,转置,内积
向量和矩阵的范数,L1 范数和 L2 范数
矩阵和它的各种运算
加法,减法,乘法,数乘
逆矩阵的定义与性质
行列式的定义与计算方法
二次型的定义
矩阵的正定性
矩阵的特征值与特征向量
矩阵的奇异值分解
线性方程组的数值解法
尤其是共轭梯度法
说明
线性代数相对用的更多,在机器学习几乎所有地方都有
机器学习算法处理的数据一般都是向量、矩阵或张量。
经典机器学习算法输入的数据都是特征向量,深度学习算法在处理图像时输入的 2 维的矩阵或者 3 维的张量。
之后回到其他知识
多元函数微分学
高阶偏导数
雅克比矩阵
Hessian 矩阵
多元函数泰勒展开
多元函数极值判定法则
线性代数
奇异值分解 SVD
常用的矩阵和向量求导公式
最优化
相关知识
梯度下降法,牛顿法
这两种常用的算法
其迭代公式都可从泰勒展开公式中得到
若能知道坐标下降法、拟牛顿法就更好了
凸优化
它的优化变量的可行域是凸集,目标函数是凸函数
凸优化最好的性质是它的所有局部最优解就是全局最优解
在机器学习中的凸优化问题:
☞ 线性回归、岭回归、支持向量机、logistic 回归等
拉格朗日对偶
为带等式和不等式约束条件的优化问题构造拉格朗日函数,将其变为原问题,这两个问题是等价的
通过这一步变换,
将带约束条件的问题转换成不带约束条件的问题
通过变换原始优化变量和拉格朗日乘子的优化次序,进一步将原问题转换为对偶问题,如果满足某种条件,原问题和对偶问题是等价的。
这种方法的意义在于可以将一个不易于求解的问题转换成更容易求解的问题。应用:支持向量机
KKT 条件
是拉格朗日乘数法对带不等式约束问题的推广
它给出了带等式和不等式约束的优化问题在极值点处所必须满足的条件
说明
几乎所有机器学习算法归根到底都是在求解最优化问题
概率论
数学相关知识
随机事件与概率
条件概率和贝叶斯公式
随机变量
随机变量的期望和方差
常用概率分布(正太分布、均匀分布、伯努利二项分布)
随机向量(联合概率密度函数等)
协方差与协方差矩阵
最大似然估计
机器学习里用到的知识点
随机事件的概念,概率的定义与计算方法
随机变量与概率分布
尤其是连续型随机变量的
概率密度函数和分布函数
条件概率与贝叶斯公式
常用概率分布(正太分布、均匀分布、伯努利二项分布)
随机变量的均值与方差,协方差
随机变量的独立性
最大似然估计
说明
如果把机器学习所处理的样本数据看作随机变量/向量,
我们就可以用概率论的观点对问题进行建模,这代表了
机器学习中很大一类方法。
0 条评论
下一页