AI产品经理(3) AI产品需要了解的算法全景图
2023-04-26 19:06:28 3 举报
AI智能生成
AI产品经理需要掌握的算法全景图包括:监督学习、无监督学习、强化学习、深度学习、自然语言处理、计算机视觉等。其中,监督学习是指通过已知的输入输出数据对模型进行训练,使其能够对新的输入数据进行预测;无监督学习是指通过未标记的数据来发现数据中的模式和结构;强化学习是指通过与环境的交互来学习如何做出最优决策;深度学习是一种特殊的机器学习方法,它使用多层神经网络来处理复杂的数据;自然语言处理是指让计算机理解和生成人类语言的技术;计算机视觉是指让计算机理解和处理图像和视频的技术。这些算法都是AI产品开发中不可或缺的组成部分。
作者其他创作
大纲/内容
AI产品经理(3)
AI产品需要的
解机器学习的算法~
AI产品需要的
解机器学习的算法~
机器学习分类
分类问题
分类问题经常出现在分类判断、
标签预测、行为预测这些场景中。
标签预测、行为预测这些场景中。
应用场景
分类判断,如文本分类、图像分类
行为预测,如点击率预估、推荐系统
标签预测、如商品标签、用户标签
常见算法
K近邻算法(KNN)
朴素贝叶斯(NaiveBayes,NB)
决策树(Decision Tree Model,DT)
随机森林(Random Forest,RF)
支持向量机(SVM)
聚类问题
聚类算法解决问题的核心思想就是
“物以类聚,人以群分”
“物以类聚,人以群分”
应用场景:用户分组、用户画像
常用算法
层次聚类(Hierarchical Clustering)
原型聚类(K-means)
密度聚类(DBSCAN)
分类问题和聚类问题的差异
分类问题需要根据已知的数据去学习,
然后为新的数据进行预测,
聚类分析直接在已有数据中发现联系。
但它们还存在着一个共同点,
那就是它们都输出的是 “0” 或 “1”
这种离散型的标签。
分类问题需要根据已知的数据去学习,
然后为新的数据进行预测,
聚类分析直接在已有数据中发现联系。
但它们还存在着一个共同点,
那就是它们都输出的是 “0” 或 “1”
这种离散型的标签。
离散性标签
指的就是
非连续的一个个单独的标签。
指的就是
非连续的一个个单独的标签。
回归问题
应用场景
连续值预测,如预测价格、销量、库存...
常用算法
一元线性回归
多元线性回归
机器学习
K近邻算法:
KNN 的原理
其原理可以简单描述为:对于一个新的输入样本,
KNN算法会在训练数据集中找到与该样本最接近的K个样本(即“最近邻”),
并将这K个样本中出现最多的类别作为新样本的类别(分类问题)
或将这K个样本的平均值作为新样本的输出值(回归问题)。
KNN算法会在训练数据集中找到与该样本最接近的K个样本(即“最近邻”),
并将这K个样本中出现最多的类别作为新样本的类别(分类问题)
或将这K个样本的平均值作为新样本的输出值(回归问题)。
“近朱者赤近墨者黑”,
即基于距离的一个简单分类算法。
在数据量不多,特征都相对单一的业务场景下
很适合选择 KNN 算法。
即基于距离的一个简单分类算法。
在数据量不多,特征都相对单一的业务场景下
很适合选择 KNN 算法。
对于一个待测的样本点,
我们去参考周围最近的已知样本点的分类,
如果周围最近的 K 个样本点属于第一类,
我们就可以把这个待测样本点归于第一类。
我们去参考周围最近的已知样本点的分类,
如果周围最近的 K 个样本点属于第一类,
我们就可以把这个待测样本点归于第一类。
优点
KNN算法适用于小型数据集,对实时性要求不高,
数据量较小的问题场景,是一种简单有效的分类和回归算法。
数据量较小的问题场景,是一种简单有效的分类和回归算法。
缺点
KNN 对于数据的容错性很低,它在处理数据量比较大的样本时会非常耗时
应用案例
电商网站为例,用户在访问商品详情页面时,
系统会根据用户历史浏览和购买记录等信息,
找到与该用户兴趣相似的一些用户,然后根据这些用户的购买记录,
推荐与该用户兴趣相似的商品。
这里的K近邻算法就是用于找到与当前用户兴趣相似的K个用户。
通过分析这K个用户的购买记录,可以为当前用户推荐相关的商品。
系统会根据用户历史浏览和购买记录等信息,
找到与该用户兴趣相似的一些用户,然后根据这些用户的购买记录,
推荐与该用户兴趣相似的商品。
这里的K近邻算法就是用于找到与当前用户兴趣相似的K个用户。
通过分析这K个用户的购买记录,可以为当前用户推荐相关的商品。
应用场景
图像识别、文本分类、推荐系统、医学诊断、金融风险评估等
线性回归
原理
根据已有的数据去寻找一条直线,
让它尽可能地接近这些数据,
再用这条直线预测新数据的可能结果,
这个结果是一个具体的数值。
让它尽可能地接近这些数据,
再用这条直线预测新数据的可能结果,
这个结果是一个具体的数值。
根据原有数据通过线性回归方程 Y = AX + B,
把已有数据代入到这个方程里,求出一组 A 和 B 的最优解,
最终拟合出一条直线,然后通过每个数据到直线的距离最短,
也就是损失函数最小。
这样一来,我们就能通过这个最优化的 A 和 B 的值,
估算出新的数据 X 和 Y 的关系,进行数据的预测。
把已有数据代入到这个方程里,求出一组 A 和 B 的最优解,
最终拟合出一条直线,然后通过每个数据到直线的距离最短,
也就是损失函数最小。
这样一来,我们就能通过这个最优化的 A 和 B 的值,
估算出新的数据 X 和 Y 的关系,进行数据的预测。
应用场景
预测身高、预测销售额、预测房价、预测库存等等,
但前提是这些场景中的数据是符合线性分布的。
但前提是这些场景中的数据是符合线性分布的。
优点
简单易实现,运算效率高,可解释性很强
缺点
缺点是容易受到异常值的影响,对于非线性数据拟合效果较差。。
逻辑回归
原理
逻辑回归是一种分类算法,解决的是分类问题,
或者说,逻辑回归就是用来预测某个事情是
“是或者否”这样的概率
或者说,逻辑回归就是用来预测某个事情是
“是或者否”这样的概率
在线性回归模型基础上,
把原有预测的连续值转化成一个事件的概率,
用来解决分类问题。在实际应用中,
逻辑回归也可以在线性回归的基础上做进一步预测。
把原有预测的连续值转化成一个事件的概率,
用来解决分类问题。在实际应用中,
逻辑回归也可以在线性回归的基础上做进一步预测。
线性回归可以用来预测身高、销售额、房价、库存是多少,
逻辑回归就可以预测身高是高了还是矮了,预测销售额提升了还是降低了,
预测房价涨了还是跌了,预测库存够用还是不够用等等
逻辑回归就可以预测身高是高了还是矮了,预测销售额提升了还是降低了,
预测房价涨了还是跌了,预测库存够用还是不够用等等
应用场景
预测广告点击率、商品点击率、商品推荐、股价预测、产品销量预测
优点
简单易实现,运算效率高,可解释性很强,模型分布更集中,
缺点
对于非线性分布的预测结果不会很理想
KNN vs 道逻辑回归
朴素
贝叶斯
贝叶斯
贝叶斯
当不知道这个事物
实际情况的时候,
我们可以根据一些相关的条件
来判断这个事物的本质。
实际情况的时候,
我们可以根据一些相关的条件
来判断这个事物的本质。
条件概率
是事件 B 在另一个事件 A 已经发生条件下的概率,
记作 P(B|A),在统计学中,也称之为似然函数。
比如说,北京下雨后,发生道路堵车的概率。
记作 P(B|A),在统计学中,也称之为似然函数。
比如说,北京下雨后,发生道路堵车的概率。
先验概率
事件 A 或 事件 B 是根据经验来判断发生的概率,
记作 P(A)、P(B)。比如说,今天我面试了某厂的员工,
根据过去的经验这个公司来的员工都很优秀,
所以我判断这个人大概率也很优秀。
记作 P(A)、P(B)。比如说,今天我面试了某厂的员工,
根据过去的经验这个公司来的员工都很优秀,
所以我判断这个人大概率也很优秀。
后验概率
已经看到某个事情发生了,再判断这个事情发生原因的概率,
即在事件已经发生后,推测原因
比如:知道一个西瓜很甜,这个西瓜很甜的原因可能是土壤好,
光照充分等等。这个时候,一个西瓜很甜是因为它的土壤
非常好的概率,就是后验概率。
即在事件已经发生后,推测原因
比如:知道一个西瓜很甜,这个西瓜很甜的原因可能是土壤好,
光照充分等等。这个时候,一个西瓜很甜是因为它的土壤
非常好的概率,就是后验概率。
朴素
贝叶斯
贝叶斯
朴素贝叶斯就是在贝叶斯的原理上,
加了一个前提假设:
假设各个特征之间相互独立,
通过计算特征对于分类的
条件概率来进行分类
加了一个前提假设:
假设各个特征之间相互独立,
通过计算特征对于分类的
条件概率来进行分类
应用场景
朴素贝叶斯更适用于文本分类、情感分析、垃圾邮件分类这类场景,
朴素贝叶斯还会和协同过滤一起,使用到推荐系统中
朴素贝叶斯还会和协同过滤一起,使用到推荐系统中
应用案例
预测航班是否可能延误,给用户提一个航班延误概率的提示,
让用户自己做主是否有购买延误险。
让用户自己做主是否有购买延误险。
缺点
就是各个条件之间相互独立,互不影响。这让它的使用非常有局限性,
只有在条件比较少,并且相互独立的时候,朴素贝叶斯的效果才会比较好
只有在条件比较少,并且相互独立的时候,朴素贝叶斯的效果才会比较好
决策树和
随机森林
随机森林
决策树
基于树形结构的
分类和回归算法,
通过对数据集进行分裂,
构建一棵决策树
来进行分类或回归
分类和回归算法,
通过对数据集进行分裂,
构建一棵决策树
来进行分类或回归
特征选择:
从数据集中选择一个
最优特征作为根节点,
将数据集分为多个子集。
从数据集中选择一个
最优特征作为根节点,
将数据集分为多个子集。
基于信息增益(ID3算法):
选择信息增益最大的特征作为根节点,信息增益越大,
表示特征对分类的贡献越大。
信息增益是衡量一个特征对分类带来的信息量的指标。
选择信息增益最大的特征作为决策树的节点,
意味着选择该特征能够使得分类结果的不确定性减少最多,
从而使得决策树的分类效果更好。
选择信息增益最大的特征作为根节点,信息增益越大,
表示特征对分类的贡献越大。
信息增益是衡量一个特征对分类带来的信息量的指标。
选择信息增益最大的特征作为决策树的节点,
意味着选择该特征能够使得分类结果的不确定性减少最多,
从而使得决策树的分类效果更好。
基于增益比(C4.5算法):
选择增益比最大的特征作为根节点,
增益比可以解决信息增益偏向
于取值数目较多的特征的问题。
选择增益比最大的特征作为根节点,
增益比可以解决信息增益偏向
于取值数目较多的特征的问题。
基于基尼指数(CART算法):
选择基尼指数最小的特征作为根节点,
基尼指数越小,
表示特征对分类的贡献越大。
基尼指数是CART分类树算法中
用于选择最优划分属性的指标之一。
它衡量的是在某个属性上进行划分后,
分类的不纯度或者说杂乱程度。
选择基尼指数最小的特征作为根节点,
基尼指数越小,
表示特征对分类的贡献越大。
基尼指数是CART分类树算法中
用于选择最优划分属性的指标之一。
它衡量的是在某个属性上进行划分后,
分类的不纯度或者说杂乱程度。
决策树生成:
对每个子集递归地进行特征选择,
生成子树。
对每个子集递归地进行特征选择,
生成子树。
决策树剪枝:
通过剪枝来避免过拟合,
提高泛化能力。
通过剪枝来避免过拟合,
提高泛化能力。
预剪枝:
在决策树生成过程中,
设置一个阈值,当子树的样本量小于阈值时,
将该子树对应的节点标记为叶子节点。
在决策树生成过程中,
设置一个阈值,当子树的样本量小于阈值时,
将该子树对应的节点标记为叶子节点。
后剪枝:
在决策树生成之后,判断每个子树是否可以被替换为一个叶子节点,
如果替换后模型的泛化能力不降低,则将该子树对应的节点替换为叶子节点。
在决策树生成之后,判断每个子树是否可以被替换为一个叶子节点,
如果替换后模型的泛化能力不降低,则将该子树对应的节点替换为叶子节点。
决策树优点
具有树形结构所以决策树的可解释性强,直观好理解,
而且我们还可以从结果向上去追溯原因。采用决策树,
我们可以很方便地和领导、业务方、甲方去解释我们的模型是什么,
以及有哪些因素影响了模型的结果
而且我们还可以从结果向上去追溯原因。采用决策树,
我们可以很方便地和领导、业务方、甲方去解释我们的模型是什么,
以及有哪些因素影响了模型的结果
决策树缺点
当数据量大,数据维度(样本具有的特征或者属性,如价格、位置)很多的时候,
决策树会变得非常复杂,训练时间会很久
决策树会变得非常复杂,训练时间会很久
应用案例
银行客户信用评级。
银行可以根据客户的特征(例如收入、财产、信用记录等)构建决策树,
根据决策树分类结果将客户分为不同的信用等级,
从而决定是否给予贷款或者贷款利率等。
这种方法可以帮助银行降低风险,
同时也可以为客户提供更好的贷款服务。
银行可以根据客户的特征(例如收入、财产、信用记录等)构建决策树,
根据决策树分类结果将客户分为不同的信用等级,
从而决定是否给予贷款或者贷款利率等。
这种方法可以帮助银行降低风险,
同时也可以为客户提供更好的贷款服务。
随机
森林
森林
原理
多棵决策树组成,
随机指的是每一个决策树的样本
是随机从数据集中采样得到的。
假设, 模型由三个决策树 A、B、C 组成,
我们给每棵决策树都随机抽取样本进行训练,
由于这三棵树的训练样本不一样,
因此它们最后得到的决策结果有可能不同。
最后,我们再把这三棵树得到的结果做一个综合,
就能得到最终的决策结果了
随机指的是每一个决策树的样本
是随机从数据集中采样得到的。
假设, 模型由三个决策树 A、B、C 组成,
我们给每棵决策树都随机抽取样本进行训练,
由于这三棵树的训练样本不一样,
因此它们最后得到的决策结果有可能不同。
最后,我们再把这三棵树得到的结果做一个综合,
就能得到最终的决策结果了
三个臭皮匠赛过一个诸葛亮,
模型起点高、天花板低。
模型起点高、天花板低。
优缺点
模型的随机性很强,
不容易产生过拟合的情况,
但正因为样本是随机的,
所以模型对于样本数据的异常值也不太敏感
不容易产生过拟合的情况,
但正因为样本是随机的,
所以模型对于样本数据的异常值也不太敏感
学习来源: 刘海丰《成为AI产品经理》京东高级架构师 +Chatgpt学习查询
0 条评论
下一页