[AI知识-1]AI产品基础背景知识
2021-04-25 10:48:36 1 举报
AI智能生成
人工智能(AI)是计算机科学的一个分支,旨在创建和应用智能机器或智能计算程序。这些系统能够执行需要人类智能的任务,如视觉感知、语音识别、决策制定和翻译等。AI产品是基于AI技术的应用产品,它们可以广泛应用于各个领域,包括医疗、教育、金融、交通等。AI产品的基础背景知识包括机器学习、深度学习、自然语言处理、计算机视觉等。其中,机器学习是AI的核心,它使计算机能够从数据中学习并做出预测或决策。深度学习是机器学习的一个子集,它模仿人脑的工作方式,通过神经网络进行学习和预测。自然语言处理使计算机能够理解和生成人类语言。计算机视觉则使计算机能够理解和解析图像和视频。
作者其他创作
大纲/内容
AI是什么
定义
基于“机器学习”理论,由机器代替人的技术
对“机器学习”理论解释
由AI科学家建造的模型,经过数据训练过程中,模型自己总结规律(特定算法),然后它就会根据自己总结的规律,举一反三,遇到新的问题时,根据自己的总结推测出答案
AI解决方案比互联网解决方案有什么优势:再也不需要去归纳总结知识和规律,然后进行越来越复杂的编程,只需要用数据喂养机器,让机器完成所有工作。而且传统的互联网解决方案遇到需要求变时,是个头痛的事,因为直接让工程师对程序、算法进行修改的过程中会需要考虑很多既有程序带来的限制及改动后的未知风险(同时也容易造成人力成本更高),而AI模型是可以迁移、叠加利用的,所以需求变化时,少了很多既有积累的东西带来的问题。
AI模型是个“中间件”,不能直接与用户完成交互,所以AI还是需要借助传统的应用程序,应用程序直接与用户进行交互,同时提交输入数据给模型,模型处理后返回输出数据给应用程序,应用程序再转化为合适的呈现方式反馈给用户。
AI应用的根基(数学理论--机器学习理论--基础技术--AI应用)
数学理论是AI的根基第一层(涉及到的数学理论包括:线性代数、概率论、统计学、微积分)
数学理论的基础上研究出机器学习理论。机器学习理论是根基第二层(机器学习分类为:监督学习、无监督学习、强化学习、迁移学习、深度学习)。
机器学习理论的基础上研究出“基础技术”。基础技术是根基第三层(基础技术包括:机器学习ML、深度学习DL、语音识别ASR、语音合成TTS、图像识别(计算机图像)CV、机器视觉(MV)、自然语言理解NLU、自然语言处理NLP)
基础技术支撑AI应用得以实现。
技术分层
认知
通过收集、解析信息对世界和环境进行认知。包括图片处理技术、语音识别、自然语言识别技术。
预测
预测行为和结果。比如在用户行为研究的基础上根据对用户当前行为的识别,预测用户下一步想做什么,然后主动满足用户。
决策
确定实现的方式和路径。比如AI代替医生给病人看病,得出病症和治病方案。
框架及语言
框架
TensorFlow、Caffe、Torch、Theano等等,目前大部分工程师利用的是tensorflow。
按照官方的教程安装TensorFlow,安装好之后,你就可以用它提供的多个API来训练机器学习模型了。具体的教程可以参考TensorFlow官网http://www.tensorflow.org/,不想看英文的也可以参考TensorFlow中文社区-首页
语言
AI编程可以利用多种计算机语言,目前最常用的是C++和python
AI 的价值
AI 的意义相同于移动互联网在2010年对于市场的意义,会带来无限的新商业机会,以及改变多个行业或领域的现状。互联网的价值在于降低成本、提高效率;而AI 可以替代人力,让成本直接为0,其蕴含的市场价值更高。
AI的边界
目前的AI还是有明显边界的。
1秒法则
当前的AI可以实现到处理人1秒内可以想到答案的问题。而且这个问题还得满足以下特点:大规模、重复性、限定领域
面对具体需求时,边界的认知极其重要(对边界的认知需要建立在对目前AI技术的整体理解基础上)
分析该需求用什么AI技术--分析用什么模型--根据所用模型算法范围等判断能实现到何种程度--通过该需求需要何种质量、何种标签的数据来判断提供数据的难度--理解云计算能达到的计算力(或者自备服务器进行计算)--判断该需求能否通过AI 方案解决或能解决到什么程度
帮助理解AI边界的三要素
算法模型
算法模型已经介绍过了,现在深度学习模型已越发成熟,算法的支撑已经足以解决大多数领域的问题
计算力
云计算的成熟使得计算能力得到了保证(且为了获得高计算能力的成本得以控制)
数据
互联网公司的发展,各种互联网产品的成功,都保证了数据的多样性和体量。
AI的市场情况
AI应用分类
关键性应用
需要算法准确度在99.9999%以上的应用。比如无人驾驶汽车、手术机器人等。
非关键性应用
只需要算法准确度在99%或95%以上的应用。例如人脸识别、广告推送等。
AI的市场化
由于云计算解决了计算力的问题,又有开源算法以及Google等公司开放的框架可利用,很多AI产品的落地条件只剩下找到数据了。而一些有数据积累的互联网公司在这一点上具备先发优势,比如百度、阿里、腾讯,都开始抢夺下一个商业风口(AI)了。百度已经是all in AI 了,目前百度的无人汽车驾驶已经初见成效,离大规模商品化不远。阿里利用AI为自己的服务进行各种升级,比如人脸识别、人脸解锁等等,现在阿里布局的新零售线下无人超市等必不可缺AI支持。腾讯的计算机识别相关软件已经成熟并等待深度商业化。
更多市场参考请查看ai.qq.com 以及aliyun.com等等
另外一些小一点且针对领域相对垂直的互联网公司,如喜马拉雅、美团等,都开始为自己的应用或服务AI 赋能。(此处针对非关键性应用介绍)
硬件(软硬结合)为载体
喜马拉雅出了AI音箱,配合自己的app,提高用户体验
仍以软件为载体(在原应用上AI升级)
美团在原外卖app上加入AI 功能,提高用户体验
硬件(软硬结合)及软件
硬件(软硬结合)的AI包括无人驾驶汽车、手术机器人等
软件的AI,小至一个app的程序中封装一个SDK。让一个app有了智能的一面,比如淘宝app的推荐智能度就是靠类似的方式。
在真实的机器人上训练模型慢且昂贵。解决办法是先进行模拟学习(即先只限于软件上学习),将模拟学习学到的知识迁移到现实世界的机器人训练中,这里源域和目标域之间的特征空间是相同的。
AI 市场的需求
目前人才需求是市场第一需求。人才包括新兴岗位:AI算法科学家、AI工程师、人工智能训练师、AI产品经理、数据标注专员。涉及到关键性应用时,AI算法科学家、AI工程师是最稀缺且第一需求人才;涉及到非关键性应用时,AI产品经理为最稀缺且第一需求人才。
目前市场在尝试各行各领域的AI产品,但由于AI产品经理的匮乏,大部分进展过慢或难以开展。市场需要更多的合格的AI产品经理,合格的AI产品经理需要对AI认知全面且懂得如何与实际的市场需求相联系,同时还需要有对新的需求场景的开发、摸索(所以AI产品经理还是得具备行业经验,对行业理解深刻)。
AI项目中的分工
AI科学家
岗位职责:研究机器学习算法、AI模型(通常只有关键性应用的项目才会需要AI科学家)
AI工程师
岗位职责:利用模型进行编程,以及负责数据训练的操作
AI训练师
岗位职责
通过分析产品需求及相关数据,制定数据标注规则,提高数据标注工作质量和效率,同时累积细分领域通用数据
岗位需求背景
1)数据标注是AI项目中最重要的环节之一。一般情况下需要由数据标注员来完成数据标注(即给训练数据打标签),但是数据标注员对数据的理解的不同会造成标注质量差异大,导致整个标注工作的效率和效果都不好。
2)AI公司在其细分领域可能累积了大量数据,但是由于缺少对数据的正确管理,使得这些数据难以沉淀、复用,使用一次之后难以再发挥价值。
所以AI训练师成为了必要。
具体工作内容
通过聚类算法、标注分析等方式,以及凭借对行业的理解,从数据中结合行业场景提取特征。输出表达清晰准确的数据标注规则。
辅助AI工程师的工作,并进行数据验收。参与核心指标的制定以及指标监督。日常跟踪数据。(偏向于运营的工作)
根据细分领域的数据应用需求,从已有数据中挑选符合要求的通用数据,形成数据沉淀、积累。
提出细化的数据需求,以及提出产品优化建议。该工作需要和AI产品经理进行大量沟通
分配数据标注员的工作,对数据标注员的工作进行培训、指导。以及验收数据(检查数据标注员工作结果)。该工作需要和数据标注员进行大量沟通
两个侧重方向
AI训练师有两个侧重方向:一是重前期的数据挖掘工作及辅助AI工程师的工作,保证产品落地。二是重后期的产品运营,提升产品体验。根据不同项目的需求而定侧重方向。
能力模型
数据能力
会使用科学的数据获取方法,能利用excel之类的数据处理工具
行业背景
熟悉公司行业领域知识,以及数据特点(比如语言、图像)
分析能力
基于产品数据需求,提炼问题特征,输出优化方案
沟通能力
能通俗易懂的阐释专业术语,与各岗位同事交流都能切换频道
AI技术理解能力
特别是跟AI工程师交流时能厘清AI概念,并判断技术边界(能不能做,能做到什么程度)
AI行业理解能力
具备AI行业知识体系
AI产品经理
岗位职责
理解行业及用户,收集/挖掘需求、分析需求,做出产品战略规划,并设计产品解决方案、分析最佳的AI解决方案(比如用什么AI技术、哪一个模型),与AI训练师沟通、AI工程师沟通,完成产品demo,推动产品上线,跟踪数据,做出产品优化方案
岗位需求背景
无论在哪个领域,做产品都需要产品经理。只不过在AI领域,需要对AI行业知识理解深刻的产品经理,这样的产品经理具备边界判断的能力以及判断最佳解决方案的能力,我们把这样的产品经理叫AI产品经理。
具体工作内容
调研行业,理解行业业务,收集或挖掘行业需求
深刻理解需求,分析目标用户,输出用户画像
定位产品,制定产品战略(结合对市场发展趋势、竞品等的理解)
判断、选择最佳AI解决方案(带着需求和产品规划与AI工程师、AI训练师深度沟通),参与制定数据标注规则
设计产品,输出产品demo及各种文档(流程图、PRD等)
向AI训练师收集产品优化建议
优化产品
评估产品,计划开发(UI设计及开发)阶段、周期。制定验收标准
验收产品,与运营对接,上线
能力模型
AI技术理解能力
特别是跟AI工程师交流时能厘清AI概念,并判断技术边界(能不能做,能做到什么程度)
AI行业理解能力
具备AI行业知识体系
传统互联网产品经理的能力模型
数据能力
行业背景
逻辑分析能力
保证AI解决方案能与产品合理结合,同时高精度满足需求
沟通能力
能通俗易懂的阐释专业术语,与各岗位同事交流都能切换频道
对交互、用户体验的理解能力
对移动互联网产品对应的操作系统的理解能力
高质量文档输出能力
管理能力
创造力
数据标注员
岗位职责
负责给数据打标签的执行工作
岗位需求背景
数据标注是个工作量极大的工作,且专业度要求不高
具体工作内容
按照规则预训练,评估规则及工时
按规则完成要求的数据标签
交付已标注数据
一份可参考工作流程图
分支主题
AI产品经理 VS AI训练师
AI产品经理和AI训练师具备类似的能力模型,只是工作侧重点不同,AI训练师负责更细分的数据工作。目前市场上的AI训练师大部分来自产品经理的转型。而AI 产品经理可以直接兼顾AI训练师的职责,即不需要AI训练师,只需要AI产品经理。
产品经理为自己的产品AI赋能
很多移动互联网的产品都可以进行AI升级,所以建议产品经理们进行AI学习,可以为自己的产品进行AI赋能。(此处我们只针对于分关键性应用进行讨论,即不需要AI科学家的岗位,只需要懂得利用开源框架和模型即可。)
用AI解决方案代替传统的算法解决方案
举例:新闻app的智能推荐功能
例如,以前今日头条的智能推荐功能是基于对用户行为路径的研究得出的用户模型,根据用户的过去行为产生的数据,对用户当下想看的或喜欢的内容进行预测并推送。概括讲就是通过研究先找到用户行为跟用户喜欢之间的映射关系,然后根据映射关系写好算法。该解决方案的缺陷是:1、找到准确的映射关系难度大,并且很可能遗漏很多规律。2、需要对用户体验进行优化就需要更新算法,工作量大,且优化周期偏长。3、产品体验跟算法工程师的技术能力直接相关,并非每一个公司都有足够优秀的算法工程师。
用AI方案替代:直接利用数据进行训练,让模型在学习的过程中自己找到映射关系,然后接入应用。优点是:1、可以找到人未能总结出的一些规律,效果可能出乎意料。2、AI自己时时刻刻通过数据进行自我升级。3、即使没有算法工程师,也可以实现智能推送效果。
在原app上添加AI功能
举例:外卖app
利用AI增加个性化界面功能
让app调用AI模型,利用用户数据对AI模型进行训练,让AI找到不同行为的用户分别有什么点餐习惯或者说属于什么用户行为模型。当用户进入app时,根据用户之前的行为数据,展示界面定制化呈现。
利用AI帮助用户更快做出更佳选择
用户进入外卖app时,可以直接语音提问:今天哪些店铺活动中?有什么粤菜新店?...经过语音识别、语音合成、专家系统训练的AI会迅速得出答案并回复用户,同时带上链接。如此用户就可以快速完成下单。(其实AI对移动互联网的升级有更多方式,这个需要靠产品经理对业务、用户需求有足够深度的理解并挖掘出来)
重要的关键词理解
拟合
拟合是用来形容训练结束后效果好坏的
欠拟合
当训练数据少、数据质量差的时候,训练出来的模型质量就差(或者说损失函数过大),这时进行测试的时候,就会出现误差大,即“欠拟合”状况。
过拟合
在训练阶段,反复用同样的训练数据进行训练,可以让训练效果变得更好(损失函数小),但同时机器会因为要达到最好的训练效果,将训练数据中不重要的特征或只有训练数据才有的某些特征进行利用得太重或开始学习不需要的细节,也就是说机器对训练数据太过依赖,最后就会出现在训练数据上表现特别好,但在其他数据上表现不佳。这样的情况叫做“过拟合“。
最佳拟合
欠拟合、过拟合都不是我们需要的。我们要的是最佳拟合。所以我们在训练机器时要注意平衡。最佳点在哪里呢?最佳点在训练的损失函数还在减小,而测试的损失函数在减小之后突然开始增大的该点上。此时我们就达到了“最佳拟合”。
泛化性
训练好的模型在其他数据上的表现好坏用泛化性形容。在其他数据上表现越好,泛化性越高
损失函数(loss)
用于评估“不准确”的程度,它是衡量模型估算值和真实值差距的标准。损失函数(loss)越小,则模型的估算值和真实值的差距越小,通常情况下我们要把loss降到最低。
香农熵
形容信息量大小。机器学习中重要是用于衡量特征的数量多少。一个数据的特征越多,说明我们可以从这个数据中获得的信息越多,也就可以说香农熵高。顺便提一下,决策树的生成过程,就是降低香农熵的过程。
标签
指给数据标记的答案。标记好答案的数据叫做“标签数据”。
特征值
特征(feature)的值。比如房子有特征(feature):空间、价格。它的特征值:(空间)200平方米、(价格)1500万。一般在机器学习的监督学习中,我们需要对训练数据进行特征提取的处理,即标记好每个数据有哪些特征和对应特征值。
当特征值损失的情况
在实际的机器学习过程中,有时候会发生数据缺失的问题,比如一个数据有X个特征,但是由于意外发生,我们只得到部分(小于X)特征的值,在这种情况下,为了不浪费整个样本资源,且可以顺利的继续机器学习,我们需要有一些弥补措施:1)认为设置某些特征的特征值(根据经验),然后利用;2)找到相似的另一组样本,用另一组样本的特征平均值代替缺失的特征值;3)用其他的机器学习模型专门针对缺失的特征值进行学习然后利用该模型找出缺失特征值;4)使用已有特征值的均值来替代未知特征值;5)在机器学习过程中用一些方法,让机器忽略已缺失特征值的数据。
类别
物以类聚人以群分,特征相同的数据就是同一类别。机器学习中特别重要的一个步骤就是利用算法将数据分类(学习算法里边会提到多种实现数据分类的算法),机器会尽量将所有输入数据进行分类,分类的逻辑就是通过数据的“特征”,特征接近的数据会被机器认为是同一类数据。
分类 & 聚类
分类是目前最简单也是效果最好的一类算法(比如KNN、决策树ID3、logistic回归、SVM等都属于分类算法)。分类算法的前提条件是训练数据必须带有标签。
聚类是目前相对分类更复杂同时效果更差的一类算法(无监督学习就是用聚类算法)。聚类算法的优势是可以训练数据不需要标签。表面上看来分类算法比聚类算法好用很多,那我们还要用聚类算法的理由是什么呢?其实,在实际情况下,训练机器时,要给数据打标签是个人工消耗极大的工作,不仅工作量大,很多时候对数据打准确的标签难度也大。
举例
在自然语言处理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句话的标签
决策树
根据数据的特征值对数据进行不断分支,直到不可再分支(附 决策树形象图)。决策树的每一次对数据分支,就消耗一个特征值。当所有特征值消耗完后,决策树成形。决策树的每一个节点,即每一次对特征分支时,通常以yes/no的判断形式进行划分。决策树的理论是AI建模所依靠的重要基础理论之一。
示意图
子主题 2
知识图谱
知识图谱是模拟物理世界的实物与实物之间的关系,知识图谱呈现为无限扩散的类网状结构。它的结构组成为“实体”--“关系”--“实体”,以及“实体”--“属性”--“值”。知识图谱使得AI找到一个信息时,同时也获得了更多跟跟这个信息相关的其他信息。
子主题 1
AI产品经理需要推动的重要产品流程
分析用户需求,找到痛点并思考用什么样的AI方案进行解决
设计产品的后台数据采集功能,保证数据的采集更方便机器学习时利用。(设计产品时,要分析出机器学习时需要的数据量、数据类型以及数据特征)
与AI训练师沟通制定数据标注规则
与AI工程师进行交流,告知AI工程师需要的AI模型,预期效果,以及与客户端的数据交互需求。
与用户端工程师进行交流,告知AI如何与客户端进行数据交互。
设计客户端,推动客户端开发实现
数据训练机器
准备样本数据(训练数据和测试数据)
为训练数据打标签
输入带标签的训练数据
输入测试数据
查看拟合情况,或调整模型参数
循环训练直至达到最佳拟合
检查训练后的AI模型是否满足需求。若不满足,与AI工程师共同分析问题并找出解决方案
将成型的AI产品面对“用户角色”测试,无问题后上线正式运营
0 条评论
下一页