智能语音系统能力分析
2023-06-29 10:54:48 0 举报
AI智能生成
全面解析智能语音(对话)系统能力范围。 注:非原创
作者其他创作
大纲/内容
一、对话理解能力
对话类型(不同的对话类型可以满足不同的实际业务需求场景)
基础能力
支持任务式对话
支持问答式对话
支持闲聊式对话
单轮闲聊
多轮闲聊
可结合上下文信息理解对话意图
高级能力
支持知识图谱回答
问答式对话支持使用知识图谱回答
支持推理对话能力
如条件组合查询推理
排序查询推理
关系推理
通用理解能力(服务与对话理解和用户交互体验中的测试、应用等环节)
基础能力
支持冷启动
支持语义纠错
方言纠错
拼音纠错
情绪识别
根据话术、语境等请别对话人情绪
意图理解泛化
用尽量少的语料支持识别多样性的表达方式,如用户被骗了可以说被坑了、损失了XX钱、上当受骗等
实体提取
比如支持从对话中提取手机、姓名、年龄、城市等实体信息
高级能力
支持一句话多意图识别
任务式对话理解(任务式对话式通过对话理解用户正确的任务要求或指令从而完成任务执行)
基础能力
支持多轮对话上下文理解
包括历史的输入信息、意图、槽位等
支持对话状态跟踪能力
根据领域(domain)/意图(intention) 、槽值对(slot-value pairs)、之前的状态以及之前系统的Action等来追踪当前状态
支持定制不同的对话策略能力
定制化的对话回复和任务指令
回复文本生成(NLG)
支持上下文关联/意图继承
支持槽位缺失反问、对话澄清功能
若当前节点的必填槽位未成功收集,槽位澄清话术和最大次数设置等
支持槽位信息存储调用
包含槽位信息收集、槽位信息存取以及被第三方系统调用全过程
多任务切换
用户多意图切换,比如插话
高级能力
支持指代消歧能力
正确理解用户输入的代词与上下文实体的关系
支持槽位修改
支持特征词设置
具备特征词字典且可编辑
问答式对话理解(指客户定制问答知识库,用户输入“问题式”文本请求,可以使用算法在问答知
识库中检索,使用“答案”来回答用户的“问题”)
识库中检索,使用“答案”来回答用户的“问题”)
基础能力
支持“多答案”回复,实现同一问题多样回答的灵活应答
支持多问答式对话
FAQ问答
表格问答
回答有效期
可设置回答的生效时间和失效时间
敏感词回答
敏感词识别、敏感词回复
问句联想和推荐
高级能力
支持文档回答
支持推荐反问、启发式问答
引导对话完成多轮的对话问答
支持多模态信息的输出
支持文本、图片、音频、链接、视频、数字人等
支持多意图识别
支持长句问题识别
比如叙述性问题
闲聊式对话理解(指用户输入没有特别明确意义的语音和文本,也可以进行交互对话的能力)
基础能力
支持闲聊数据库内置
可配置多类型闲聊
支持多种闲聊方式
单轮闲聊、多轮闲聊
自定义闲聊
可自定义闲聊类型和答案
多领域闲聊
比如知识科普、娱乐文化等;
多答案配置和随机回复
生成式多轮聊天
在缺少相应知识数据时,可对上下文信息的理解给出符合逻辑的回复,且能对对话进行有效的保持、诱导
话题点理解与识别
理解与识别对话中有独立表意能力的语义片段
多模态对话内容的识别与回复
包括但不限于文字、表情、图片等对话内容
对话人特征理解
如性别、年龄、名字、基础社会关系等
多角色感知
多轮对话中的各个角色区分
高级能力
支持对话风格设定
温柔风、二次元风等
支持根据地点、时间、环境等场景进行场景化的回复
支持闲聊库内部领域划分
每个领域可以单独拆分进行使用
支持生成个人画像
可提供个性化回复
推理对话(是指问答对话或其他对话类型,支持相关的条件推理)
支持条件组合查询推理
包括“与、或、非”等条件组合
支持排序查询推理
如价格、时间、 年龄等排序方式
支持关系推理
包括人和人、人和物、物和物
支持通过对话做条件检索返回检索内容
特定回答策略(指除了能正确回答用户的问题,完整执行多轮对话任务,还应该在一些特殊情况
下有良好的应对策略)
下有良好的应对策略)
支持转人工
如连续多次发问、连续多次系统无应答、负面情绪时系统可自动触发转人工机制;
支持商机、商业能力等特殊意图的识别能力
提供针对性的主动推荐、主动营销等服务
二、对话搭建能力(对话流程搭建是否操作简单、调试便捷、开箱即用)
资源调用(在对话构建过程中,用户可以通过调用平台内部或外部资源达到简化对话构建流程、减少重复建设及丰富对话内容等作用)
基础能力
支持预置资源调用,包括但不限于预置机器人、预置模板、预置技能、预置机器学习模型、
实体库、专属词、敏感词等
实体库、专属词、敏感词等
支持外部资源导入,包括但不限于文档、知识库等
支持外部资源链接触发,比如Deep Link(深度链接)
支持子流程导入
支持字典导入,包括热词、专有名册、白名单、黑名单等
支持词槽导入,比如词槽别名、关联词典等
支持API管理,包括但不限于自定义接口、系统接口、白名单、黑名单等
支持调用系统内置多媒体资源,比如音频、视频等
高级能力
支持意图解析器导入
支持命名实体解析器导入
资源管理(用户在搭建智能对话平台时,平台能够提供必备的工具来帮助用户在配置schema、
构建对话流程等过程中便捷、高效地完成对话机器人的开发和使用)
构建对话流程等过程中便捷、高效地完成对话机器人的开发和使用)
基础能力
支持意图管理
意图基本信息
关联词槽
对话回应方式
触发规则配置
问答库管理
问答对的批量导入、导出
相似问题及问题模版的配置
多答案及触发规则的配置
流程片段管理
节点进入条件配置
执行模块配置
父子节点调整关系的配置
知识图谱管理,包括增删改查、数据抽取、数据编辑等;
知识图谱结构管理,包括类目、属性、数据类型、值数及对应别名管理等
知识图谱的词表管理,包括停止词、最值、差值等
模型训练,包括训练数据及训练策略的选择、模型效果的评估
结构化文档问答交互资源管理,包括自动配置知识问答、用户画像配置
多轮对话资源管理,包括设定全局变量
高级能力
流程片段装配
对已有流程片段的装配
执行顺序的排序
文档问答中的文档管理,支持TXT、doc、docx、pdf等格式文档的导入、导出。
问答对分类标签管理
多标签分组管理
根据标签应答渠道配置
支持以Excel格式的形式对整体(全量数据)或者部分(同义词,停用词等槽位置)结构化知识进行导入导出
支持任务式对话对结构化知识对话的能力的引用,用户可以实现从咨询到办理(任务)的对话场景。
其他设置
模型识别依存设置
对话回应设置
阈值设置
复杂流程设置
数据建设(平台应支持用户对其权限内的数据进行管理操作,包括但不限
创建、修改、删除、导入、导出、发布等,并在平台内部实现数据流转的闭环,以保证更好的对话效果
与数据沉淀。)
创建、修改、删除、导入、导出、发布等,并在平台内部实现数据流转的闭环,以保证更好的对话效果
与数据沉淀。)
基础能力
对话系统数据建设,包括基本信息、欢迎语、话术内容管理
问答库数据建设,包括批量问答知识处理,推荐问题、相似问题、匹配杜设置等管理
富媒体交互建设,包括语音、文字、图片、视频等数据管理
通过标准工具对平台数据进行清洗与优化
平台知识库的管理与审核
扩展问管理,包括增加、推荐扩展问等
数据管理及审核,包括FAQ问答数据、表格问答数据、文档问答数据、图谱问答数据
训练数据构造,包括对话模板、对话样本、样本标注及词槽管理等
模型数据集管理
数据集信息的展示和下载
评估集与测试集的生成、上传、删除等管理操作
训练和评估的结果信息展示和下载
高级能力
数据增强,使用推荐或生成的方式,增强语料的丰富程度
对数据操作记录审计,包括审核内容查看、增删改的审核、审核流程记录查看,提审详情查看
可视化搭建(台能支持进行可视化搭建技能,能对针对条件判断、技能回复、关键字提取进行
可视化配置。可以在平面上完成新增、关联、链接、拖拽、替换、删除等操作。完成从意图识别到动作
执行全套方案。所有动作和条件判断,可以流程图方式进行呈现,程序动作可根据流程顺序执行)
可视化配置。可以在平面上完成新增、关联、链接、拖拽、替换、删除等操作。完成从意图识别到动作
执行全套方案。所有动作和条件判断,可以流程图方式进行呈现,程序动作可根据流程顺序执行)
基础能力
可视化搭建基本操作,包括新增、保存、链接、拖拽、删除、替换、词槽控制、选择节点等
流程图展示,包括完整流程图的展示、放大、缩小、更换布局、画布的自动排版
节点流转的多种条件判断,包含意图判断、实体判断、Query关系词判断、全局变量判断等
几项基本操作的功能节点,包括对话回复、实体收集、资源调用
可视化测试,包括可视化的对话测试窗口、上下文对话、对话重置、对话内容清空
可视化调试,如节点流程检查、错误原因提示
可视化训练,包括训练发布流程,版本维护
高级能力
流程指引和流程预测指引
根据前述流程生成后续流程
根据当前行为预测指引用户接下来的操作
流程错误提示
多个流程间的打断及恢复
恢复话术配置
表达式执行,包括通用表达式执行、自定义表达式执行
代码可视化编辑与执行,包括python、nodejs等代码的可视化编辑与执行
流程自动化构建,将流程素材自动构建成可视化可编辑的流程
对话功能搭建(系统在搭建问答功能、对话功能、知识图谱的过程中,需要实现的搭建流程)
基础能力
答案富文本回复配置,如富文本、图片、链接等
回复干预配置,包括干预规则的配置、关键词词典的配置
即时测试
发布上线
不同对话类型搭建能力
问答功能
支持FAQ问答基本操作、包括导入、创建、编辑、删除、状态变更、标准问题、关键词、答案等
支持表格问答基本操作,包括表格的上传、删除,训练模型、训练目录等
支持文档问答基本操作,包括文档上传、删除,训练模型、训练目录等
支持闲聊问答基本操作,如启动闲聊、配置问答、回复干预
支持图谱问答基本操作,如训练模型、训练目录
对话功能
支持引导式对话搭建,包括新建技能、技能搜索、时间检索、添加意图、相似意图、意图关键词、引导话术、引导问答、答案编辑
支持任务式对话搭建,包括意图管理、槽位识别、穿件新词槽、复用已有词槽、问法规则、机器人回应、意图相似度、承接自对话
支持任务式对话流程图界面,使用可视化的流程图表示对话策略等信息。同时可对该流程图进行修改、拖拽、添加、删除等定制化操作
知识图谱功能
支持知识图谱结构定义,包括节点类型、节点属性、关系、关系属性的增删改查等操作
支持问法模板配置,包括根据类目、实体、属性、属性值、最值、差值的句式模板配置
支持图谱生产,包括知识抽取、属性映射、数据清洗、消歧归一
高级能力
会话异常管理,当出现异常时对存量数据进行保存,并判断异常原因,尝试重连,会话回复后可继续之前的会话内容
推荐问题配置,如添加关联问题
多意图能力构建
语音能力搭建
语音唤醒能力,通过“唤醒词”开启语音交互
语音识别能力,包括提供可视化的界面个工具,通过界面操作即可针对性的自主训练和优化语言模型,无需改动语义对话和编写代码
语音合成能力,将对话回复文本合成语音,包括提供自主训练音色工具
全双工语音交互能力
三、优化能力
对话调试(交互模型搭建完成之后,开发者对这个交互模型功能的调试工作,此阶段重点验
证交互模型的功能是否满足预期)
证交互模型的功能是否满足预期)
基础能力
对话模块快速调试,通过快速体验、输入文本即可判断对话模型是否搭建成功
对话调试结果输出,如调试结果展示、异常错误输出、实时执行日志输出等
固定部分流程的模块级调试功能,如仅测试语义模块、仅测试交互逻辑模块等
交互模式快速迭代能力,如即改即用
多种调试方式,如可视化调试、脚本调试、接口调试
调优工具,如标注工具、分析工具、质检工具、模板规则调试工具
高级能力
多用户调试,如模拟多轮对话、多人交互、并发交互等;
调试回放,如可查看上一轮的调试过程、错误复现等
调试效果实时优化
知识推荐或引导
对话测试(开发者完成交互模型功能的调试工作后,进入测试流程。此阶段重点验证交互模
型在复杂场景的功能表现)
型在复杂场景的功能表现)
基础能力
交互模型沙盒测试,在开发版本与生产版本中存在可稳定运行的测试版本
测试集管理,支持用户上传交互模型的功能测试集、效果验收集
多交互模型干扰测试,如多个相似交互模型的同步测试,验证目标交互模型的召回率;多个不相干对话模型的测试,验收目标交互模型的误吸收率
测试结果导出,批量导出交互模型的测试结果
指标评估,如准确率、实时率、精准率、召回率
进度管理,如查看测试总进度和单个测试的进度
管理测试数据,如增删改查、上传下载和实效管理
管理测试执行,如定时测试,终止测试
高级能力
测试报告生成
展示功能测试集、效果验收集的覆盖率
展示交互模型的召回率、误吸收率
测试过程管理,如多次测试结论的汇总
可追溯匹配的相似问、指令、指定相关问题、情绪值
自定义测试,如按维度测试、按分类测试
复杂测试场景生成,如构造仿真测试环境、构造用户仿真输入、构造异常输入
支持不同压力测试,如高并发测试交互模型
对话调优(在发现交互对话的功能设计缺陷、流程薄弱项后优化交互对话的过程,此项考察平
台是否具备快速修复并投入使用的能力)
台是否具备快速修复并投入使用的能力)
基础能力
快速发现交互链路的薄弱项,如全链路测试、真实场景测试等
快速发布上线,包括云端发布、全网即时生效
语义效果优化,阈值优化、回复话术优化、敏感词
对话逻辑优化,如流程跳转、打断恢复、拒绝识别、上下文理解、回溯等
可视化调优工具,可直观调试发现节点或流程问题
高级能力
对话规则学习,如对话模板、实体识别、自定义规则
二次调整优化
多种类型的文本分析,并依据分析结果进行优化,如意图、实体、问答、闲聊、态度、情感、敏感词
相似度对比,如单句相似度对比
答案生成干预,如支持添加桔子前后缀、输出固定回复
干预案例纠正,发现影响因素
快速发现交互链路的薄弱项,如部署硬件测试
确实问题的自动聚类,实时调优提升知识覆盖率
歧义问题的自动推送,实时调优提升直接回答比例和准确率
数据富集(在对话理解中需要针对效果问题,开展针对性的语料收集。平台需要提供相关的能
力,便捷开展语料扩充)
力,便捷开展语料扩充)
基础能力
从真实使用场景的用户请求中进行数据富集,比如用户问法聚类,未理解语料挖掘
多种类型的富集,如外部互联网数据、关键词检索语料、默认回复、建议问题
基于领域和意图分类技术的语料富集能力诊断分析
通过语义相似度技术收集语料进行数据富集
高级能力
数据富集相关算法的控制,比如自定义参数管理、阈值、匹配度等
多渠道数据源收集,如文档抽取、对接第三方数据源
多种类型的数据标注,如人机耦合标注、多人协同标注
通过数据挖掘形成知识数据库
诊断分析(平台能对用户的交互数据进行记录、统计、分析,对开发者输出不同维度的统计指
标,供开发者进行运营数据分析)
标,供开发者进行运营数据分析)
基础能力
日志记录,如对话路径记录、分析结果记录
日志管理,如记录导入、导出、操作等
解决率统计和导出
未知问题的统计和导出
回答或对话数据的分析,问答或对话数据的统计
配置诊断,运营情况
对话系统数据统计,如会话数、消息数、服务时长、覆盖率、平均消息数、高频问题统计
异常管理,如行为报警、日志记录
系统健康度评估,如知识覆盖、案例分析
高级能力
多环境统计汇总,如研发环境、生产环境、汇总数据
自定义报表字段
分类统计,如问答、流程、意图、实体、闲聊、文档
模型优化(对话构建之后,通过对交互数据分析,对对话中涉及到的机器学习或深度学习模
型进行迭代,以保障体验效果持续优化)
型进行迭代,以保障体验效果持续优化)
基础能力
模型的全量数据重新训练
模型自动部署与版本记录
模型管理,如新增、删除、筛选、编辑、发布、上线,根据数据类型进行筛选
语料管理,如导入、筛选、新增、删除、编辑、下载训练集和测试集,根据时间和数据类型进行筛选
线上训练闭环,无线下流程,保障数据安全和准确,模型训练结果实时更新
模型效果自动验证
内置训练词表
模型参数优化,重新选型、多模型联合等多种方式
高级能力
模型的增量训练
减少负样本对意图的干扰,如系统预置负样本和负面语料
对话样本推荐,基于大数据推荐、基于同义推荐对话训练数据
多种类型的训练方式,如快速训练、深度训练、多轮训练
分钟级模型迭代
四、定制能力
交互语种定制(可以根据需求进行语种选择,并根据语种选择进行对话配置,测试及正式应用
时均可支持根据选择进行对话能力的输入和输出)
时均可支持根据选择进行对话能力的输入和输出)
基础能力
支持简体中文对话内容配置、识别和答复
高级能力
英文对话内容配置、识别和答复
支持其他外语如日语、韩语、法语等对话内容的配置、识别和答复
支持繁体中文内容的配置、识别和答复
支持方言对话内容的配置、识别和答复
交互模态定制(可以选择通过语音、文字、视觉、动作、环境等多种方式进行人机交互)
基础能力
可选择对话交互触发方式,如语音、文本、点击事件等
可选择对话交互理解方式,如语音、文本等
可选择回复形式,如语音回复、文字回复、图片回复、链接回复、视频回复等
高级能力
支持选择多模态交互方式,如语音交互、纯文本交互、图片视频交互、数字人多模态融合交互等
支持语音交互中唤醒词定制
支持语音交互中选择语音合成风格和语种
个性化属性定制(用户可根据需求自定义设置回复策略及属性)
基础能力
支持召回阈值设置,如任务式对话阈值设置、问答式对话阈值设置
支持对话服务识别异常设置
语音识别异常
意图识别异常
词槽识别异常
支持对话状态(session)清空逻辑设置
支持设置引用平台外部资源进行对话回复
支持个性化回复设置,如欢迎语设置、兜底回复设置等
支持延迟发送设置,模拟人工回复速度延迟发送
支持对话类型响应优先级设置
支持打断恢复设置,对话中节点被打断,进行恢复对话或者进入到下一个对话流程
支持静默设置,对话过程中识别用户静默时长并设置相应回复
支持对话系统拟人化信息设置,让产品拟人化,如姓名、生日、籍贯、联系方式、社会关系、喜好等属性的设置
高级能力
支持口语化词管理,口语化词在语义解析时会被自动忽略掉,提高解析准确率
支持黑名单词表回复逻辑设置,命中黑名单词后触发特定对话策略逻辑
支持提供自主接口,允许高级客户自主编写高级对话策略
支持第三方信息来源设置,选择不同的内容供应商,返回客户真实有用的数据,例如天气具体情况,音乐的播放链接
训练算法定制(用户可根据实时响应速度、准确率等需求选择合适的算法模型)
支持用户依据实际需求选择合适的训练算法模型
五、对接部署能力
平台对接
平台接入能力(是指由平台资源引入能力。即考察外部相关能力是否可以接入到对话平台的对话交
互链路中进行使用。这里体现了对话平台的“开放性”)
互链路中进行使用。这里体现了对话平台的“开放性”)
基础能力
支持语音能力接入,如语音识别、语音合成能力
只支持API接入,包括基于HTTP、WebSocket等协议的API接入方式
支持多平台SDK接入,包括Android、IOS、Windows、Linux等平台的SDK
高级能力
支持第三方对话能力的部分接入,平台允许第三方对话能力作为对话产品中的一部分进行存在,即部分对话能力来自于本平台,部分对话能力来自于其他平台
支持第三方技能的多种调度方案,包括第三方技能优先、第三方技能兜底等
支持软硬一体化接入
支持垂直行业解决方案接入,比如提供音响的解决方案、大屏互动的解决方案、手机助手的解决方案,方便行业的客户快速接入
平台接出能力(平台向外与第三方对接的能力,如平台可以对其他平台或产品,单独输出部分
语音链路能力的方式)
语音链路能力的方式)
基础能力
支持对话技能作为“第三方技能”接入其他平台或产品的能力。如对话理解能力,可以单独向外提供服务,接出到外部的其他对话平台或对话产品
支持多种(两种或以上)渠道对接,如电话、邮件等渠道等
支持多种(两种或以上)业务系统对接,如工单系统、客服系统等
支持多种协议对接,如SDK、API
支持多种数据库类型对接,如MYSQL、MongoDB
高级能力
支持语音全链路能力的向外接出
支持云对云定制能力接出
支持本地离线能力接出,如支持使用嵌入式的方案
支持以低代码等方式快速对接外部系统的能力
服务部署(通过智能对话平台上定制的相应对话理解能力、语音识别能力、语音合成能力等
全链路能力部署到包括但不限于APP、软件、平台、智能设备、数字人等服务端)
全链路能力部署到包括但不限于APP、软件、平台、智能设备、数字人等服务端)
基础能力
支持公有云部署,如对外暴露域名,提供人机智能交互解决方案
支持私有化部署,如部署局域网的平台,帮助用户拥有智能对话平台的能力。私有化部署并不限于用户提供的局域网机器,同样可以是客户提供的公有云、私有云,本地服务器等。
支持容器化部署,支持K8S等管理平台
支持主流云平台部署,如阿里云、腾讯云等
支持快速横向扩容
高级能力
支持混合云部署
支持嵌入式部署,如实体机器人、智能中段硬件设备
支持专有云部署,可降低客户的维护成本,享受资源隔离
支持国产操作系统部署能力,如中标麒麟、红旗Linux等
支持国产化服务器部署,如鲲鹏服务器、飞腾服务器
支持自动化部署
支持海外云部署,如海外提供智能对话能力
六、管理运营能力
应用数据统计(应用数据统计能力,指系统应包含技能数据、意图数据、实体数据、问答数据等,同时需包含交互
服务量、有效请求量、平均耗时、峰值QPS和设备交互记录的在线查看功能)
服务量、有效请求量、平均耗时、峰值QPS和设备交互记录的在线查看功能)
基础能力
支持对技能、意图、实体、问答等数据的统计进行展示查看
支持按用户、应用、技能等多个维度对整体服务量、有效请求量、平均耗时、峰值QPS等数据进行表格和图形展示
支持服务量统计,服务统计是对已创建应用交互服务量的统计,支持在线查询已使用交互次数及剩余交互次数。支持最近一个月,SDK或WebsocketAPI的不同的端的调用次数
支持会话历史记录统计和导出
支持会话数和时长统计和导出
支持咨询问题数的统计和导出
支持咨询热点问题的统计和导出
支持用户渠道来源的统计和导出
支持人机交互量的统计和导出
支持设备量统计,包括日新增设备、日活跃设备、累计设备、剩余台数等
支持在线设备明细,支持按照设备码、时间段、设备类型等查询设备注册信息
支持日志记录所有访问过程详细信息
用户管理
基础能力
支持用户基本资料的查看与编辑
支持用户订单信息查看和编辑
支持用户权限管理
高级能力
支持用户提问工单管理,包括对于工单的进度查看、编辑、删除等操作
平台扩展(在实际的使用过程中,基础平台往往难以符合客户需求,因此需要在基础平台
上扩展更高的服务性能或是新增业务功能模块来满足客户需求)
上扩展更高的服务性能或是新增业务功能模块来满足客户需求)
基础能力
支持平台性能扩展,如接口并发数、消息处理速度
支持平台接口服务
支持平台标准的协议对接
支持平台渠道扩展,如iot、智能穿戴设备
支持平台模型扩展,如多语言模型
高级能力
支持模型扩展,如降噪模型
0 条评论
下一页