生成式人工智能应用工程师
2024-10-24 19:19:52 0 举报
AI智能生成
生成式人工智能应用工程师
作者其他创作
大纲/内容
生成式人工智能概述
生成式人工智能定义
定义
一种能够
生成文字图像或其他模态信息的
人工智能系统
生成文字图像或其他模态信息的
人工智能系统
名称
生成式人工智能
AIGC - Artificial Intelligence Generated Content
GAl - Generative Artificial Intelligence
通用人工智能
像人类一样处理,多种任务,不局限于特定的领域
像人类一样处理,多种任务,不局限于特定的领域
特点
高效自动化
利用大数据和大规模模型,AIGC能够在短时间内高效生成大量内容
利用大数据和大规模模型,AIGC能够在短时间内高效生成大量内容
跨模态生成
传统的生成内容以文本为主,AIGC可跨模态生成,包括图像、音频、视频等形式
传统的生成内容以文本为主,AIGC可跨模态生成,包括图像、音频、视频等形式
个性化定制
AIGC可以根据用户个性化的需求和偏好,生成个性化的定制内容
AIGC可以根据用户个性化的需求和偏好,生成个性化的定制内容
生成式人工智能的发展历史
PGC专业内容生成
专业团队制作
专业且高质量
制作成本高
专业且高质量
制作成本高
UGC用户内容生成
用户自主生成
体现用户个性化
制作过程相对随意
体现用户个性化
制作过程相对随意
AAGC-AI辅助内容生成
AI为辅人工为主
个性化能力有限
多阶段制作筛选
个性化能力有限
多阶段制作筛选
自动化高,效率高
内容普遍单一,不具备个性化特点
内容普遍单一,不具备个性化特点
AIGC人工智能内容生成
AI端到端生成
跨模态生成内容丰富
快速低成本制作
跨模态生成内容丰富
快速低成本制作
架构
应用层
影视动漫,新闻媒体,广告营销,电子商务,教育培训,娱乐生活
模型层
开源模型
通义,悟道,Stable Diffusion
闭源模型
PaLM-EGPT,星火,
垂类模型
TRS,新壹视频,InsightGPT
基础层
数据
算力
平台
干帆大模型平台,BML中台
分类
单一模态生成
文生文
transformer模型
是当前主流的自然语言处理大模型,
在文本生成文本领域的应用最为广泛,
例如文案编写、智能客服问答、nl2sql等。
是当前主流的自然语言处理大模型,
在文本生成文本领域的应用最为广泛,
例如文案编写、智能客服问答、nl2sql等。
子主题
transformer模型的应用通常包括三种类型:
· encoder-only:只使用transformer模型的encoder部分,典型例子如BERT模型,主要用于上下文语 义表征预训练,快速微调到具体的下游细节任务。
· decoder-only:只使用transformer模型的decoder部分,典型例子如GPT模型, 利用自回归模型的 生成优势,在文本序列生成领域得到了广泛的应用。
· encoder-decoder:完整使用 transformer的encoder编码器和decoder解码器,典型例子如谷歌T5模 型,同时使用transformer结构有助于将所有的NLP任务大一统到seq2seq架构中,但参数量也较大。
训练过程通常包括两个部分:
预训练:通常使用自监督的方式,无需人工有监督标注,基于大规模数据和算力获得模型的基础通用表 征能力。
微调训练:通过加载预训练权重参数,使用相对少量任务相关的领域标注数据进行finetuning微调训练, 消耗的算力资源也将答复降低。
Transformer模型的推理过程如下:
推理输入:文本序列,文本序列可以为单句文本,也可以使用多个文本句子,使用特殊间隔符号拼接
模型计算:encoder负责上下文关系提取表征;decoder负责序列关系提前和生成
推理输出:文本序列,广义上也可以是任意字符序列,由训练样本决定
图生图
图生图的代表性模型之一
是生成对抗网络GAN模型
是生成对抗网络GAN模型
子主题
包括
生成器(Generator):通过计算机生成数据,绝大部分情况下是图像,目的是希望生成的图像以假乱真, 成功“骗过”判别器模型。
判别器(Discriminator):判断输入图像是真实样本还是计算机生成,目的是鉴别输入数据是虚假数据还 是真实数据,尽可能找出生成器生成的“假样本数据”
视频生视频
视频生成视频模型,
顾名思义,模型的输入和输出都是视频,
目前被广泛应用于影视动漫设计、游戏建模创 作等领域
,典型代表Video-to-Video Synthesis模型(Vid2Vid)。
顾名思义,模型的输入和输出都是视频,
目前被广泛应用于影视动漫设计、游戏建模创 作等领域
,典型代表Video-to-Video Synthesis模型(Vid2Vid)。
子主题
Vid2Vid是英伟达在2018年提出的一个视频到视频的生成模型,
核心功能是进行风格迁移,即输入一种风格的视频,
模型转换后,输出另一种风格的视频。通过这种风格迁移的生成过程,Vid2Vid可以实现动漫到真人视频,简笔画到真人视频等转换,在视频生成任务领域得到广泛应用。
Vid2Vid依然基于生成对抗网络GAN的架构,生成器生成器和鉴别器
核心功能是进行风格迁移,即输入一种风格的视频,
模型转换后,输出另一种风格的视频。通过这种风格迁移的生成过程,Vid2Vid可以实现动漫到真人视频,简笔画到真人视频等转换,在视频生成任务领域得到广泛应用。
Vid2Vid依然基于生成对抗网络GAN的架构,生成器生成器和鉴别器
子主题
跨模态生成
文生图
子主题
图生文
子主题
文生视频
文生音频
文生音频
0 条评论
下一页