AIGC:智能创作时代
2023-06-19 09:54:15 0 举报
AIGC:智能创作时代的书摘和笔记
作者其他创作
大纲/内容
◆ 第一章 AIGC:内容生产力的大变革
>> 最初的AIGC通常基于小模型展开,这类模型一般需要特殊的标注数据训练,以解决特定的场景任务,通用性较差,很难被迁移,而且高度依赖人工调参。后来,这种形式的AIGC逐渐被基于大数据量、大参数量、强算法的大模型(Foundation Model)取代,这种形式的AIGC无须经过调整或只经过少量微调(Fine-tuning)就可以迁移到多种生成任务。
>> 2014年诞生的GAN(Generative Adversarial Networks,生成对抗网络)是AIGC早期转向大模型的重要尝试,它利用生成器和判别器的相互对抗并结合其他技术模块,可以实现各种模态内容的生成。而到了2017年,Transformer(变换器)架构的提出,使得深度学习模型参数在后续的发展中得以突破1亿大关,这种基于超大参数规模的大模型,为AIGC领域带来了前所未有的机遇
>> 2022年8月,美国科罗拉多州博览会上,数字艺术类冠军颁发给了由AI自动生成并经由Photoshop润色的画作《太空歌剧院》,该消息一经发布就引起了轩然大波。
>> 2022年11月30日,OpenAI发布了名为ChatGPT的超级AI对话模型,再次引爆了人们对于AIGC的讨论热潮
>> ·代替创作中的重复环节,提升创作效率。
·将创意与创作相分离,内容创作者可以从人工智能的生成作品中找寻灵感与思路。
·综合海量预训练的数据和模型中引入的随机性,有利于拓展创新的边界,创作者可以生产出过去无法想出的杰出创意。
·将创意与创作相分离,内容创作者可以从人工智能的生成作品中找寻灵感与思路。
·综合海量预训练的数据和模型中引入的随机性,有利于拓展创新的边界,创作者可以生产出过去无法想出的杰出创意。
>> AI文本生成的方式大体分为两类:非交互式文本生成与交互式文本生成。非交互式文本生成的主要应用方向包括结构化写作(如标题生成与新闻播报)、非结构化写作(如剧情续写与营销文本)、辅助性写作。
>> 2017年微软推出的人工智能虚拟机器人“小冰”出版了人类史上第一部AI编写的诗集《阳光失了玻璃窗》
>> 意象抽取、灵感激发、文学风格模型构思、首句试写、诗句迭代和完成全篇的流程
>> 除了上面介绍的这些应用,最令人印象深刻的交互式文本内容生成应用要属ChatGPT。与前文所展示的例子不同,ChatGPT可以同时作为问答、聊天及创作AI存在,它的使用场景日常且多样,融合了文案生成、小说续写、代码生成、代码漏洞修复、在线问诊等场景,甚至展现出了超越搜索引擎的潜力。
>> 最有趣的是,ChatGPT具有很强的上下文连接与多轮对话的能力。ChatGPT还具有记忆能力,当向它追问“能不能再夸张一点”时,它可以在之前生成的文案基础上进行改写。这种连续对话大幅提高了人机交互体验。
>> 除了语音读书,短视频配音也是一个常见的音频生成应用领域。“注意看,这个男人叫小帅。”短视频平台的很多电影解说都伴随这句话开始,随后很可能还会听到女主角“小美”的名字。抑扬顿挫的男声搭配一些电影的高潮情节画面,再加上相似的解说套路和背景音乐,这其实也是AI生成语音的典型应用,用户只需3~5分钟就可以看完一部“电影”。
>> 针对AI与人类的辩题,Midjourney的创始人大卫·霍尔兹(David Holz)这样评价:“AI是水,而非老虎。水固然危险,但你可以学着游泳,可以造舟,可以造堤坝,还能借此发电;水固然危险,却是文明的驱动力,人类之所以进步,正是因为我们知道如何与水相处并利用好它。水给予更多的是机会。”
◆ 第二章 AIGC的技术思想
>> 人们总喜欢活在舒适区内,用粗暴的断言安慰自己,例如机器永远无法模仿人类的某些特性。但我给不了这样的安慰,因为我认为并不存在无法模仿的人类特性。
>> 人工智能技术历经了漫长的演进过程,见证了基于规则、机器学习、深度学习、强化学习等领域的兴起。目前,人工智能技术在多模态和跨模态生成领域取得了傲人成绩。
>> 利用“知识库+推理机”的结构,建设出可以解决专业领域问题的专家系统
>> 在模拟人类智能方面,如果说符号主义是知其然且知其所以然,联结主义是知其然但不知其所以然,那么行为主义就是既不知其然也不知其所以然,
>> 符号主义、联结主义和行为主义便成为人工智能的三大经典流派,共同影响着后来人工智能的发展。
>> 机器学习模型的训练过程可以分为以下四步。
·数据获取:为机器提供用于学习的数据。
·特征工程:提取出数据中的有效特征,并进行必要的转换。
·模型训练:学习数据,并根据算法生成模型。
·评估与应用:将训练好的模型应用在需要执行的任务上并评估其表现,如果取得了令人满意的效果就可以投入应用。
·数据获取:为机器提供用于学习的数据。
·特征工程:提取出数据中的有效特征,并进行必要的转换。
·模型训练:学习数据,并根据算法生成模型。
·评估与应用:将训练好的模型应用在需要执行的任务上并评估其表现,如果取得了令人满意的效果就可以投入应用。
>> 强化学习本质上学习的是一套决策系统而非数据本身。
>> 强化学习其实可以看作一个从试错到反馈的过程,通过不断地试错,来找到一个合适的策略
>> 而所谓的深度学习,简单理解就是采用像深度神经网络这样有深度的层次结构进行机器学习的方法,是机器学习的一个子领域。
>> GAN综合了深度学习和强化学习的思想,通过一个生成器和一个判别器的相互对抗,来实现图像或文字等元素的生成过程。
>> 虽然GAN的一些变体也可以用于句子这种文本类信息的生成,但因为对于离散型数据的处理能力较差,AIGC应用最广泛的场景还是在图像之中,或是与图像相关的跨模态生成中。
>> Diffusion模型是一类应用于细粒度图像生成的模型,尤其是在跨模态图像的生成任务中,已逐渐替代GAN成为主流
>> 在2022年美国科罗拉多州博览会艺术比赛中击败所有人类画家、斩获数字艺术类冠军的AI创作画作《太空歌剧院》的底层技术模型就涉及Diffusion模型。
>> AI绘画的成功还归功于CLIP(Contrastive Language-Image Pre-Training,文本-图像预训练)模型。
>> CLIP模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型。下面我们将对CLIP模型进行简单而形象的介绍。
>> OpenAI在互联网上收集到了4亿对质量过关的图像文本对,分别将文本和图像进行编码,让CLIP模型学会计算文本和图像的关联程度。在此基础上,结合Diffusion模型对图像的生成能力,就可以打造一款AI绘画应用了。
>> 大模型的重要基建:Transformer
>> 从数学的角度来说,可以将“注意力”理解为一种“权重”,在理解图片或文本时,大脑会赋予对于认知有重要意义的内容高权重,赋予不重要的内容低权重,在不同的上下文中专注不同的信息,这样可以帮助人们更好地理解信息,同时还能降低信息处理的难度。
>> 网络上广泛流传的一段话
>> Transformer与Seq2Seq模型类似,也采用了编码器-解码器结构,通常会包含多个编码器和多个解码器。在编码器内有两个模块:一个多头注意力机制模块和一个前馈神经网络模块,这里的前馈神经网络是一种最简单的人工神经网络形式。
>> 图2-14 Transformer结构简化图
>> 图2-15 ChatGPT的训练过程示意图
>> RM:Reward Model,奖励模型;SFT:Supervised Fine-Tuning,有监督的微调;PPO:Proximal Policy Optimization,近端策略优化
◆ 第三章 AIGC的职能应用
>> 以Mintlify为代表的基于AIGC的工具则可以自动编写和更新每段代码的详细描述,大大减少文档创建和维护的成本
>> 在产品研发的过程中,程序员的大量时间和精力往往并非花费在代码创作上,而是花费在代码测试和错误纠正的过程中。
>> 目前,市面上已经出现了以Tricentis为代表的众多AI自动测试工具。
>> 鲁班每秒钟所创作的8 000张图片甚至超过很多设计师整个职业生涯可以创作的内容。这不仅为其他任务腾出了时间和资源,减少了成本支出,还确保了营销材料的时效性
>> 海外营销工具Copy.ai就帮助了大量市场人员创作不同场景下的推广文字内容。
>> 对外销售大概分为三个部分:线索发现、客户触达、客户转化。
>> Seamless.ai便为众多企业提供了这样的服务,通过简单描述客户的特征,例如行业、体量、收入规模、地区等信息,它便可以建立一个销售名单。
>> 总部位于南京的云蝠智能(Telrobot)便是一个被很多企业使用的AI智能外呼系统,帮助企业打通更高效的销售流程。
>> 以Oliv.ai为代表的工具可以通过学习大量的企业销售视频、录音以及文字稿,分析销售话术中的优缺点,进而不断帮助企业优化和完善销售话术,提高转化率。
>> 最值得一提的是销售科技巨头Salesforce,其旗下爱因斯坦AI可以自动生成众多内容并推荐给客户服务工作人员作为回答话术,它甚至可以提前预测正在咨询的客户的需求。
>> AIGC工具还可以帮助企业实现绩效评估过程的自动化,例如安排和跟踪员工评审,使人力资源经理和管理人员能够专注于更重要的任务。AI驱动型团队绩效管理工具Onloop就是这个领域的典型应用。
◆ 第四章 AIGC的行业应用
>> 习得-评测-反馈的闭环
◆ 第五章 AIGC的产业地图
>> 整个AIGC的产业地图可以分为三类:上游数据服务产业、中游算法模型产业、下游应用拓展产业(图5-1)。
>> 数据服务:作为智能机器的“食物”和数字经济世界的生产要素,数据在被“喂”给机器之前,常常会涉及查询与处理、转换与编排、标注与管理等前置步骤,而在整个数据的使用过程中也离不开治理与合规方面的管理工作。
>> 图5-2 上游数据服务层产业地图
>> 异步处理指的是数据的处理过程并非同步进行,而是分不同步骤依次进行。这里划分的异步处理型公司并非指公司不具备实时处理的能力,而是数据服务主要针对的业务场景是异步工作的。
>> Imply是一家基于Apache Druid提供数据查询与实时处理服务的公司。Apache Druid是一个实时分析型数据库,最初主要面向广告行业的数据存储、查询需求,因为广告数据对数据的实时性要求很高,对广告主而言,及时衡量曝光、点击、转化等关键指标有助于快速评估广告投放的效果,进而对广告投放策略进行调整。
>> 如果说人工智能是把机器当作学生进行教学的过程,那么数据标注与管理环节则是备课环节,把原始数据进行结构化处理后,接下来就是组织整理知识点,然后教给机器。
>> Scale之所以可以从最初看似技术含量不高的数据标注环节向更具附加价值的中下游环节扩张,主要受益于规模经济、客户黏性和资源垄断。
>> 既需要保证数据资产在管理时符合预先设置的数据质量规范,也需要在访问和调取数据时做到合法合规,这也使得数据治理和合规服务逐渐成为各个企业的必需品。
>> OneTrust通过自动化工具帮助企业遵守《通用数据保护条例》《加州消费者隐私法案》和数百个其他全球隐私法律。OneTrust简化了消费者和主体权利请求的接收和履行流程,允许客户与同行进行基准比较,绘制和盘点处理记录,并在数据流经其组织时生成自定义报告。
>> Collibra提供了自动数据分类的功能,如果特定数据集内包含与欧盟居民有关的个人身份信息(PII),它将自动应用《通用数据保护条例》《加州消费者隐私法案》等法案政策,通过使用机器学习对敏感数据进行自动分类,省时省力。
>> 定制型公司主要的业务特点是为客户提供个性化的解决方案。光点科技和亿信华辰就是两家典型的定制型公司。
>> 中游算法模型包括三类重要的参与者:人工智能实验室、集团科技研究院和开源社区。
>> 图5-3 中游算法模型层产业地图
>> Papers with Code是一个总结了机器学习论文及其代码实现的网站。用户可以轻松地在网站上检索到所需要的机器学习论文及存储在Github上的开源代码。
>> Hugging Face是专注于机器学习领域的垂直版GitHub。它想要把主打年轻用户的聊天机器人作为主营业务,因此在GitHub上开源了一个Transformer的代码库,不过没想到聊天机器人业务没做起来,Transformer库却在机器学习社区火起来
>> 有很多业界专家都在使用Hugging Face和提交新模型,甚至有些NLP工程师招聘中明确要求候选人熟练使用Hugging Face Transformer库。如果说人工智能是一场淘金运动,那么Hugging Face则是典型的“卖水人”。
>> 图5-4 下游应用拓展层产业地图
◆ 第六章 AIGC的未来
>> 从技术趋势、参与主体、风险与监管三个角度展望智能创作时代的未来。
>> 人工智能的发展经历过多次春天与寒冬,每一次春天与寒冬的交织都与“通用化”和“专用化”的分歧息息相关。一方面,“通用化”人工智能代表着人类对于未来的美好畅想,但在每个阶段都会遇到不可跨越的瓶颈;另一方面,“专业化”人工智能可以带来更好的应用落地,但从技术演进的发展周期来看,它只是帮助科技开枝散叶的加速器,并非科技应该奔赴的未来。在“通用化”与“专业化”矛盾交织的过程中,人工智能的技术一直进步着。
>> 通过“预训练大模型+下游任务微调”的方式,人们可以让模型从大量标记和未标记的数据中捕获知识,并在微调后将模型的能力迁移到各类任务场景中,极大地扩展了模型的通用能力
>> 许多大模型在训练数据的选取上也更加别出心裁,充分利用互联网上自然生成的PGC、UGC内容进行训练,以获得更加丰富的可用数据和更加自然的语言表达。
>> 诸多人工智能各个子领域的发展无疑不见证了这种在宏观层面模仿人类智能思路的正确性。基于人类通过学习而获得智能,诞生了机器学习;基于人类在学习过程中会有激励和惩罚,这些激励和惩罚会不断强化人类的能力,出现了强化学习;基于人类在接受信息时往往会将注意力集中在重要的信息上,产生了当代主流大模型的根基——Transformer;基于人类在学习认图时并非学习照片细节的纹路,而是直接被不断告知关于图片中物体的描述,诞生了AI绘画的奠基性模型——CLIP模型。总之,从领域开拓到细分应用,从模仿人类的学习过程到模仿人类的认知方式,人工智能逐渐从更宏观、更抽象的维度从人类身上汲取营养
>> Stable Diffusion产品模型的“大开源”事件就是一个典型,在它选择开发核心AI算法模型、核心训练数据集以及AI生成图片的版权,并让全世界所有普通人、创业者、商业团体可以随心所欲地完成对Stable Diffusion的部署、运行、改进和商业化后,一时间市面上出现了上百家基于Stable Diffusion的AI绘画公司,这导致了AI绘画工具的泛滥、产品利润低以及严重同质化的问题。这是AIGC赛道创业的一个缩影,这个缩影反映出,打造产品在细分赛道的差异化及寻找合适的商业化场景落地,将成为这些创业公司竞争的关键。
>> 较于针对C端用户,AIGC在B端服务方面的变现模式反而更具有可行性。传统产业迫切需要AIGC技术来实现降本增效,许多公司对于能够提升业务效率或显著降低业务成本的技术具备极高的付费意愿。而且,因为行业及业务逻辑存在明显的差异,而主流的AIGC模型都较为通用,如果能针对特定的业务需求研发产品,仍然存在很大的机会。所以,对于创业者来说,找到一个可以落地的商业场景,并且锁定一个细分场景对AIGC进行训练,做出产品在特定领域的差异化,这是商业化落地的最好方式。
>> 比如海外初创公司Jasper就提供了生成Instagram标题、编写TikTok视频脚本、编写广告营销文本等针对B端媒体场景的定制化服务。
>> 一个好的投资标的未必是运用先进技术的公司,而是可以确定实际的终端用户需求到底是什么、技术如何更好地制作产品并满足用户需求的公司。
>> 对于政府而言,入局AIGC的基本思想可以用三个词概括:审时——守道——优术。
>> 最近兴起的AIGC公司Stability AI表示,AIGC就好像普罗米修斯给人类带来的火种,火种是危险与机遇并存的,但守门人如果一味地限制技术如何使用可能会更加危险,政府应该以适当的方式规范AIGC技术的使用,而绝不是施加重重限制。因此,政府需要建立一个强大的政策框架以支持AIGC的长期发展和应用
>> AIGC所产生的风险主要集中在版权问题、欺诈问题和违禁内容三个方面。
>> 令这些原创者愤怒的争议点在于,为什么基于自己自主创作的作品生成新的作品后却与自己没有关系。然而,根据目前的法律规定,人类社会中的法律是针对人类的行为规范而设立的,也就是说只约束和服务于人类。而AI机器人不是真正的人,只是一种工具,因而无法受到法律的约束和审判。
收藏
收藏
0 条评论
下一页