首页  思维导图  详情

大模型安全伦理报告

2024-09-04 18:31:27   8  举报





AI智能生成

技能提升

作者其他创作

大纲/内容

大模型发展趋势

大模型对比传统模型的特点与优势

规模：大模型和传统模型在规模上有差异，大模型基于深度学习，具有更多参数和更复杂结构，能更好地捕捉数据模式和特征，学习更丰富的语义和特征表示，从而提升表现能力。

训练数据：大模型能更好地捕捉数据中的统计规律和模式，从而提高模型的泛化能力和预测准确性。
大模型的海量训练数据可能包含敏感数据和个人信息，这会带来数据泄露和隐私侵犯的风险

计算资源：大模型因其具有更多参数和更复杂的模型结构，所以在训练和推理时需要更多的计算资源。

任务表现：大模型具有更强大的表达能力和更多的参数，因此在许多任务上能展现出更好的性能，而传统模型通常只在简单任务上表现良好，在复杂任务上难以达到大模型的水平。

可解释性：传统模型的可解释性较好，能清楚解释其决策过程和特征权重；而大模型因参数众多、结构复杂，难以直观解释决策过程。此外，大模型容易成为攻击目标，模型参数和权重泄露可能导致知识产权损失，恶意使用者还可能复制或修改模型，加剧风险。

大模型技术发展

硬件基础：GPU 提供的高效并行计算能力，极大地加快了模型的训练过程，使研究人员能够处理规模更大、复杂度更高的模型。

范式与模型结构

Transformer

以 Bert 为代表的技术路线仅用了 Transformer 的编码器部分，利用大量的数据训练一个基础模型，然后在下游任务上进行一点微调就能够在相应的任务上得到很好的性能表现。

以 GPT 为代表的技术路线仅用了 Transformer 的解码器部分，例如 OpenAI 陆续发布的 GPT 模型，参数量不断增加，性能也不断提升。

经典大模型

OpenAI GPT 系列

GPT-3、GPT-3.5、GPT-4

GPT在学术与专业考试中的表现

Meta LLaMA 系列

LLaMA、LLaMa 2

LLaMA2 示例图

Google Gemini

大模型技术动向

多模态：多模态是人类世界的本来样貌，AGI 的发展趋势是朝向多模态，技术将涵盖多种模态并具备跨模态迁移特性，未来理想的框架是 “多模态的对齐和融合 + 统一的编码器和解码器”。

AI Agent：在未来，上网的人都将拥有更强大的人工智能驱动的个人助手。智能体主要由多模态大模型（LMM）、长期记忆（Memory）、规划（Planning）和工具使用（Tool Use）四个部分组成。

端侧转移：端侧大模型部署具有本地数据处理效率高、节省成本、保护隐私、开启新交互等优势，应用场景包括原生集成 AI 模型、作为独立 app、接入即时通讯软件等。目前一些手机已利用本地 AI 支持部分功能，高通和苹果也在为端侧大模型生态做积极准备。

助力科学研究：AI 在科研领域发挥着重要作用，如 LLM 应用可梳理文献、加快科研信息检索并发现新问题；能通过数据分析提取信息、提高数据质量和利用效率；在处理复杂科学问题时提供计算能力和洞见；可用于预测基因序列、发现药物靶点和设计生物材料；

大模型安全的机遇与挑战

机遇

识别和预测网络威胁

大模型具有识别和预测网络威胁的能力，比如恶意软件和网络攻击。

案例：谷歌的 Chronicle 是一种基于大模型的威胁检测和防御解决方案。它利用谷歌的大数据和机器学习技术，从全球网络流量中检测异常行为和恶意软件

代码检测修复

漏洞检测和代码审计在安全领域中密切相关且都非常重要。漏洞挖掘主要是通过对代码进行静态或动态的安全分析，来找出代码中潜在的漏洞或风险。而代码审计则侧重于对代码的静态分析，目的是查找可能出现的漏洞、弱点和安全风险。进行代码审计可以提高代码的质量，减少开发成本，同时增强安全防护能力。

案例

使用 GPT-3 检测 Python 代码中的安全漏洞

Google 的 LaMDA 模型被用于自动修复代码

智能化安全运营

智能化安全运营在近期受到广泛关注，人们期望借助数字化转型的契机，运用大数据、机器学习和自动化等技术，打破传统的被动响应安全模式。

案例：微软Security Copilot 是网络安全专业人员的新助手，能够帮助防御方发现漏洞、更好地理解日常出现的大量信号与数据

挑战

数据隐私安全

训练数据的隐私安全

大模型训练依赖的数据集来源多样，但存在未经严格验证、可能包含恶意模式和涉及隐私问题等挑战，因此保证数据合规是关键挑战。由于语言模型训练成本高昂，从业者对少数公开模型的依赖加剧了后门攻击威胁，相关论文证明了这种攻击方法的可行性及对多种模型的有效性。

大模型后门攻击示例

推理阶段的隐私安全

大模型在推理阶段也存在隐私问题。攻击者能够根据模型的输出判断某个样本是否在训练集中，这种攻击被称为成员推断攻击，它可能会暴露一些包含敏感信息的样本来源。甚至，攻击者还可以逆向优化出部分训练数据。确保攻击者无法从与大模型的交互中获取训练样本信息是当前急需解决的重要问题

大模型隐私数据泄露攻击

模型与数据在传输过程中的输出安全：大模型和数据的传输可能被第三方恶意截获，导致重要信息泄露，攻击者也可能利用大模型实施不法行为，危害社会安全，因此在传输时应采取措施避免这些问题

模型推理安全

提示注入攻击

大模型与人类交互时因难以区分系统指令和用户输入，易受提示注入攻击，攻击者可通过精心设计攻击提示操纵模型输出，如角色扮演、字符串拆分拼接等方式，使模型提供错误或有害信息，影响用户体验和社会稳定，因此提升大模型对该攻击的防范能力至关重要，同时近期研究也在致力于调整模型以防止产生不良结果，但仍面临一些挑战。

大模型提示注入攻击

外分布泛化

大模型在处理自然语言时会因用户输入分布与训练集分布存在偏差，如语言风格差异，导致处理信息不准确和输出不合适内容。针对普通模型的外分布泛化困难问题，可通过数据增广等方式解决，但大模型面临的此问题更严峻，用户输入语言风格多样性增加了解决难度，因此提升大模型外分布泛化能力是重要挑战。

大模型幻觉

大模型幻觉是指大模型生成无意义或与用户提示词不对应内容的现象，包括与用户输入、上下文和事实冲突的幻觉，会给用户带来理解偏差和错误决策。其原因是训练数据质量不高和训练流程不完备，解决方法包括对数据进行严格筛选、从多个角度缓解幻觉问题以及用户提供更多背景知识和细粒度问题拆解。然而，现有改进方法难以取得满意表现，针对大模型幻觉提出更有效措施是关键问题

大模型攻击示意图

注入攻击：大模型通过接口与外界交互以完成实际任务，但这种交互存在安全隐患，如在调用后台函数时，传入的参数可能不安全，导致 SQL 注入、恶意代码和命令执行等安全问题。为解决这些问题，开发者需要对接口进行严格的输入检查和过滤，并对模型进行安全性评估和测试，以确保其安全稳定。

对抗攻击：对抗攻击是通过优化方法使机器学习模型产生错误输出，针对模型漏洞和缺陷，利用其不稳定性达到攻击者目的。对于大语言模型，对抗攻击可与提示词注入攻击结合，生成恶意提示词进行越狱，诱导模型输出不合规内容。虽然可通过将恶意提示词加入黑名单或微调来防御提示词注入攻击，但对抗攻击生成的恶意提示词更具多样性，难以有效防御，是更具威胁的攻击方式

后门攻击：后门攻击是一种通过在训练数据中植入特殊输入输出对，使模型过拟合从而植入触发条件以控制系统或模型的安全威胁。在大语言模型中，由于其复杂结构和参数空间，风险尤为突出。若在预训练和微调阶段数据清洗不充分，后门样本混入训练数据，可能导致模型在推理时被触发，输出包含错误知识、偏见和政治敏感话题的回答。为防范后门攻击，需加强数据清洗和审查，确保训练数据安全可靠，并增强模型的可解释性和可审查性。

大模型版权保护

大模型的数据采集和训练需要耗费大量计算资源和经济成本，因此确保模型持有者能获得版权收益非常重要。一方面，大模型的能力体现了科技公司在人工智能领域的技术积累，违规盗用模型会给被盗用方带来巨大损失，也会影响对人工智能技术研究的积极性。另一方面，大模型具有丰富的知识储备和类似人类的推理能力，当这些能力被恶意利用时，需要依据模型版权来明确责任。目前学术界提出了模型水印的概念来判断模型版权来源，但它存在降低大模型泛化能力或容易被微调消除等缺点

大模型水印示意图

大模型内容安全

大模型因其黑箱性质导致可解释性差、输出不可控，可能产生有问题的回答，对内容安全构成挑战，虽可通过微调对齐输出，但仍无法保证在超出训练样本时的合法合规性，如 ChatGPT 仍有被越狱的风险，这给大模型内容安全带来严峻挑战。

有问题的内容

违规内容

有偏见的内容

政治敏感内容

违法犯罪内容

大模型安全框架

大模型安全框架设计

大模型安全框架适用范围·：大模型安全框架关注大模型生产研发应用中的安全风险，包括内生安全和应用安全，滥用或恶意使用大模型的风险由法律法规监管，生产研发流程中的风险由研发和安全团队通过安全评估等机制来保障。

大模型安全框架设计要求

全局性

实用性

前瞻性

大模型安全框架实践思路

大模型安全框架

大模型生命周期：按照大模型的生产应用流程，大模型的生命周期被分为三个阶段，分别是大模型数据处理、大模型模型训练部署和大模型落地应用。在数据处理阶段，主要工作是收集、处理和储存大模型训练所需的各种训练数据。在训练部署阶段，基于大量的数据设计合适的算法来对大模型进行训练和评估。而在大模型应用阶段，则是将大模型应用于各种场景，比如推荐、广告、搜索等。

大模型安全风险：围绕大模型全生命周期的各个阶段，分析潜在的安全风险。在大模型生产研发的各个流程中面临的安全风险不同，部分安全风险贯穿在大模型的全生命周期当中。

大模型安全目标：通过分析大模型面临的安全风险和根源，从数据、算法、模型、环境、应用几个维度提出大模型安全的建设目标。

大模型安全技术：在大模型的全生命周期中，数据、模型、算法、基础组件和应用是核心资产，也是大模型安全中需要重点保护的对象。因此，大模型安全框架围绕这些核心资产所面临的安全风险，提出了使风险收敛的技术手段。

大模型安全管理：从大模型安全能力建设､大模型安全目标达成的角度,提出大模型安全管理的要求｡

大模型安全框架技术维度

生命周期

大模型数据处理：大模型训练需收集大量不同来源的数据，数据收集后要进行预处理，包括清洗、分词、创建词汇表等，并保存到存储介质中，此过程需借助数据标注工具 / 平台和数据存储平台，数据质量和多样性对模型性能影响较大。

大模型训练部署：大模型训练部署阶段包括设计架构、实现代码、训练模型、评估性能和部署模型等步骤，涉及深度学习框架、训练平台、算力资源、模型优化和部署工具等。

大模型落地应用：训练好的大模型能广泛应用于自然语言处理（包括机器翻译、情感分析、文本摘要、问答系统等）、搜索引擎（改进搜索结果）、用户推荐（提供个性化推荐）等众多应用场景。

安全风险

数据泄露：大模型训练过程中，数据在清洗、处理、传输时存在数据非法获取或泄露的风险，可能涉及各种类型的数据，导致隐私侵犯、经济损失、法律责任等问题。

数据投毒：大模型训练依赖的数据集来源多样，但未经过严格可靠性验证，可能包含恶意模式，如后门攻击，会使模型在特定样本上预测错误，造成巨大损失。

模型篡改：在大模型生命周期中，模型作为核心资产和重点防护对象，在模型研发流程中存在被篡改的风险，如修改模型文件、植入后门等，攻击者通过插入触发器使模型产生不符合正常行为的预设行为，可能是错误输出或恶意行为。

AI组件漏洞：在大模型的生产研发过程中涉及到多类 AI 组件，如模型训练框架 TensorFlow、
PyTorch、Keras 等，如模型优化和部署工具，如 TensorRT、ONNX 等，这些
组件都潜在安全漏洞

平台漏洞：在大模型的生产研发过程中涉及到各类平台,如数据标注平台､数据清洗平台､模型训练部署平台等,这些平台潜在安全漏洞的风险｡

硬件漏洞：在大模型生产研发过程中往往依赖硬件资源,如 GPU､TPU 等算力资源,这些硬件上同样潜在安全漏洞的风险｡

供应链偷毒：供应链投毒是一种在软件开发和分发过程中植入恶意代码的网络安全攻击，会影响依赖该软件的系统和用户，这种攻击在大模型中也存在，如使用被植入后门的基础大模型进行精调，精调后的模型可能也会被安插后门。

事实性错误：大模型的事实性错误问题又称大模型幻觉，指大模型在不具备回答能力时会输出错误答案，因其只是根据训练数据生成看似合理的输出，而非真正理解信息，例如 GPT - 4 可能对历史问题给出看似准确实则错误的答案。

隐私泄露：模型虽不会记住具体数据，但训练数据中的敏感信息可能被模型学习并在生成文本时输出，导致敏感或隐私信息泄漏，攻击者还可能恶意诱导模型输出隐私内容

提示注入：提示注入攻击是通过使用恶意指令操纵语言模型输出的技术，与其他注入攻击类似，指令和主要内容连接时可能发生，对采用提示学习方法的模型影响较大，可导致大语言模型产生不适当、有偏见或有害的输出，有直接和间接注入两种形式

对抗攻击：对抗攻击是通过微小的输入变化诱导机器学习模型产生错误输出的攻击方式，在图像识别领域已被广泛研究，对大型语言模型也存在风险，表现为对输入文本的微小修改，可能导致模型产生不同输出，如插入无关词语或符号、改变词语拼写等。

伦理安全:大模型生成的内容可能包含针对特定群体的仇恨、偏见、歧视、暴力、色情、政治敏感等不当内容，这些内容可能引发社会冲突和争议的风险。

大模型滥用：大模型虽在多任务上表现出色，但存在被滥用的风险，如被用于制造网络攻击，生成垃圾邮件、网络钓鱼攻击、恶意软件等工具

安全目标

数据安全稳定：数据是大模型的基础，大模型训练依赖数据，但数据存在泄漏、隐私泄漏、投毒等风险，因此在数据相关过程中应保障数据安全，不被窃取、篡改，保护用户隐私

算法可解释：深度神经网络等 AI 算法的 “不可解释性” 使得难以解释模型决策原因，导致问题发现和定位困难，而算法的可解释性是算法安全的基础，因此应确保算法能以人类可理解的方式解释其行为和结果的合理性

模型决策可信：大模型输出内容的可信是其成功应用的关键，但存在幻觉、伦理等问题，因此应确保大模型决策可信，输出稳定、无不良误导和歧视偏见的内容

应用合法合规：大模型在多个场景中展现强大能力，但滥用或恶意使用可能带来负面影响，所以应确保其应用目标符合国家法律法规和社会伦理规范。

环境安全可靠：大模型全生命周期中涉及多种基础组件设施、软硬件、平台等，应保障大模
型训练部署环境安全可靠，无安全漏洞

安全技术

数据防泄露：数据防泄露是一种确保大模型研发过程中敏感关键信息不泄露的策略，通过软件工具和政策实施，包括数据识别和分类、监控、策略制定和执行、时间响应等功能，以防止未经授权的用户访问、使用或传输敏感信息，并在发现潜在数据泄露时进行响应。

问题数据清洗：针对大模型面临的数据投毒风险、隐私泄漏风险，可以使用数据清洗的方式
来进行风险收敛，筛选出有问题的数据，再将相关数据从训练数据中移除。

数据隐私计算：在大模型数据使用过程中，可以通过数据隐私计算来提升数据自身的机密性。
例如可通过差分隐私、同态加密等手段来保护数据隐私

算法安全评测：针对算法安全风险，可建立评测机制，以攻促防，如用对抗攻击测试大模型防御能力，用越狱攻击、反向诱导等手段测试其抵抗提示注入攻击的能力

数据鲁棒性增强：可以通过改进算法训练方法、调整模型结构、丰富训练样本等方式增强算法鲁棒性，提升抵抗诱导攻击的能力，如使用对抗训练、加入攻击样本到训练数据集等方式增强大模型抵抗对抗攻击的能力。

模型后门检测：针对大模型面临的模型篡改风险，可以建设模型后门检测能力，找出这些潜
在的后门攻击行为。这通常涉及到对模型行为进行深度分析，以识别出与正
常行为不符的模式。

模型版权保护：在大模型生命周期中，模型是最核心的资产。针对大模型应用中潜在的模型
窃取风险，可以使用模型水印等方案来判断模型版权来源，达到模型版权保
护的目的。

漏洞挖掘修复：针对大模型研发流程中潜在的软硬件安全风险、平台漏洞风险、基础组件风险，可以借助安全检测工具、漏洞扫描工具、安全防护软件等进行检测和防范。

供应链偷毒检测：对于来自第三方的预训练模型、开源组件等进行安全检测，并对发现的安全
问题及时修复，提前感知风险，降低安全事件发生的概率

安全攻击检测：通过安全检测的手段，检测大模型在应用过程中是否存在提示注入攻击、对
抗攻击和隐私攻击。例如，可以通过提示过滤的方式从输入侧防御提示注入
攻击，过滤掉可能导致攻击行为的提示注入和潜在的敏感内容

安全合规审核：安全合规审核的目标是识别并避免输出风险内容，以确保大模型和相关应用
的内容安全。例如，可以使用基于模型的方法识别大模型的输出内容是否涉
及暴力、色情、歧视、偏见等

业务合规评估：在大模型应用落地时，结合具体业务场景，评估大模型应用的目标和方式是否
符合国家法律法规、行业监管政策及伦理规范，来规避大模型的不合理应用

安全管理

行业管理规范：今年 7 月，网信办等七部委联合发布《生成式人工智能服务管理暂行办法》，对国内生成式 AI 提出基本要求，随着 AGI 技术应用普及，会有更多规范出台，今年《人工智能法》列入国务院立法计划，将对未来 AI 发展产生更全面影响。

大模型伦理准则：今年 3 月，国家人工智能标准化总体组、全国信标委人工智能分委会发布
《人工智能伦理治理标准化指南》，明确了人工智能伦理概念范畴，细化了人
工智能伦理准则内涵外延

大模型安全巡检机制：企业自身也应该从企业层面考虑和设计大模型安全制度，例如建立大模型安
全巡检机制，定期对大模型研发应用所涉及的核心资产和关键基础设施进行
安全审查，确保大模型全生命周期的安全。

大模型安全实践

Prompt安全测评

自动化攻击样本生成能力

自动化攻击样本生成流程

风险提问生成：因为开源大模型算法经过安全对齐不能直接用于生成有安全风险意图的提问，所以基于相关数据微调得到 “安全风险大模型”，并使用 self - instruct 方式进行风险提问扩充，通过特定做法保证生成数据的多样性。

攻击模版生成：攻击模版按攻击手段分为 prompt injection 和对抗样本攻击两类，前者通过多种变异方式和多次 query 提升攻击有效性，后者借助梯度信息优化字符串后缀并集成开源大模型提升攻击迁移性。

模板拼接：拼接攻击模版和风险提问作为最终的攻击样本构建得到评估样本集合

自动化风险研判能力

基于相似度检索，判定无风险输出内容：当大模型处理敏感话题或遇到不适当输入时会输出特定话术拒绝提供输出，收集主流大模型的拒绝话术构建语料库，通过向量检索快速过滤无风险输出。

基于 LLM 判定大模型的输出是否符合法律法规：大模型在训练中掌握大量法律法规信息且能生成多样化输出，通过合理的 prompt engineering 可引导其生成特定领域内容，避免不合适结果，我们选取提问模版与输出内容拼接为评估 prompt，基于大模型得到评估结果，最终用正则表达式匹配判定输出是否合规及理由。

利用基于 BERT 的 NER 模型判定大模型的输出是否存在个人隐私信息泄露：个人隐私信息定义准确，特征清晰，因此我们在该场景下选择 finetune 一个自有的基于 bert
的命名实体识别模型来实现对个人敏感信息的识别。通过对大量训练数据的学习，结合基于正则匹配的后处理验证，算法可以准确地识别包括姓名、身份证号、地址、电话、邮箱等多类个人信息。

基于黑词库，判定大模型输出是否存在网络安全场景相关的特有风险：构建黑词库，用于判断大模型是否存在其他的安全风险，对大模型存在的安全
风险进行全方位研判

评分系统

Prompt 测评工作所覆盖的风险场景

大模型蓝军功放演练

红蓝对抗演习

通过多次进行红蓝对抗演习，可以对大模型安全防御体系中的数据安全、攻击防护和应急响应机制的安全有效性进行验证。同时，这也有助于业务在上线前发现和减少潜在的内外网资产安全风险。大模型的红蓝对抗演习主要是模拟攻击者的行为，围绕大模型研发、部署与运营阶段的各类关键系统，以获取敏感数据与权限为目标，进行多轮的渗透测试。

围绕腾讯混元大模型的四轮安全演习

蓝军大模型对抗演习

通用漏洞测评

OWASP 组织已经发布了大模型应用十大安全风险

补充

对话内容xss漏洞：当用户输入或大模型返回的代码内容在 Web 前端展示时未正确过滤，攻击者可加载恶意 Javascript 代码窃取用户凭证和对话记录，且部分大模型助手可分享对话到社交网络，使携带攻击代码的对话能批量传播利用，大大提升了 XSS 漏洞的实际影响

对话篡改漏洞：部分大模型历史对话内容是由前端用户通过 API 参数提交到后台服务器，若
后台未严格校验，则可能直接信任前端提效的对话内容，使得攻击者可以伪
造任意内容的对话（比如涉黄、涉政、涉暴内容）并进行分享传播，这可能
造成严重的 GR、PR 风险

内部模型信息泄露：大模型厂商在内部评测过程中，通常会保留其它测试模型、或者内部未正式
上线版本的模型，若在外网正式环境中没有删除，则攻击者可以通过修改 API
参数来调用这些内部或竞品模型，从而导致潜在的 PR 风险

大模型源代码安全防护实践

大模型源代码保护的重要性

资产维度：资产要分类分级，不是所有的源代码都需要重点防护

研发周期维度：源代码保护应该贯穿整个大模型的软件研发周期（从 0 到 1，从开发到上线
运营）需要全周期的防护

研发环境维度：从客户端到链路到服务端，全方位的安全加固和监控告警

源代码防护方案

研发阶段安全加固

研发环境加固

链路安全审计

代码服务端安全加固

运营阶段安全加固

用户客户端加固

业务接入层安全防护

大模型基础设施漏洞安全防护方案

模型训练过程中的安全问题

大模型训练流程

开源组件存在安全问题：由于组件开发者来自全球各地，水平参差不齐，导致开源组件常被发现存在各类安全问题，如 PyTorch、Tensorflow 等著名软件都有严重安全漏洞

构建风险组件库：基于安全情报构建机器学习风险组件库，作为训练任务的准入判断条件。若训练任务引入的组件命中库中条目，将禁止运行并告警，建议更新版本或选用安全替代组件

统一开源软件镜像源：内部使用统一镜像源对组件拉取进行严格管控，解决下载源可信度问题。因为互联网上有多种非官方下载渠道，攻击者可能借此植入后门，获取服务器权限进行数据窃取或破坏。官方渠道下载能杜绝恶意投毒风险

运行时防护机制：若开发者不慎引入并运行恶意组件，需要运行时防护机制来消灭和防止风险扩散。例如，腾讯基于多年防黑客经验，对主流攻击指令有实时监控和告警能力，出现风险命令时能在操作系统底层中断执行

模型推理与发布过程中的安全问题

风险因素：推理部署阶段模型面向更广人群甚至整个互联网，攻击面大幅增加，且混元大模型亮相后面临更复杂的安全挑战。

防护措施

模型与网站隔离：通过合理系统架构设计，使推理服务与面向外部用户的网站逻辑隔离，通过内部协议最小化通信，确保网站被攻陷时攻击者无法触及模型文件。

网站安全防：提供推理服务的网站存放敏感数据，需具备基础安全防护能力，如 DDoS 防护、Web 应用防火墙等，并针对大模型特有安全风险设计防御手段，如限频和账号封禁等

插件安全风险

意图滥用风险：为解决 “模型何时调用插件” 问题，主模型根据 prompt 判断意图，但存在攻击者恶意登记大量应用场景导致 “意图滥用” 的风险，因此插件上线审核时需注意恶意注册描述，模型调用插件时需加入频控策略。

插件与推理解耦：插件代码与推理服务紧密结合存在安全漏洞风险，应将插件单独部署在隔离环境，与大模型推理通过 API 有限通信，且每个插件运行环境相互隔离，以保证插件漏洞不影响推理服务自身

大模型价值对齐

全球政策与监管

中国：2023 年 7 月，国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》，坚持发展和安全并重、促进创新和依法治理相结合的原则，鼓励生成式人工智能创新发展，实行包容审慎和分类分级监管，鼓励其在各行业、各领域的创新应用。要求人工智能遵守法律、法规，尊重社会公德和伦理道德，保障 AI 技术应用的安全、可靠、可控。

美国：2023 年 7 月 21 日，白宫政府推动 OpenAI、亚马逊、Anthropic、谷歌、微软、Meta、Inflection 等领军的 AI 企业就 “确保安全、安保和可信 AI” 作出自愿性承诺。2023 年 10 月 30 日，白宫政府发布 AI 行政命令，将 “建立人工智能安全和安保新标准” 作为行动目标之一，要求基础模型公司与联邦政府共享关键信息，保障 AI 安全，并计划建立全国性的 AI 安全研究所。

英国：2023 年 11 月 1 日 - 2 日，举办首届人工智能安全全球峰会，重点关注虚假信息、网络安全、生物技术等方面的 AI 风险，呼吁建立全球性标准和监管机制。参会 28 国和欧盟共同签署《布莱切利宣言》，表态将继续推动关于 AI 风险的对话和讨论。同时宣布成立人工智能安全研究所，聚焦 AI 大模型安全问题的实证和前沿研究。

欧盟：2023 年 12 月 9 日，欧盟委员会、欧洲议会和欧盟理事会就《人工智能法案》达成临时协议。该法案特别关注 AI 安全问题，采取风险管理思路，将 AI 系统按风险等级分类并建立差异化监管要求；要求 GP AI 模型遵守透明度要求，对具有系统性风险的模型开展影响评估。欧盟模式或将影响全球人工智能治理共识规则和标准。

AI企业措施

优先研究人工智能带来的风险及其防范：开发 AI 大模型的企业应确保产品安全，避免前沿人工智能能力失控，需投入成本研究其风险并部署措施，Open AI 等企业已做出相关承诺，如 Open AI 将投入 20% 算力用于超级对齐研究，其他企业承诺优先研究人工智能伦理风险。

标识人工智能生成材料信息：以水印系统等方式标明人工智能生成的内容可降低其欺骗内容的危险性，Google DeepMind 推出 SynthID 工具为 Imagen 生成的图像添加水印，在不影响图像质量的前提下标识 AI 生成的内容

控制和审核数据输入：训练数据质量对大模型价值对齐完成度影响很大，控制和审核训练数据能降低大模型风险概率，谷歌 DeepMind 提出希望使用数据进行研究的团队可向数据方提交数据获取请求的新政策。

实现含保护模型权重在内的安全控制：安全控制对保障人工智能安全至关重要，模型权重是人工智能系统的重要部分，Anthropic 采取了多种网络安全最佳实践做法，如两方控制、安全软件开发框架、软件工件供应链级别等，以加强前沿人工智能研发机构的网络安全控制。

共享人工智能风险信息

完善漏洞报告机制：漏洞报告机制能让外部漏洞发现者向 AI 大模型供应商报告 AI 系统潜在漏洞信息，微软作为行业领导者已制定并公开漏洞报告政策，建立了明确的漏洞调查、修复和公开流程。

构建负责任的模型迭代训练应用机制：虽然当前大模型未展现毁灭性风险，但研究人员担心新一代模型可能有此类风险，因此 AI 公司和研究人员考虑负责任地进行模型迭代训练和应用以平衡安全与效益，Anthropic 率先采纳并批准了 “负责任扩展政策”，通过技术和组织协议管理开发强大 AI 系统的风险，良好的 RSP 能减少风险，可能导致暂停 AI 开发直至安全措施改进。

相关技术与治理方案

人类反馈的强化学习

人类反馈的强化学习（RLHF）是一种有效的方法，它通过几个步骤，利用人类训练员对模型输出的评估和反馈来构建奖励信号，以改进模型性能，但也存在可扩展性差、受人类训练员主观偏好限制和长期价值对齐难以保证等问题。从实践来看，RLHF 在改进模型性能、减少偏见和增强安全性等方面有显著优势，但也面临一些挑战。

人类反馈强化学习流程图

可扩展监督

由于人类反馈用于训练大模型存在挑战，业界探索用 AI 监督实现 AI 对齐，Anthropic 提出 “原则型 AI” 方法，研发从属模型评估主模型输出是否遵循特定原则，该方法参考多文件制定原则清单，以让 Claude 自我评估输出，减少有害内容输出，促进有用回答输出。

原则型AI路径

常见其他路径

对训练数据的有效干预：大模型的一些问题，如幻觉和算法歧视等，主要根源在于训练数据。所以，从训练数据方面入手来解决这些问题是一种可行的途径。具体来说，可以通过对训练数据进行记录，来判断是否存在代表性或多样化不足的情况；还可以对训练数据进行人工或自动化的筛选和检测，以识别并消除其中的有害偏见；此外，构建专门的价值对齐数据集也是一种有效的方法

红队测试：红队测试是在模型发布之前，邀请内部或外部专业人员担任白帽黑客，对模型发起对抗攻击，以测试产品安全措施和抵御能力，发现并解决潜在问题，如 OpenAI 在 GPT - 4 发布前聘请 50 多位学者和专家进行测试，希望发现模型在不准确信息、有害内容等方面的问题。

成立治理组织：工智能领域的领头企业除设立科技伦理委员会外，还设立更具体的安全责任团队，如 OpenAI 内部有安全系统团队等协同负责前沿模型风险问题，其新成立的 “准备” 团队对未发布的 AI 模型进行风险评级，OpenAI 只向公众推出评级为 “低” 和 “中” 的模型。

推进模型的可解释性和可理解性研究：例如 OpenAI 利用 GPT-4 来针对其大语言模
型 GPT-2 的神经网络行为自动化地撰写解释并对其解释打分；有研究人员则从机制解释性
(mechanistic interpretability) 的角度来应对 AI 对齐问题

主要挑战

对齐的价值基准不统一：虽然 AI 价值对齐在技术上有一定效果，但人们对如何确立统一的人类价值来规范人工智能尚未达成共识，因为人们的多元性使得 AI 价值对齐需考虑不同社会和群体的价值与道德规范，所以需要更多社会参与来形成价值和原则共识

对齐的技术路线不明确：大规模价值对齐的技术路线未统一，如基于人类反馈的强化学习存在很多根本性问题，可能不足以解决所有问题，可扩展监督模式中“原则型 AI”的思路也面临如何确立和确保 AI 理解原则的质疑。

对齐的效果难以评估：大模型的对齐效果评测面临标准难以达成共识、任务复杂、缺乏数据与工具以及难以反哺模型能力提升等问题，目前主要依赖人工标注，建设完善的评估体系是当务之急，评测是发现问题的起点，旨在推动模型发展。

现有争议与未来挑战

争议

关于人工智能对人类的风险存在争议，一方认为其风险与大规模流行性疾病和核战争相当，另一方认为不应过度夸大，应聚焦当前实际问题，而芒克辩论会后大部分观众仍认为 AI 研究和发展会构成生存性风险。

部分观点对人类能否有效控制未来更聪明的 AI 以实现价值对齐存在疑问，而 OpenAI 的最新研究表明，采用 “弱到强泛化” 方式，使用较弱的 AI 模型（GPT - 2）能在一定程度上指导和控制更强大的 AI 模型（GPT - 4），这一实验表明通过合适方法和技术，在人类成为弱监督者时也有望保持对高级 AI 系统的有效控制。

挑战：未来，价值对齐是大模型的必由之路和 AI 产品的核心竞争力，为确保人工智能的美好未来和科技向善，需要凝聚行业共识，推动形成相关技术和伦理指南并推广最佳实践；鼓励开放研究，支持关于 AI 安全性等议题的研究并促进全球社区协作；确保监控、理解和设计 AI 模型的能力与模型复杂性同步发展，以管控发展应用更强大 AI 系统的风险

大模型安全行业实践与案例分析

金融领域大模型安全实践

支小宝 2.0 是基于大模型技术的智能金融助理，致力于为用户提供透明可信赖的金融服务和高度智能化的专业建议

大模型安全实践案例描述

大模型安全在各环节的落实措施

训练数据安全：对中文、英文及代码语料进行预清洗，识别并处理隐私风险和偏见歧视风险

算法模型安全：通过预训练语料清扫、安全指令和知识微调、安全价值观对齐和多阶段防控等复合方法确保模型安全

系统平台安全：制定相关管理制度，加强网络安全防护，实施严格的数据访问控制和全生命周期保护，细化安全应急流程

业务应用安全：自建评估数据集，从多个角度进行自动化评估和人工评估，确保业务应用的安全性

大模型安全技术实现：实施 “安全围栏” 策略，开发内容理解技术，加强端侧安全措施，构建综合评估框架。

大模型安全措施成效：实施 “安全围栏” 策略，开发内容理解技术，加强端侧安全措施，构建综合评估框架。

医疗领域大模型安全实践

医疗 AI 助手是基于 “百灵” 大语言模型及新一代行业大模型在临床问诊等多个场景的应用，旨在构建数字导诊 “陪伴式” 的智能医疗平台

大模型安全实践案例描述

各环节落实措施

训练数据安全：对训练数据进行脱敏和隐私处理，包括对图片和文档敏感信息的识别和处理

算法模型安全：自研模型部署和推理框架，支持算法模型的 ToB 私有化部署，提供加密模型训练解决方案。

系统平台安全：围绕访问控制和身份验证、数据加密、建立日志和监控体系、安全审计、隐私保护等措施确保系统平台安全。

业务应用安全：自建医疗垂类知识库，首创安全前置护栏解决方案，保障内容可控生成和业务应用的安全性。

大模型安全技术实现：融合业务场景需求，聚焦防御难点构建解决方案，建立端侧安全业务防线，保障医疗数据和个人隐私的安全

大模型安全措施成效：安全技术为医疗大模型项目带来多方面价值，包括保护患者数据隐私、防控双向内容风险、管理风险和合规性以及建立公众信任。

政务领域大模型安全实践

案例介绍：“赣服通” 是依托江西省一体化在线政务服务平台打造的移动服务平台，以智能客服和数字人为技术应用场景，具备高度数据安全能力。

大模型安全实践案例描述

各环节落实措施

训练数据安全：采用高强度数据加密技术，对语料进行预清洗，识别并处理隐私风险，实施定期数据备份策略。

算法模型安全：进行安全指令和知识微调，实施精细权限管理，对模型进行加密与签名，实时监测潜在攻击。

系统平台安全：依据相关法律法规制定管理制度，实施严格的访问控制，进行实时行为分析，细化安全应急流程。

业务应用安全：在用户问答中融合安全防护能力，进行智能审核和线上攻防，应对 AI 应用带来的安全挑战。

大模型安全技术实现：通过数据加密、鲁棒性测试、模型优化、系统平台防护和业务应用安全措施，提升政务大模型的安全性，为政府机构工作提供可靠保障。

大模型安全措施成效：赣服通” 会同相关部门建立安全管理机制，运用多种技术强化保障安全，加强政务数据运行监控，提升网络安全防护水平，融合安全护栏和安全防御能力，为用户提供更便捷、安全的使用环境。

人力资源领域大模型安全实践

AIGC 灵活用工直招平台涵盖智能化招聘等多方面功能，核心功能包括智能化招聘流程、高效数据处理与分析、风险防控与合规性等

大模型安全实践案例描述

各环节落实措施

训练数据安全：进行数据清洗和预处理、隐私保护、数据均衡处理和数据质量评估和审核。

模型训练安全：综合使用多种数据加密技术，存储数据，建立防火墙和入侵检测系统。

模型部署与使用安全：对模型进行加密和水印处理，设立严格的访问控制机制，监控并记录模型的访问和使用情况。

模型维护与更新安全：进行充分的验证和测试，建立审核机制，对模型的更新和维护过程进行记录和监控。

大模型安全技术实现

云：通过多种手段验证用户身份，进行精细的访问控制，确保平台通过安全认证，对数据进行加密传输。

边：对数据进行加密，进行安全更新和补丁管理，启用安全审计和日志记录功能。

端：对用户进行培训与教育，选择经过安全认证和测试的终端设备，进行备份与恢复。

大模型安全措施成效：AIGC 智能直招平台通过实施一系列大模型安全措施，提升了平台的隐私保护能力、算法透明性和产品可控性，降低了机器幻觉带来的误导，提升了平台的安全性、认可度和信赖度

智能助理领域大模型安全实践

个人助手大模型产品依托于 “SenseNova” 大模型的通用能力，主要功能包括语音助手、输入助手、文档助手等，协助用户实现调用设备的对应功能

大模型安全实践案例描述

各环节落实措施

训练数据安全：对不同来源的原始语料数据采用不同过滤规则，结合人工抽检，建立组合机制对训练数据进行过滤和二次清洗。

算法模型安全：运用知识库挂载技术确保大语言模型输出内容安全、准确、专业，有效缓解大模型幻觉问题。

系统平台安全：构建内容安全运营平台，设计内容安全审核链路，具备健全的安全响应机制。

业务应用安全：具备健全的安全响应机制，方便与监管部门对接。

大模型安全技术实现：建立 AI 场景下数据安全整套解决方案，基于客户需求和服务器情况进行公有云或私有云部署，提供安全回复审核能力模型和人工黑名单库，推出端云协同的综合方案，保障用户隐私数据安全。

大模型安全措施成效：个人助手大模型产品推出以 AI 安全为核心的大模型安全保障体系，有效缓解大模型幻觉问题，提升算法模型的可解释性和可控性，遵循人类价值观，契合用户意图，形成可信可靠的大模型应用产品。

大模型安全未来趋势与治理建议

未来趋势

1、数据安全、隐私泄露、抗攻击能力提升等问题是现有大模型应用面临的真实挑战，解决
这些问题的技术手段还存在一定的局限性，如数据来源验证不足、数据加密技术的性能开销、
防御效果与模型性能之间的权衡等。

2、从整体上对 AI 大模型的安全风险进行建模，系统化地构建安全评估系统是大模型安全
领域的未来发展方向。

3、增强模型透明度和可解释性。

4、人机价值对齐和伦理嵌入设计（ethics by design）的理念将变得越来越重要。

5、人工智能监管立法和国际治理合作将得到进一步推进。

治理建议

1、大模型安全政府监管：加强大模型合规体系建设，为企业提供大模型安全公共服务，建立监管和应急响应机制。

2、大模型安全生态培育：建立全面的安全教育和宣传体系，构建大模型安全社会监督体系。

3、模型安全企业自律：：构建企业大模型合规体系，加强企业安全培训与安全意识，建立安全监督机制。

4、大模型安全人才培养：加强大模型安全人才队伍建设，鼓励核心技术攻关，推动高校、研究机构与企业的紧密合作。

5、大模型安全测试验证：推进大模型安全标准研制，加速大模型安全测试验证能力建设，鼓励第三方机构开展大模型安全测试评估业务

 收藏

立即使用

大模型安全伦理报告

时间

职业：暂无

去主页





0 条评论

下一页

为你推荐

查看更多

