2023大模型治理蓝皮报告.docx

资源描述

《2023大模型治理蓝皮报告.docx》由会员分享，可在线阅读，更多相关《2023大模型治理蓝皮报告.docx（67页珍藏版）》请在三一办公上搜索。

1、大模型治理蓝皮报告（2023年）前言近一年来，以ChatGpT为代表的大模型技术引发通用人工智能新一轮发展热潮，在带动大规模产业升级、劳动力转移、产品的分配机制等方面均带来深刻变革，成为改变世界竞争格局的重要力量。与此同时，围绕人工智能治理的议题探讨显著增多，全球人工智能治理体系加速构建。党中央国务院高度重视人工智能治理工作，作出一系列重要部署。形成具有广泛共识的人工智能治理框架和标准规范，不断提升人工智能技术的安全性、可靠性、可控性、公平性。寻找大模型治理的准确定位，构建适应技术发展趋势的治理体系愈加重要。面对大模型带来的新问题新挑战，传统监管模式面临着Al自主演化控制难、迭代快速跟进难、黑

2、箱遮蔽追责难等问题，一劳永逸的事前监管模式已经难以应对不断推陈出新的人工智能发展需求。从治理框架来看，敏捷治理成为回应大模型技术快速迭代的重要治理模式，软硬法协调、多主体协同的治理需求更为突出。构建高质量数据集、创新知识产权制度、探索价值7寸齐实现方式、Z用户信息内容安全等成为各方关注的热点问题。美国、欧盟、英国等主要国家和地区加紧推进人工智能治理布局，共同寻求具有共识和互操作性的治理规则。我国围绕人工智能发展、安全、治理三方面提出全球人工智能治理倡议，通过算法备案、评估评测、事后溯源检测等方式，推动人工智能治理从规则走向实践，为全球提供人工智能治理中国方案。希望研究成果为社会各界进一步参与大

3、模型治理实践提供有益参考。目录一、大模型治理的重要性紧迫性凸显1（）大模型浪潮起*1（二）大模型引领数字化变革3（三）大模型带来的典型风险5二、技术变革下大模型治理框架日渐明朗11（一）治理模式：敏捷治理成为国际较为通行的治理方案11（一）治理主体：激励多元主体协同治理成为全球共识14（三）治理机制：软硬兼施推进大模型治理18三、聚焦大模型治理核心议题规则22（一）数据治理规则23（三）伦理问题治理36（四）信息内容治理40四、把握全球大模型治理最新动态趋势42（一）美国从松散碎片式治理逐步趋向体系化治理42（一）欧盟继续发挥人工智能治理领域布鲁塞尔效应45（三）英国力图以促进创新的监管方法引

4、领全球治理49（四）国际组织在大模型治理国际合作中各显其能52五、探索我国大模型治理的主要落地工具55（一）事前备案55（三）事后溯源检测60六.完善我国大模型治理体系的思路建议63（一）确立促进创新的人工智能敏捷治理理念64（一）聚焦人工智能场景应用细化制度方案64（三）立足当前治理实践创新人工智能治理工具65（四）激励企业积极管控风险以推动平台合规,66（五）促进全球人工智能合作治理体系构建67一、大模型治理的重要性紧迫性凸显（一）大模型技术浪潮兴起当前，世界人工智能领域科技创新异常活跃，日益成为改变世界竞争格局的重要力量。一批里程碑意义的前沿成果陆续突破，以ChatGPT为代表的大模型技

5、术引发通用人工智能新一轮发展热潮。1.对大模型的基本认识大模型（LLM,LargeLanguageModel）指的是具有超大参数规模，建立在多头自注意力机制TranSformer架构之上，以深度神经网络为基础，用海量文本数据预训练而成的语言模型。以ChatGPT为代表的大模型能够模拟人类的创造性思维，生成具有一定逻辑性和连贯性的语言文本、图像、音频等内容。大模型基于大数据、大算力、多模态的技术优势，实现从感知世界、理解世界向创造世界的跃迁，推动人类社会加速迈向人机共生的智能社会阶段。大模型体现出三方面技术趋势：一是从决策式Al到生成式AL决策式Al主要是通过分类回归对数据进行分析，主要应用于图

6、像识别、推荐系统、决策智能体等领域。生成式AI借助TranSformer架构等，具有全局表征能力强、高度并行性、通用性强、可扩展性强等优势,主要应用于内容创作、科研、人机交互等领域，实现了从简单感知到内容创造的跃迁。二是从单模态模型到多模态模型。多模态是指通过处理和关联来自多种模态的多源异构数据，挖掘分析信息、提高模型能力的学习方法。典型任务是图像/视频/语言间的跨模态预训练、跨模态定位等，如给定文本生成一段对应的声音、图像/视频与文本的相互检索或生成等。三是从亿级到千亿、万亿级参数的预训练模型。大模型指的正是模型参数规模庞大，大模型参数规模从亿级发展到百亿、千亿级S!J,并向着更高规模的参数

7、探索。例如，GPT-3参数量达1750亿，文心一言参数规模为2600亿等。随着参数规模的增长，模型能力也得到显著提升。2.大模型的变革影响(1)内容生产方式的颠覆者大模型实现了高质量、高效率、多样化的内容生产，成为推动内容生产方式变革的重要力量。一是信息内容生产主体发生显著变革。人工智能在信息收集、筛选和整合、推理的全过程都能替代人力，极大地解放人力资源。二是信息内容生产效率快速提升。大算力驱动强算法处理大数据，在自然语言处理、计算机视觉、自动驾驶、等各领域多种任务上，都能高质量作出结果判断，高效率进行内容生成。三是信息内容传播出现颠覆性变化。信息的生产、传播更加便利，尤其是降低了专业知识的获

8、取门槛。信息内容的表现形态更加丰富，利用人工智能创生技术，图、文、代码等相互转换更加自由，可以一键生成数字人”分身，开启智能互联时代。(2)通用人工智能的先行者”大模型是迈向通用人工智能的重要技术探索。一是具备了与人类智能相媲美的综合智能能力。大模型的能力不再局限于自然语言、视觉等特定方面，而是具备了执行一般智慧行为的能力，广泛拓展了人工智能技术的适用范围。二是具备了通用型技术能力的潜力。业界普遍认为，大模型是智能时代的关键基础底座，各领域不再需要单独开发人工智能，仅需调用大模型接口即可。将来可能构建出新的应用生态、创造新的用户接口，并带来潜在商业模式的变革。三是具备了赋能千行百业的适应性。大

9、模型可作为底层技术，垂直应用于各个产业和复杂场景。这种可以嫁接千行百业的智能生产力，正在重塑和影响未来生活。(3)人机交互的协作者大模型使得人类行为与机器运行之间的协作更加自然、高效和智能,拓展了更为广阔的人机交互空间。一是呈现出极大的语言表达的自由度。大模型善于”理解和生成自然语言，人们可以自由提问或表达需求，不必担心特定的格式或指令。这种自由度使得人与机器的交互更为自然、灵活。二是呈现出极为个性化的交互体验。大模型可以通过分析和理解用户的喜好、兴趣和上下文信息，进行定制化的服务和建议。大模型的即时回应和连续对话，给用户提供了实时的帮助和引导。Web2.0之父蒂姆奥莱利(TimOReiny)

10、认为未来的人工智能系统将成为人类工作的协作者，通过人机合作实现更强大的效果。(二)大模型引领数字化变革大模型体现出强智能性、强通用性、强交互性，为进一步的产业革新与数字政府发展奠定了坚实的基础。根据麦肯锡报告，生成式人工智能每年或将为全球GDP增加2.6-4.4万亿美元。根据MarketsandMarketS报告，2023年全球生成式人工智能的市场规模预计为110.3亿美元，2028年预计将达到518亿美元，年复合增长率达35.6%。1大模型推动产业跨域深度融合凭借大数据、大市场、多场景优势，人工智能与交通、医疗、工业等传统行业深入融合，涌现出一批新业态新模式。在工业领域，大模型实现汽车、建模

11、等设计的自动优化、打造3D模型、通过智能物流、智能安防实现智能化管理；在医疗领域，大模型实现蛋白质分子的结构预测、辅助医生影像读片与分析病例报告，推出Al陪护与交互式心理咨询；在金融领域，大模型催生了数字员工，借助Al客服、Al投资顾问、Al财务实现服务的自动化，并进一步优化投资管理与风险管理。据埃森哲预计，2035年人工智能应用将为制造业带来4万亿美元额外增长，年增长率可达4.4%o2大模型提升公共服务水平当前，公共领域大模型应用如火如荼，为公共服务提质增效。美国、英国、葡萄牙、新加坡等13个国家或地区已将ChatGPT应用于政府内部办公、公共服务提供等场景。据日本野村综合研究所开展的网络问

12、卷调查显示，政府部门对ChatGPT的利用率达17.5%,仅次于信息通信业（32.8%）和制造业（19.2%）。从市场份额来看，根据普鲁杜尔公司（PrudourPvt.Ltd）数据显示，2022年各国政府应用大模型的市场份额超过1千万美元，预计2032年超过5亿美元，年复合增长率达45.8%o大模型技术的引入可以显著提升人机交互的友好程度。同时，大模型在信息收集、数据分析以及语言重塑能力层面的优势，能够有效协助整合政府治理资源，改善政府治理结构，打破政府组织壁垒，实现跨部门、跨层级的协同治理。（三）大模型带来的典型风险大模型在提升产业效率与社会生产力的同时，亦伴随着多重风险与挑战，有必要从技术

13、自身缺陷引发的风险、技术应用在不同层面带来的问题与挑战等维度出发，梳理和探讨大模型发展面临的困局。1.大模型自身技术缺陷带来的风险挑战一是大模型的生成幻觉问题引发生成内容不可信。生成幻觉通常指模型按照流畅正确的语法规则产生的包含虚假信息甚至无意义内容的文本。幻觉一般被认为是模型生成的文本不遵循原文或不符合事实，在大模型场景下主要指不符合事实，即出现一本正经胡说八道的情形。幻觉产生的本质原因是大模型的输出结果是根据概率推理而成的，这导致了大模型可能针对一个原本模糊或者不确定的预测，给出一个过度自信”的结果。因此，OPenAl公司首席技术官MiraMurati亦指出，ChatGPT和底层大型语言模

14、型的最大挑战是其会编造错误的或不存在的事实。二是大模型的涌现效应带来模型能力不可控。所谓智能涌现”，是指大语言模型在没有经过针对性训练的任务，包括需要复杂推理能力的任务中，同样表现出卓越的性能。这种“智能涌现能力通常在小模型中未被发现，而只会在具备一定规模的大模型中出现。目前仅能够明确观测到当模型大小超过一定阈值时，模型各方面综合能力得到质变式爆发增长的涌现现象但却无法确定涌现的阈值所在，这使现有大模型的智能涌现能力具有突发性、不可预测性和不可控性，例如，在某用户故意激怒ChatGpT后，后者威胁将披露该用户的IP、居所等个人信息，甚至损害其名誉。不少人工智能研究人员亦发出警告，如果控制不当，

15、足够强大的人工智能模型可能超越人类智能成为地球主导力量，引发灾难性后果。三是大模型的脆弱性和攻击性造成外部安全隐患难以根除。由于技术本身的特性，没有一个系统是永远安全和不可能被攻破的。一方面，随着大模型生成侧的高度发展，对其进行网络攻击日渐增多。例如通过在提示词后增加一些不规则后缀，即可让此提示词绕过大模型的拦截策略，让其生成预料之外的内容。另一方面，大模型应用降低了漏洞查找与系统攻击的难度。如果模型被恶意植入后门，模型的安全也会受到威胁，尤其在大模型应用下，漏洞查找与系统攻击变得更加容易，导致系统安全隐患持续升级。例如，有攻击者利用ChatGPT生成自动攻击的代码，让它更加高效的利用某个目标

16、系统的漏洞，进行网络攻击。2.大模型在个人维度引发的风险挑战一是加深信息茧房并影响公平正义。一方面，以呈现高频次单一信息为生成机制会加深信息茧房。过去，个人自主进行信息检索是往往能够获得来源丰富、多种多样的信息以供选择，从而形成对所欲探究事物更全面的认知；而在大模型应用下，个人只能被动接受模型提供的信息，而无法获取样本数量不占优势的小众信息，使得大模型生成内容类似于“茧房”，将个体对事物的认知桎梏于有限信息之中。I另一方面，大模型训练数据存在的固有偏见和歧视问题。这是由于大模型对数据高度依赖，所以生成结果会体现出数据源的偏向性。如GPT-3显示出了基于宗教信仰的偏见和性别歧视，大语言模型GOP

17、her存在职业与性别之间的刻板印象联想，图像生成模型Dalle-2则表现出显著的性别和种族歧视。二是技术滥用侵犯人格尊严并阻碍个人发展。一方面，大模型的恶意利用侵犯人格尊严。当前已有大量案例表明，大模型被用于生成虚假的有损公民人格尊严的视频、音频、图像等，进而被恶意应用于网络欺凌、辱骂、造谣等场景下，给当事人带来极大的精神及财产损害。例如,乔治华盛顿大学法学院教授JonathanTurley发现，ChatGPT生成内容显示他在阿拉斯加课程旅行中对学生进行了性骚扰。然而，TUrIey教授并未带领学生去阿拉斯加或任何其他地方进行课程旅行，也未曾受到过性骚扰学生的指控。另一方面，大模型的过度依赖阻碍

18、个人发展。当前越来越多个体频繁应用大模型服务完成工作学习任务，例如用ChatGPT写论文、写判决书的案例屡见不鲜，且个人对大模型的依赖表现出应用日益广泛、程度日益加深的特征，恐导致个人学习能力以及认知水平可能大幅退化，影响人与社会的长期发展潜力。美国智库布鲁金斯学会刊文指出，ChatGPT将可能导致人类记忆和批判能力的下降。三是情感计算造成潜在伦理风险并扰乱人际关系。情感计算是模拟某个角色并设定其情绪或心理状态的新型人工智能应用，其发展与普及可能给个人行为、社会关系、伦理道德等诸多领域带来巨大的冲击。一方面，情感计算可能瓦解传统人际关系。以近期众多人工智能企业推出的AI伴侣为例，该类应用可能导

19、致个人不愿花时间精力与真正的人类进行情感交流，从而导致传统的人际关系与婚姻家庭结构遭到重创，甚至颠覆过往的伦理道德观念。另一方面，情感计算可能不正当地引导个人情绪、行为乃至价值观。人工智能产品可能会有偏见或有目的性地引导某些个体，尤其当人类习惯于长期与机器人交互时，人获取的信息会很自然地被机器所引导，进而影响个人的价值观，或是控制个人的情绪与行为。3.大模型在企业维度引发的风险挑战一是用户过度授权、违规信息使用以及黑客攻击，引发用户隐私与商业秘密的泄露风险。在用户个人隐私方面面临侵权诉讼，当前，大模型的用户使用条款普遍给予企业超出必要限度的个人信息使用权，加大了用户个人信息泄漏的风险，从而担负

20、极大的违规风险。以ChatGPT为例，其使用条款明确规定，除非用户要求OPenAl不对其输入和输出内容进行使用，否则OPenAl拥有对任何用户输入和输出内容的广泛使用权，以达成优化训练ChatGPT的目的。在企业商业秘密方面，企业员工很有可能故意或过失地违反公司保密制度，将公司的营业信息、技术信息、平台底层代码、近期营销计划、公司薪酬体系等信息泄露，黑客也可能利用系统漏洞发起攻击获取海量涉密信息，从而导致企业商业秘密泄露风险。二是内容生成依托海量文本与图像数据，引发版权侵权风险。一方面，大模型生成内容由于缺乏规范的许可使用机制具有侵权风险。由于大模型根据概率推理的生成机制，其使用作品难以逐个、

21、准确地援引法定许可或合理使用条款，这使得大模型未经许可使用作品的行为可能会侵犯被使用作品的复制、改编、信息网缔专播权等权利。例如2023年1月，全球知名图片提供商华盖创意(GettyImages)起诉热门人工智能绘画工具StableDiffusion的开发者StabilityAI,称其未经许可从网站上窃取了数百万张图片。再如，用于谷歌T5和META的LLaMA等大模型训练的C4数据集，虽然源自公开网站，但也包括至少27个被美国政府认定为盗版和假冒产品市场的网站。另一方面大模型生成内容存在与既有作品实质性相似的潜在侵权风险。如果大模型通过分析学习后生成的内容与原始作品过于相似，以至于可能会误导公

22、众或混淆原始作品的来源，其可能会因与他人作品存在实质性相似”而被认定为侵权，从而导致著作权侵权相关的诉讼，而含有侵权内容的大模型生成内容的使用者亦有可能需要承担侵权责任。2三是应用形态颠覆现有数据收集模式，引发数据安全风险。大模型生成工具的运作机制导致企业纬度的违规数据传输与敏感信息泄露频发。以ChatGPT为例，根据其运作原理，用户在输入端提出的问题首先会传输到位于美国的OPenAl公司，随后ChatGPT才会给出相应回答，因此存在数据泄露风险。如韩媒报道，三星半导体事业部向员工开放使用ChatGPT后短短20天内即发生多起数据违规输入事件。又如数据安全公司Cyberhaven调研显示，不同

23、行业客户的160万名员工平均每周向ChatGPT泄露敏感数据达数百次。4.大模型在社会维度引发的风险挑战一是冲击就业市场，提升劳动力转型下的社会不安定性。虽然大模型带来的岗位智能化升级将提升社会生产效率、创造新兴岗位，但也会导致特定领域或人群的失业危机。大模型对初等和中等技能白领岗位需求的冲击较大，从事重复性、机械性等工作的劳动者将极易被大模型工具替代。据高盛研究报告分析，以美国为例，46%的行政工作和44%的法律工作将受到较高程度的影响。在此趋势下，相当数量的劳动者需在短期内进行与社会新需求相匹配的职业转换，这对他们的经济收入、社会地位、身心健康都可能产生较大影响，如果大规模劳动力转型不当甚

24、至有可能引发社会动荡等风险。二是扩大数字鸿沟，加剧社会分化和不平等。大模型的拥有程度、应用程度以及创新能力的差别将引发信息落差，进而造成新一轮数字鸿沟，甚至加剧社会分化和不平等。从国家与地区层面来看，在大模型加速迭代的进程中，仅有少数发达国家能够能够凭借庞大的数据、算力等资源进一步掌控生产力资源，这将进一步扩大发达国家与发展中国家的差距。例如，美国的GpT-4总共包含了1.8万亿参数，一次的训练成本为6300万美元，非百亿美金公司很难持续跟进。从组织和个人层面来看，大模型服务对于不同群体的可得性是不同的。部分地区或群体可能由于无法获得高质量的互联网连接、教育水平与专业背景不足等原因，无法有效且

25、正确地使用GpT技术。这会使得ChatGPT等技术成为精英阶层提升和优化生产力的有力工具，进一步拉大精英阶层和社会底层、高知分子与普通劳动者之间的差距。大模型生成机制对于不同群体的关注度是不同的。特殊群体及其呼声会在数字化进程中成为被排斥的对象，沦为“数字弃民，这可能导致未来日益依托于大模型的社会治理框架忽视特殊群体的需求，加剧社会在年龄、地域等纬度的不平等。三是深度伪造与对抗性攻击，危及公共安全与利益。一方面，大模型被用于制作虚假文本、音频、视频等深度伪造内容，损害公共利益。当前，通过AI换脸、语音模拟、人脸合成、视频生成等恶意运用手段生成的深度伪造信息，既加剧了公众对于公开信息的不信任感，

26、又导致相关虚假信息与虚假形象被运用于诈骗、政治干预、煽动暴力和犯罪等破坏公共利益的领域，造成了极大的安全风险。另一方面，对抗性攻击的存在威胁着公共安全。大模型容易受到对手生成的对抗样本的“注入式攻击，即图谋不轨者从算法角度别有用心地构造并注入特定词语、符号或图片，进而诱导大模型逻辑混乱、输出错误，再利用这一漏洞进行欺诈或篡改，甚至直接图谋根源极其隐蔽的安全事故。3例如，研究人员通过在停止信号图片添加细微噪声，就可以欺骗自动驾驶系统错认为速度限制45英里/小时，产生潜在事故冈险。二、技术变革下大模型治理框架日渐明朗（一）治理模式：敏捷治理成为国际较为通行的治理方案2018年，世界经济论坛提出敏捷

27、治理概念，讨论如何应对第四次工业革命中的政策制定问题，敏捷治理理念开始受到广泛关注。敏捷治理是一套具有柔韧性、流动性、灵活性或适应性的彳亍动或方法，是一种自适应、以人为本以及具有包容性和可持续的决策过程。一方面，敏捷治理体现为快速感知能力。强调对时间的高度灵敏度，需要时刻准备应对快速发展中的变化，主动接受变化并在变化中学习。能够快速感知到内外部环境的变化，预测内外部面临的风险问题。另一方面，敏捷治理强调参与主体应具有广泛性。治理主体不再局限于政府，而是需要与开发者、部署者、用户等利益相关者密切互动，建立机制持续性监测和讨论政策内容，保持长期可持续性。从治理原则来看，采取原则指引为主、灵活政策为

28、辅的策略。敏捷治理强调在治理原则指导下，使用灵活政策工具作为补充，依据情况及时调整大模型治理方向和落地举措。在治理关系上，监管者和市场主体之间存在重要的相互依赖关系。双方在信任基础上深入密切交流，监管者可以更好了解技术趋势和产业发展走向，准备评估相关风险并制定合理措施。从治理工具来看，治理措施要下手快并允许包容试错空间。“下手快可以减少企业的沉默成本，减少技术路径和商业模式的转变损失。包容试错意味着鼓励企业积极创新，对于风险程度较低的问题，支持企业自行整改消除风险。4在治理模式选择上，灵活感知、动态调适的敏捷治理更契合大模型发展需求。大模型具有突破性、变革性、高风险性等特点，传统监管模式面临着

29、Al自主演化控制难、迭代快速跟进难、黑箱遮蔽追责难等问题，一劳永逸的事前监管模式已经难以应对不断推陈出新的人工智能发展需求。开展科技伦理敏捷治理试点工作，是边发展、边治理，边摸索、边修正的动态治理方式，对于平衡安全和创新，在实践中不断提炼和打磨大模型治理方案具有重要意义。欧盟、英国、美国均在不同层面引入敏捷治理以规制大模型风险。美国出台法案细化基于风险的敏捷治理具体实施路径。2023年5月，美国提出建立数字平台委员会相关法案，指出应采用基于风险的敏捷方法，并建立规制技术风险的新机构。法案认为，新机构应效仿企业的敏捷治理做法，制定行为守则，并以透明、反应迅速的方法执行相关标准。法案还为敏捷治理提

30、出了具体的实施路径，例如为准则制定过程设定时间表，确定并量化需要解决的问题，建立多利益相关方专家小组，专家组7寸政策实施效果进行持续追踪，找出新问题并循环整个过程。英国实行灵活的按比例监管”以提升在人工智能领域的竞争优势。2023年3月，英国发布促进创新的人工智能监管方式白皮书，明确监管目标为提供清晰的、有利于创新的监管环境，强调按比例监管”的灵活监管方式，力图推动英国成为世界上建立基础人工智能企业的最佳地点之一。欧盟总体基调严苛，但仍体现出敏捷治理思路。如人工智能法案第56b条款指出，人工智能办公室应对基础模型进行监测，并与开发者、部署者就其合规性进行定期对话，讨论行业自我治理的最佳做法；定

31、期更新将基础模型界定为大型训练模型的判定标准，记录并监测大模型运行的实例。再如，该法案第五章“支持创新的措施中，提出人工智能监管沙箱制度，要求建立受控环境，在一定时间内推动人工智能系统的开发、测试和验证。我国采取包容审慎、分类分级监管的敏捷治理模式。两办印发关于加强科技伦理治理的意见，提出敏捷治理的治理理念，要求加强科技伦理风娥警与跟踪研判，及时动态调整治理方式和伦理规范，快速、灵活应对科技创新带来的伦理挑战。国家网信办等七部门出台生成式人工智能服务管理暂行办法，坚持发展和安全并重、促进创新和依法治理相结合的原则，采取有效措施鼓励大模型创新发展，对大模型服务实行包容审慎和分类分级监管。相反，加

32、拿大立法进程中的非敏捷做法遭到外界批判。国际治理创新中心评论文章加拿大人工智能立法草案需要重新修订一文批评道，加拿大正在制定的人工智能与数据法案敏捷性不足，敏捷监管应该是不断迭代和数据驱动的，有明确的程序来评估政策影响并作出调整，但该草案并不具备这些要素。总体来看，作为一种新型治理思路，敏捷治理具备全面性、适应性和灵活性特征，契合大模型的治理需求。如何有效落地敏捷治理理念，是当前需要探索的重要任务。（二）治理主体：激励多元主体协同治理成为全球共识1.国际组织是全球人工智能治理的重要力量越来越多的国际组织开始关注人工智能的全球治理问题。在增进全球利益方面，国际组织有助于推动人工智能的全球应用和普

33、及，提升各地产业发展和社会服务水平，惠及发展中国家和地区。在管理共同风险方面，人工智能具有不受制于国界的风险跨境生成、扩散特征，单纯的国内监管无法有效管控风险，因此，在国际组织推动下，全球协同制定标准规范、支持和激励最佳国际实践，成为人工智能治理的应有之义。根据欧洲委员会正在推进的关于人工智能规制框架的建议，从2020年起国际组织已经超过国家成为主要的人工智能举措的来源；从2015年到2023年，国家政府层面共发布了172项举措,而国际组织5同期实施了214项举措，总体数量也超过各国政府。6（见图D国际组织在引导形成国际共识、建立国际通行和互操作的治理规则、确保新一轮人工智能发展造福全人类等方

34、面具有重要作用和独特优势。来源：欧洲委员会图12010-2023年间政府和国际组织发布的人工智能举措数量对比2国家政府加紧完善人工智能监管架构国家政府在人工智能治理中发挥着领导性作用，从国家层面统领大模型研发、设立专业监管机构、以及政策与法律规则的制定等。国家政府作为肩负公共事务管理职责的公权力机关，是公共利益和广大民意的代言人，也是国家安全和社会稳定的捍卫者。为更好应对大模型对传统监管架构和机制挑战，部分国家从不同维度加紧推进监管组织机构调整。一是部分国家和地区另起炉灶，探索建立专门的人工智能监管机构。欧盟将根据人工智能法案设立欧洲人工智能办公室，负责监督并确保法律的有效实施，协调联合调查等

35、。欧洲人工智能办公室将下设管理委员会（由各成员国代表组成的）、秘书处、咨询论坛（包括企业、民间社会、学术界等利益关联方）三个部分。7西班牙率先成立欧洲首个人工智能监管机构西班牙人工智能监管局（AESIA）。该机构将负责监管算法应用、数据使用以及确保Al系统遵守道德规范，其首要任务是执行欧盟人工智能法案。二是现有监管部门下设人工智能工作组，规制本部门管辖范围内大模型带来的风险。美国国土安全部成立首个人工智能特别工作组，旨在保护国家免受人工智能技术尖端发展造成的安全威胁。美商务部宣布，国家标准与技术研究院（NIST）将成立新的人工智能公共工作组，集合私营和公共部门的专家力量，重点关注大模型相关风险

36、挑战。X韩国文化体育观光部成立版权制度改进工作组、数字内容人工智能工作组、产业应用工作组，将致力于开发韩文语料库、审查版权侵权行为、开发试点项目等。三是在中央层面加强各行业部门之间的监管协同。大模型技术可被普遍调用于各类行业场景，对政府部门的监管协调能力提出更高要求。英国支持创新的人工智能监管方案白皮书指出，由于通用大模型供应链的广泛性，难以将其纳入任一监管机构的职权范围，应加强中央层面的监管协调。英国将重点依靠现有的金融行为监管局、信息专员办公室、竞争与市场管理局、平等与人权委员会、药品和保健产品监管机构展开监管。3.企业站在人工智能治理的最前线最前沿企业在推动人工智能治理规则和标准落地上发

37、挥着决定性作用，是践行治理规则和行业标准的中坚力量。当下人工智能领域内产业界呈现出领先于学术界的发展态势。2022年，由产业界开发的机器学习模型数量高达32个，而学术界则只研发了3个。（见图2）一是建立人工智能行业治理共同体。微软、谷歌、OPenAl等成立前沿模型论坛，致力于推进人工智能安全研究，确定部署前沿人工智能模型的最佳实践，并促进政企之间的信息共享。9韩国汽车、造船、机器人等十大主要行业领军企业则启动建立了包括政府部门、公共机构及400多家国内企业的跨行业人工智能联盟，该联盟将设立行业数据、法律法规两个政策小组以推进人工智能治理。1。二是企业内部增设人工智能治理相关组织架构。国内外多家

38、企业均设置了人工智能治理专门工作组。例如，微软设置了三个机构负责人工智能治理事务，分别是AI办公室、AI战略管理团队以及人工智能、伦理与工程研究委员会。IBM为践行人工智能伦理治理成立了AI伦理委员会，以支持公司执行人工智能伦理原则。商汤科技则成立Al伦理与治理委员会，统筹推进人工智能伦理治理工作体系建设。三是企业自身推动完善人工智能治理机制。一方面，企业提出治理原则和指南等构建人工智能治理生态系统。2023年5月，微软发布人工智能治理：未来蓝图，提出治理人工智能的五大建议，例如应建立并实施政府主导的人工智能安全框架，为控制关键基础设施的人工智能系统部署安全“刹车。另一方面，企业不断创新治理工

39、具来落实Al治理工作。在2023年RSA大会上，谷歌推出大模型网络安全套件云安全AlWorkbench.将大模型引入网络安全领域。200322年重要机器学习系统敷量（技行业划分）3530*产学合作拿0利性蛆1R工业界图22002-2022重要机器学习系统数量（按行业划分）（三）治理机制：软硬兼施推进大模型治理围绕可信可控、以人为本、公平公正等人工智能治理价值目标，全球各国注重刚柔并济、软硬兼施，从柔性伦理规范和硬性法律法规等维度发布具体的人工智能规则规范。根据世界经合组织(OECD)人工智能政策观察站最新统计，已有69个国家和地区发布800多项人工智能政策。111.以软法为引领的社会规范体系全

40、球在人工智能治理中率先推进软法创制，软法与促进创新发展的治理需求有着天然的契合性。一般而言，伦理、行业标准等“软法”的制定方式和周期更富弹性，参与主体具有高程度的协商性，内容更细致更具针对性，有助于实现人工智能治理的敏捷化、多元化和场景化。近年来，主要国家和国际组织纷纷发布Al伦理原则和规范文件，例如G20人工智能原则、国际电气和电子工程师协会(IEEE)人工智能设计伦理准则、欧盟可信人工智能伦理指南等。我国在科学技术进步法关于加强科技伦理治理的意见等顶层设计下，积极推进制定人工智能伦理治理规范，落实科技伦理审查、监测预警、检测评估等要求，提升公共服务水平，推动科技伦理治理技术化、工程化、标准

41、化落地。伴随大模型的应用，软法治理体现出以下趋势特点：一是受地域文化、发展水平等因素影响，各国伦理治理重点存在分歧。西方国家更关注算法偏见歧视问题，保障少数族裔免受大模型应用带来的歧视风险。发展中国家更为重视透明度和可解释性，保障新一轮人工智能浪潮下的国家数字主权。二是推进出台可评估、可验证的标准。为同步落实人工智能法案要求，欧盟委员会下发人工智能标准需求清单,欧盟立法委员直接参与标准工作，保障立法到标准的落地。爱尔兰政府推出人工智能标准和保证路线图，协助爱尔兰企业以合乎道德的方式使用人工智能。三是提升人工智能的社会化服务水平。国际标准组织IEEE面向行业推出了人工智能治理认证制度。英国则发布

42、建立有效人工智能认证生态系统的路线图，建立包括影响评估、偏见审计、认证、性能测试等中立第三方服务，力图培育世界领先的人工智能认证行业。四是出台行为守则、指南文件等作为过渡阶段的适用规则。在出台正式的法律法规之前，部分国家率先发布行为守则等，为企业或政府利用大模型提供指引。例如，加拿大政府发布生成式人工智能行为守则，要求在加拿大人工智能和数据法生效之前，由加拿大公司自愿执行。Q美国波士顿发布全球首份政府应用生成式人工智能临时指南，指南适用于除波士顿公立学校外的所有城市机构和部门，列明了政府部门应用大模型的部分示例用例及注意事项，例如不要在提示词中包含机密信息等。2以硬法为底线的风险防控体系面对大

43、模型风险调整，建立完善刚性的硬法约束，通过构建风险防控体系，提前布局、树立起防火墙，把握大模型发展的底线以规避风险的发生。在新一轮人工智能浪潮中，以欧盟人工智能法案、我国生成式人工智能服务管理暂行办法为代表的法律法规均受到各国高度关注。具体来看，体现如下趋势特点：一是总体来看人工智能立法步伐加快，但仍有部分国家采取保守观望态度。斯坦福报告显示，大模型的广泛应用成为推动人工智能立法的关键节点。2016至2022年间全球Al法律的数量增加了36项，立法程序中提到人工智能的次数增长近6.5倍（见图3、图4）。美国参议院舒默等召开数次听证会，提出两党人工智能立法框架，以加快立法进程。新加坡、印度则表示

44、暂不监管人工智能，印度信息技术部部长阿什温尼瓦什纳在2023年4月表示，政府目前并未考虑出台任何法律来规范人工智能在印度的发展。二是基于风险的分级分类方式仍然是大模型治理的重要诉求。在欧盟基于风险的治理理念影响下,分级分类成为平衡创新与发展的重要方式。欧盟-美国贸易和技术委员会发布了一份联合声明，重申基于风险的（人工智能）方法，以推进值得信赖和负责任的人工智能技术。日本提出风险链模型（RiSkChainModel）,根据不同行业场景提出不同风险分级。德国电力电子与信息技术协会提出VClo模型，指导使用者对应用场景风险等级作出判断。三是后发国家立法注重与已有法律框架的互操作性。加拿大人工智能和数

45、据法立法文件指出，该法案在关键定义和概念、采取以风险为基础的监管路径等方面，均注重与人工智能领域的国砌!范相衔接，包括欧盟人工智能法案、经济合作与发展组织人工智能原则和美国NlST人工智能风险管理框架等。四是在传统法律框架下探索有效、灵活的执法手段。例如美国注重利用传统立法，例如反歧视法、消费者权益保护法、竞争法等现有法规，来打击诈骗、虚假宣传、欺骗性广告、不公平竞争等行为，并采取相应处罚措施，甚至要求公司删除根据不正当数据训练出的算法。来源U:中国信息通信研究院根据斯坦福HAl报告数据整理图32016-22年81个选定国家立法程序中提及人工智能的次数来源：中国信息通信研究院根据斯坦福HAI报

46、告数据整理图42016-22年127个选定国家人工智能相关立法数量三、聚焦大模型治理核心议题规则如何构建高质量数据集，如何更新知识产权制度以激励创新，如何实现价值对齐等问题，是大模型带来的新兴问题挑战。基于此，本章设定四大议题予以回应。(一)数据治理规则1.构建高质量数据集高质量训练数据是大模型发展的基础。数据作为新型生产要素，是人工智能技术创新和产业应用的基础。在大模型时代，数据质量的重要性大幅提升。当前，以模型为中心的传统开发模式逐渐式微，巨量优质数据堆叠对模型表现的提升效果远优于微小的算法改动，因此数据成为大模型开发的核心要素。以GPT为例，GPT-I只使用了4629MB文本数据，GPT

47、-2使用了40GB从Reddit爬取并筛选的文本，而GPT-3用了至少45TB的纯文本，GPT-4的数据需求量更随着模型参数的跃升而显著增加。我国高质量中文数据集尤为匮乏，当前用于大模型训练的英文文本较中文文本更为规范、丰富，针对中文文本的标注规范、质量把控、成果激励等均有不足。对于数据质量差而带来的负面影响，mI-W-100数据法则指出，如果最初用于验证数据的成本是1美元，则组正错误数据则需10美元，可能导致的业务成本增加将达100美元。在大模型开发中，这种负面影响将因模型改进对数据依赖性增强而呈指数放大，除影响企业成本、收入外，还将增加数据生态系统的复杂性，最终可能导致模型训练失败。数据流

48、通共享是建立高质量数据集的前提。高质量数据集需要经历数据资源化、数据共享、交易流通与分析应用等数据价值化过程；尤其是其中的流通共享环节，有利于充分房军数据可无损地被重复利用的潜在价值。M各主要经济体制定促进数据流通共享的框架法规。2023年3月，美白宫OSTP正式发布国家战略：推进隐私保护的数据共享与分析l5,旨在通过技术手段推动公共和私营部门数据共享，实现负责任地利用隐私保护的数据共享与分析来造福个人和社会”的愿景。欧盟人工智能法案提出，欧盟委员会建立的欧洲共同数据空间以及促进企业之间和与政府之间的公共数据共享，将有助于为人工智能系统的训练、验证和测试提供可信的、可问责的和非歧视性的高质量数据访问。为充分利用欧盟本土数据，2022年3月，美国积极推动与欧盟达成欧盟-美国数据隐私框架（DPA

展开阅读全文