2024人工智能 预训练模型第1部分:通用要求.docx

上传人:李司机 文档编号:7321956 上传时间:2024-09-20 格式:DOCX 页数:14 大小:63.21KB
返回 下载 相关 举报
2024人工智能 预训练模型第1部分:通用要求.docx_第1页
第1页 / 共14页
2024人工智能 预训练模型第1部分:通用要求.docx_第2页
第2页 / 共14页
2024人工智能 预训练模型第1部分:通用要求.docx_第3页
第3页 / 共14页
2024人工智能 预训练模型第1部分:通用要求.docx_第4页
第4页 / 共14页
2024人工智能 预训练模型第1部分:通用要求.docx_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《2024人工智能 预训练模型第1部分:通用要求.docx》由会员分享,可在线阅读,更多相关《2024人工智能 预训练模型第1部分:通用要求.docx(14页珍藏版)》请在三一办公上搜索。

1、人工智能预训练模型第1部分:通用要求前SII引HI1范围12规范性引用文件13术语和定义14缩珞语25概述26技术要求46.1 资源池46.2 工具56.3 数据资源76.4 模型76.5 行业应用86.6 服务平台/批件8附录A(资料性)段训练的方法简述10参考文献11训练模型已成为人工智能发展的重要技术手段.在引额产业变革中发挥重要作用.出内外人工智能相关机构相继研究开发百余种预训练模型产品和评海榜以,林较用户难以有效评价业内人工智能产品的技术水平和服务能力.GaTXXXXX旨在规定通用预训练模型的技术要求、评测指标和服务能力,拟由三部分构成,一第1部分:通用要求.H的在于定义制备或使用大

2、规模预训练模型的人工智能系统的技术参考架构和相关方活动,并提出通用技术要求.第2部分:评测指标与方法.目的在于定义预训练模型评测内容、指标设置和评测方法.第3部分:服务能力成妫度评估.目的在于定义大规模预训练模型服务能力成熟度评估框架.规定大现模按训练模型服务的能力要求、成熟度等级及评估方法.人工智能预训练模型第1部分:通用要求1葩囹本文件定义断修或使用预训练模型的舂考架构,描述了相关方及其活动,并规定了预训练模型的通用技术要求.木文件适用于预训练模型的研究、制备、开发、部署和应用,2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期

3、时应的版本适用于本文件:不让日期的引用文件,其被新版本(包括所有的修改单)适用于本文件,GB/T41867-2022信息技术人工智旎术谱3术语和定义GB/T41867-2022界定的以及下列术语和定义适用于本文件,3.1预训嫉模型pre-trainedmode1.一种在广泛领域数楙集上训练得到的供以专门筑城数据微调,未满足场景任务需求的深度学习模型,注:按训练数据模预训班模型般相应体现出对文本.图像.齐顿或视顿等模态任务的处理箍力及泛化性.3.2预训练模型服务pre-trainedmode1.service通过应用但训练模型为用户提供价值的方法.注1:服务般满足用户获得特定输出的要求.注2:f

4、fi训练模型IH务敏含行:推理朦务.做词服务、大模型小里化限务.【来源:ISO/IEC200001:2018,3.2.15.有修改3.3作业job一个可被测试系统执行的域本测试的元。来源:1SO/IRC25023:2016,4.3,有修改3.4任务task被调度的训练或推理对歆。注;任务用于完成个相对独立的业务功能,一个任务MEI1.仅肮J一个作业.3.5微调fine-tuning为提升人工智能模型的彼测精确度,一种先以大型广泛领域数幅集训域.再以专门领域数据集继续训练的附加训触术。注1:专门领域数据般指下游任务数据注2.常用的党训方法包括槌东微调,至与微调、高效参数Ri词等.来源:GB/T4

5、1867:2022.3.2.31,有修改3.6提示语PrOmPt使用预训练模型进行微调或卜游任务处理时,插入到输入样本中的指令或信息对象,3.7提示学习prompt1.earning在不修改预训练模型结杓和参数的情况F通过向模型提供含特定什务指示性关键词的提示语,引杼预训练模型在特定任务上应用其已有知识达到更好性能我现.3.8人工智能加速处理器artificia1.inte1.1.igenceacce1.eratingprocessor具第适配人工智能算法的运以微架构,能将完成人工智能应用加速运算处理的篥成电路元件.来源:GB/T418672022,3.1.5,有修改4缩略语下列缩略语适用于本

6、文件.ITPGA:现场可端程逻轼门阵列(Fie1.dProgrammab1.eGa1.CAnay)GPU:图形处理器(GraphicProcessingUnh1.ACP:链跖案合控制协议(1.inkAggregationContro1.Pn)IoCo1.)NPU:神经网络处理器(Neura1.NetworkProccsSingUnit)TP1.h张依处理器(TensorProcessingUni1.)UMI.:统一建模语言(UnifiedMode1.ing1.anguage)5概述支撑预训练模型的生态包括功能视角下的参考架构和用户视角下各相关方的技术活动功能视角卜的预训练模型参考架构见图I.包

7、括资源池、工具、数据资源、模蟹、行业应用和困务平台等.其中:资源池包括计算、存谛、刈络、资源虚拟化及调度等:一一工具包括数据工具、模型工具:一一数据资源包括通用数据、领域数掘、私有数据:模型包括预训纵模里、定IW化模型,其中预训练模型包括单模态和多模态两种类型的模型,定制化模型是依据用户需求对预训练模型进行微谓定制生产环境所需的模型:一一行业应用为为各行业场景用户提供预训练模型卜游仔务四配服务:一一眼务平台/纲件员穿各层次提供支持大规模预训练模型和相关服务的编排、部署、模型推理、运维和管理.rr*WM)Wt1.MmNt!务ftM11Ifi1.K货耽Mrtt图1功彘视角下的预训练模型参考架构用户

8、视角下的预训练模型相关方见图2,包括基础设施提供者、数据提供者、模皇提供者、应用服务者、应用消费者和管理者.其中:基础设施提供者包括硬件资源提供者和软件资源及工具提供者。便件资源提供者的活动包括提供计驾,存储、网络等支撑被件朋务活动.软件资随及工具提供者的活动包括提供数楙处理.计算加速、模型训练、模型优化、模型验证等支撑状件眼务活动;一一数据提供者进行数据采柴、数据准备、数据管理等数据相关服务活动:模里提供若负击模型设计开发、模型预训练、模型验证、模型优化、模型部署等fft训练模型相关眼务活动;一一应用服务者支持平台服务、植大!定制、模型推理、模型运维和管理等应用服务活动:一一应用消费者的活动

9、包括使用模星和相关服务以及提供评估反德:管理者对预训练模型在生态能各环节的安全与合规性进行管理,包括监管、审计、测试评估等活动。6技术要求1 .1资源池6 .1.1计算资源为模型训练和推理提供计*和数据处理等能力的实体设备(如C叩、(;MJ.F,G,NPU,THJ)或逻辑设备。计算资源符合以下要求;a)应能执行至少1种帙态(如文本、图像.语音)的模型的训练或推理:b)应支杼破件加速的人工智能计切,尼备分布式训练和推理计算加速麻:1)训练服务器:-应支持不小干4个100GEd1.c应支持分布式并行存储;应支持在线弹性扩展,满足容量需求和性能的线性增长:应支持通过控制台、API、SDK、命令行方式

10、悚作存储资源,能按需求切换:应支持标准文件系统按,如POSIX;应支持向此库储存.6.2.1.4数据管理工具数据工具提供数据旨理功能,符合以下要求:a)应支排数据集管理的要素.包含数据集名称、版本、标注类型、标注标签数幅盘、数据求源、特征版本、创建时间第:b)应支持数据集的创建、查谕、修改、删除、导入、导出、发布等:C)应支持数据篥状态信息查询,包含数据篥名称、版本、标注类型.数据Iih导入状态、已标注状态和版本:d)宜支持数据可视化分析和版本管埋.6.2.2模型工具6.2.2.1模型设计工具模里设计工具,符合以下要求:a)应支持可视化图形界面,允许用户通过施放、连接元索来创建模型:b)应支持

11、多种类型的模型设计,例如流程图、UM1.(统一建模语言)图、概念图等;C)应提供预定义的模型元素和模板使用户能修快速构建模型:d)应支持对模型性能进行帙拟和分析,以评估其行为和性能:c)宜支件导出模型的多维度信息.如说明文档.模型代码等.6.22.2模型训练工具模军训练工具,符合以下要求:a)应支持数据并行,模型并行,混合并行等分布式训练技术:b)分布式协同训级集群在训旅过程中出现节点故隙(如宕机)时.应支捋从断点维续并完成训练任务:0应能至少使用2种数据源或知识阵,对训练任务实施集成和迁移:d)应支持或可通过插件方式支持数据可视化、训练可视化及模型评估可视化:e)应支持范于训练数据的整体或部

12、分特征,构建预训练任务;n应支持模型历史版本和微调迭代过程中的信息记录和查询.信息包含H志.准病率、损失、参数等;g)应支持狡训练模型训练过程及应用日志的留存及狭取:h)宜提供多种并行策略,包括算子切分、算子自动并行、自定义通信算子等.6.22.3模型优化工具模鞭优化工具,符合以下要求:a)应支持模型压缩(如则枝、依化知识蒸潮等).云服务实现时宜提供圜用接口:b)支持模里微调,包括:D应支持的数据类型包含如文本、语音、图像、视版等:2)应支持任务类型包含中模态、多模态融合等;3)应提供评价指标体系,包含如准确率、清晰度等:4)宜支持基于用户反馈的金冏(如基于用户反馈的强化学习.O应支持卷效有效

13、性学习、混合精度训练(自动精度混合、手动精度混合)等优化训练方法,使用的精度如半精度浮点,四分之一精度整型或单精度浮点等:d)宜支持检索增强生成功能.6.2.2.4模型验证工具模鞭3金证工具,符合以下要求;a)应支持族训练模型的功能(如自然谱言处理、图像处理、多模态等)有效性评估:b)应提供自动化测试功能:c)应允许用户根捌霜要自定义测试参数和场景:d)应能在测试过程中自动检测运行界常情况井提供诊断信息;e)宜支持模型性能实时雅测和日志记录.6.22.5模型部署与推理工具模型部署和推理工具,符合以下要求:a)应支持的部哲方式包含在线部署、批演部署、离税部哲等;b)应支持本地服务渊部署,云端部署

14、.宜支持边域DH和移动端的模型部署:c)应提供实现机制,支持在满足一定吞吐量:条件下的低延时推理:d)应支持模型推理过程的监控和日志记录:0宜支持在至少I种推理加速板架上部石模型:O在提供工具锌,基于自然语言处理模型、视觉模型、多模态模型、科学计和模缎,构建卜游任务.6.3 数据资源6.3.1 通用数据酒用数据应具彳j来源多样性、高炕、覆靛面广、完整性和真实性,宜尽敬?5薪各类应用场景,鹤保大模型的训练数据具有高质量和多样性.6.3.2 领域数据领域数据应具备领域特征,它尽量凝孟领域中的使用场景.比提供定制用数抠库,包含开源域域数抵.具有专业性标注且在本领域具有多样性和理盖性。6.3.3 私有

15、数据私有数据应符合隐私保护法规,确保数据安全性.数据所有者应对数据使用具符控制权,包括访问权限管理和使审计.数据需其i1员域和完整性,避他缺失伯和异常伯.确保数据的准确性和可靠性.6.4 模型6. 41预训练模型6.4 1.1通则预训练模型,符合以下要求:ib-cd1.c宜支持单Si态、部分模态和全模态等训练方式;宜支持多种模态特征提取的方法(如单塔方法、双塔方法等):宜支持的数据类型包含文本、语音、图像、视频等:宜能提供相应模态的处理接口(如文本生成、图像叫!解等):宜支持的交互模式和协议,包含同步、异步、批属、流式、事件驱动等:6.5 .1.2单模态单模态预训练模型,符合以下要求:a)应提

16、供单模态数据的特征提取:b)应支持模态补全、模态掩码、模态增广、模态犷展等任务:c)应具簧至少1种单模态理解功能。其中,单模态理解功能可参照GBTXXXX-XXXXt人工智能鼓训练模型第2部分:评测指标与方法:d)宜支持至少I种单模态生成功能。其中,单模态生成功能可参照GBTXXXX-XXXXt人工智能修训练模型第2部分:评刈指标与方法.6.6 1.3多模态多模态预训练模型,符合以下要求:a应具备至少1种多模态理解功能,如图文检索、视觉定位、图音检索、文书检索等:b)应具备至少I种多模态鼓训练模型基础架构,如单塔、多塔架构等:c)宜能提供至少1种多模态生成功能,如文本生成图片、图片生成文木、图

17、片生成视频、图片生成语音、文本生成视频等:(1)宜支持对大语言模型的桥接,6.7 2定制化模型聪于预训练模型,定制生产环境所需模里,符合以下要求:a)应支持定制模型的参数盘大小、存储容量、计尊资源、网络资源、性能评价指标等:b)应支持多种顶训练模型激调方法,包含但不限于附录A;O应提供模型标本管理功能,包含模型发布、版本回退等;d)应提供并运雄预训练模型库,实现用户上传、做词和使用模型:e)宜支持面向任务推荐定制化方法(如面向金歌(银行、证券、保险)、能源、制地、消费、通信等场景):0宜支持基于用户数据和微网数据库数据混合的模型定制.6.8 行业应用对每种预训练模型(自然语言处理,计算机视觉,

18、多模态等),宜至少匹配1个下游任务。6.9 服务平台/组件预训练模型服务平台/组件,符合以下要求:a)应支持预训练模里插件开发,井提供开发协议以规定插件的规则和接口,如模型接口、输入输出数据格式、插件元数据和插件运行状态码等要求;b)应支持部部服务升级、网滚:0应支持根据业务负我情况,对计算资源进行押性伸缩;d)宜支持预训练模型灰度发布、A/B测试、模型版本管理:e)预训练模型殂件宜能够自动检测和修M问题,减少人工干预:O宜支持插件运行施控和日志记录。附录A(资料性)预训练的方法简述A.1预训练自监督算法举例由于大观模预训练模型蠡要庞大的训练数据规模,因此经常使用无猫数据标注的自监修算法,三种

19、常见自监督算法举例如下:a)掩码学习是一种通过的机遮盖怆入的部分内容,训练模型以预测被遮盖的内容的方法,BERT和BEiTb)对比学习是一种通过构造正负样本对.训练模型以区分它们的方法,SimC1.R和Moa.c)自I可归学习是一种通过按照项序预测输入的下一个内容的方法.如GPT和PiXeIRA.2预训练常见模型结构举例由于大规作预训城模型需要庞大的训练数擀规模,因此经常俏要从大盘无标注数据中学习有效特征表示的模型结构,三种肺见结构举例如下:a) Transformer是一种基干自注意力机制的网络结构,可以并行处理序列中的所有位置,从而提高计算效率和模型泛化能力.b) Convnet是一种基于

20、卷枳层的网络结构,可以提取序列中的局部特征,从而适用于图像、哲嫌等领域.在处理大现模图像数据时训练效率较高,但往往对怆入数据的长度和窕度有限制.C)RNN是一种班于循环层的网络结构,可以捕捉序列中的时序特征,从而适用于文本、音频等领域,A.3预训练模型微调方法类别预训练模型由于在下游任务之前训练获得,不能直接用于下游任务,因此经,常需要急调方法进行适配,三种微调方法类别如下:a)全局微烟:也称全参徵诩,在特定任务的标注数抠上对预训练模型的所有参数进行更新,以提高模里在该仟务上的性能,如BERT和GPT。b)局部澈调:更新预训练模型的小部分卷数进行更新,C)零样本激调:不对预训练模里的任何卷数进行更新,而只是设计和优化输入提示,如P-Tuning和Prcfix-TuniriK等提示学习方法。11

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号