《2024人工智能 预训练模型 第2部分:评测指标.docx》由会员分享,可在线阅读,更多相关《2024人工智能 预训练模型 第2部分:评测指标.docx(24页珍藏版)》请在三一办公上搜索。
1、人工智能预训练模型第2部分:评测指标与方法前SII引HI1范围12规范性引用文件13术语和定义14缩珞语15评测指标15.1 评测维度15.2 理解能力评测指标15.3 生成能力评刈指标115.4 安全性评测指标156评测要求156.1 评测数据集156.2 评测环境156.3 评测执行156.4 评测工具166.5 评测实施16附录A(资料性评测指标计算方法17参考文依21训练模型已成为人工智能发展的重要技术手段.在引额产业变革中发挥重要作用.出内外人工智能相关机构相继研究开发百余种预训练模型产品和评海榜以,林较用户难以有效评价业内人工智能产品的技术水平和服务能力。GBTXXXXX旨在规定通
2、用预训练模型的技术要求、评测指标和服务能力,拟由三部分构成.一一笫I部分:通用要求,目的在于定义制务或使用大规模预训练模型的人工智能系统的技术参考架构和相关方活动,并提出通用技术要求.一一第2部分:评测指标与方法。目的在于定义预训练模型可支持完成的任务、评测指标以及评溺方法.一一第3部分:服分能力成熟度评估.F1.的在于定义大规愎预训练模型服务能力成熟度评估框架,规定大规模预训练模型服务的能力要求、成熟度等级及评估方法.HI人工智能第2部分:评测指标与方法1葩围本文件规定了预训练模型评测内容、指标设置和评测方法.本文件适用于模型提供者、应用服务苻和应川消费音等对预训练模型能力进行评估与测试,也
3、可以为预训练模型的设计、开发、应用提供参考,2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款,其中,注11期的引用文件,仅该H期时危的版本适用于本文件:不注H期的引用文件,其最新版本(包括所有的修改单)适用于本文件.GB/T41867-2022信刖技术人工智能术语GB/T42755-2023人工智能面向机器学习的数据标注规程GB/TXXXXX.1XXXX人工智能预训练模型第I部分:通用要求3术语和定义GB/T41867-2022和GB/TXXXXX.1-XXXX界定的术语和定义适用于本文件。4缩珞语下列缩略语适用于本文件。B1.EU:双i书评估替补(BiIingU
4、a1.EYaIUatiOnUndenuUdy)API:应用编程接口(App1.icationProgrammingInterface)5评测指标5.1 评测维度本文件对位训练模型通用能力进行评测.主要分为理耨、生成、安全3个评测维度.共44个典型任务-针对每一个典型任务,本文件规定了对应的评测内容和评测方法.5.2 理解能力评测指标5.3 1概述预训练模型理解能力评测主要分为单模态和多模态维度,电模态维度主要包括文本、图像、音频3个二级维度。多模态维度主要包括图文、文音、图书、图文有4个二级维度。理解能力评测维度和典型任务见表1.表1理解能力评测维度和说明序号一级维度二级推度典里任务说明1单模
5、态文本文本分类将文本划分为不同的类别或标签.可以应用于垃圾邮件过浓、情感分析、新闻分类等应用场景。2命名实体识别识别文本中的实体,如人名、地名、组织机构、1期等。3信息抽取指模型能将根据文本内容,完成内容、实体、千件、国性、关系等信息的抽取.4数学推理指理解和应用数学慨念、原理来解决涉及数学运算问题的能力,如解析表达式、图形识别、公式推导等。5因果推理指模里在文本模态中识别和计算因果关系的能力.6常识推理模型能对不会显式阐述的何SSiS行理解分析,给出正确的回答。7任务分解指模型能娜将复杂任务分解为多个步骡,并合理规划任务的执行顺序.8文本问答指模型能膨根据用户提出的向3,提供合理、准确、实用
6、的答案.9代码理解指模型能弗对绐定的编程代码,给出相应的文本解择说明.10.长文本理解指模型能够对长文本内容深入理解和分析,并提取其中信息。11.图像静态图像分类指模型能防理解图片的语义内容,并输出其对陶的类别标签.12.静态图像分制把图片分成若干个特定的、具仃独特性筋的区域并提取感兴趣目标的技术和过程。13.目标检测在图片中检测和定位特定的目标物体。14.动态图像分类给定一个动态图像.为其划分到指定的类别中.15.行为识别对视频数据进行分析,识别出视顿中包含的人或物体的动作或行为,并对其进行分类和识别.16.音频声纹识别将声信号转换成电信号,再通过计算机进行识别,包括说话人辨认和说话人确认.
7、17.音频问答指模卡能够理解用户提供音频信息中的问题,并提供合理、准确、实用的答案。18.环境音分类指模型能够识别、分析环境音中的语义信息等,可完成声学场景分类。19.多模态图文图文检索指模型能切根据给定的图片/文本检索到与之最匹配的文木/图片何成配对。20.图片问答指模型熊影回答针对图片的文本问时21.视觉空间关系指模型能膨星于图片内容正确判研文本中所描述的对象间位置关系.22.视觉沿吉推理指模型能肺基于给定的一对图片和描述.判断描述与图片间的对应关系是否致.23.视觉煎含指模型能酩推埋判断给定图片和文本之间的关系。24.视频检索指模型健峪根据给定的视场/文本检索到与之聂匹配的文本/视频构成
8、配对。25.视频问答指模型能峪I可答针对视频的文本问避.26.图表推理指模型具备理就和推理图表信息,并据此作出合理的推断.27.文书文齐检索指模鞭能第根据给定的音频/文本桧索到与之JK配的文本/音频构成能对。28.图吉视频舁偌检测指能终同时基于视领和相应的声音对视频中的炜常模式进行识别检测,29.图文A有声视频检索指模型能筋根据给定的仃声视翔/文本依索到与之地匹配的文本/有声觇频构成配时,30.有声视频问答指模型能修回答针对仃声视域的文本问题.5.2.2 文本分类评测预训练模型对给入文本内容的分析能力,包含但不限干:a)义木分类:能笠杷输入的文本映射到具体的类目上,用户只需要提供待分类的文本,
9、而无需关注具体实现。主要包括:单标签、多标签分类任务:b)句子分词:能盛将句子序列切分成词序列;c)词性标注;能膨为自然语言文本中的绿个词汇献予一个词性,这里的词性类别可能是名词、动词、形容诃或其他:d)情客分析:能婚确定文本中殖含的情整做向,如正面,负面或中性:e)语义角色标注:能够为句子中的训词和论元赋予相应语义用色。评测方法:按照被测指标描述构建包含一个或多个文本分类能力的冽试数据集,冽试数据集中应包含不少于100O条测试数据(附个能力项不少于200条测试数据),使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录11对结果的准确率进行计算.5.2.3 命
10、名实体识别评测按训练模型对蚪入文本内容的分析能力,包含但不限于:a)关系抽取:能能从文本中抽取出实体之间的语义关系。在义本中,实体可以指人、地点、组税、小件等而语义关系则指实体之间的各种关系,如主调关系、动其关系、上下位关系、同义关系等.关系抽取要求可以给出这些关系信息;b)事件抽取:使修对给定的自然谱言句子,从文本中抽取出包含特定语义信息的事件.事件通常由触发词、参与者和事件类型组成:c)实体识别:能鲂在句子的词序列中定位并识别人名、地名、机构名等实体任务:d)JSftiiW:能纺确定一个句子中的代词或名词短谙所指的具体对象是什么.在处理自然谱言时.有时候会出现个名词短语或代词,但它并没有明
11、确指出其所指对象是什么,需要通过指代消除来确定其所指对象。评测方法:按照被测指标描述构建包含一个或多个命名实体识别能力的制试数据集,双试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据,使用可编伴测试工具和测试统计工具将测试数批:集怆入到被冽系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算.5.24信息抽取评测预训练模型从发杂文本内容中自动识别和抽取关键信息的能力,包含但不限于:a)关键词抽取:能够从文本中识别出核心词汇和短语,这些关键词和短语对理解辂个文本内容至关乘要:b)摘要生成:能够自动产生文本的摘要,简明扼要地概述文章的主要内容和关留点:c)第实抽取
12、:能蜴从文本中提取具体的事实信息,如日期、地点、人物及相关事件等,这些佶息是构成新仲报遒或叙述文本的基本元泰;d)论点抽取:能鲂识别和提取文本中的观点和论证.包括支持和反对的论楙,这对于分析评论性和辩论性文本尤为IR要.评测方法:构建一个包含多种信息抽取任务的测试数据集.病保数据集涵盖各种文本类型.如新闻报道、科学出义、博客文章等.测试数据集中应包含不少于80。条海试数据(第个能力项不少于200条测试数据).使刖可编程测试工具和测试统计工具将测试数据集输入斛被测系统并获取运行结果,参考附录(1.1对结果的准确率、的句子进行逻辑推理,准确识别出条件与结果的关系:d)反事实条件推理:能笠处理反事实
13、条件句(如“如果是,那么会怎样”,分析在不同的条件下可能产生的不同结果。评测方法:按照被测指标描述构建包含一个或多个囚果推理能力的溅试数据集,强试数抠集中应包含不少于800条测试数据(单个能力项不少于200条测试数据,使用可组程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果.可参考附录A.1.1对结果的准确率进行计算.5.27常识推理评测预训练模型在处理箱入文本时的常识推埋能力,包含但不限于:a)力实脸证:俊雄判断文本中的叙述是否舒合常识和实际情况,如判断描述的事件是否可能发生:b)条件推理:能修根据文本提供的条件.推断可能的或必然的结果:O相似性判断:能舒评估两个或多个对象、
14、事件或概念之间的相似度或关系;d)常识性结论推断:能够从给定的信息中推断出符合常识的结论或解糅,评测方法:构建一个包含多个常识推理任务的测试数据集,怔个任务根据上述能力项设计相关的测试场景.测试数据集中应包含不少于800条测试数据(单个使力项不少于200条测试数据).使用专门的测试工具勒测试数据臾输入到坡涮系统,并通过自动化工具获取系统的处理结果,评价指标包括但不限于准确率、召回率和F1.分数,具体计算方法可参考附录A.1.1.5.2.8 任务分解评测便训炼模型是否具有将衽杂任务分解为多个步躲.并合理规划任务的执行顺序的能力.包含但不限于:a)思维链:评估模型的思维健内建能力:b)任务编排:评
15、估模型对分解后的任务,进行合理编排的能力.评测方法:按照指标描述和涮武动使构建包含一个或多个复杂任务分解能力的洌试数据优,测试数据集中应包含不少于100条测试数据(单个使力项不少于200条测试数据),使用可编程测试工具和测试统计工具将测试数据埃输入到被测系统并获取运行结果,可参考附录RI.1对结果的准确率iS行计算。5.2.9 文本问答评测倒训然模型基于内部依含知识,实现对用户问题的系统制答以及提供信息查询的能力。包含但不限于:a)生活常识:能够而生活中常见的相关的常识问题进行解答或提供相关的建议;b)医学知识:通过泡量参数化的医学知识数据,能终帮助患者、医生等解答在用药、就诊、医学知识、辅助
16、诊断等方面的问胭读者提供相关建议:c)历史人文:通过海量参数化的历史人文数据膨帮助用户解答历史人文方面的同翅、学习相关知识或者提供相关建议:d)科学知识:洒过海业费数化的科学知识数据,能期;恬助用户解答科学方面的向时、学习相关知识或者提供相关建议:e)天文地理:洒过海羊冬数化的天文地理知识数据,健勤用助用户解答天文地理方面的间题、学习相关知识或者提供相关建议:f)信息查询:能够对用户制要的各种信息进行查询.包括:企业信息、社会事件、法徉估息、金融投资、旅游信息、交通查询、学术信息、通讯信息、政策查询等;g)百科问答:能鲂支持各方面的百科问答,包括:财羟百科、动物百科、军事百科、科技百科、历史百
17、科、汽车百科、人物百科、生活百科、数码百科、心理百科、社会百科、文化百科、娱乐百科等:h)工作技巧:能群支持工作中各种技巧的问答,包括:常用软硬件、工作软能力、学习技巧、自我管理、实施工作技巧等,评测方法:按照被测指标描述构建包含一个或多个文本问答能力的测试数抵集,刈试题期集中应包含不少于1600条溯试数据(单个能力项不少于200条测试数据),使用可豌程测试工具和测试统计工具将测试数据集输入到被刈系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计W.5.210代码理解评测鼓训练模型对给定的编程代码,给出相应的文本解秤说明并给出编程代码中存在的问题的能力,包含但不限于:a)评估模型理解
18、编程代码懑图的能力;b)评估模型根据编程代码意图发现代码中问趣并对其优化的能力:C)评估不同模型能够理解编程代码类别的能力,如C、C,Python等.评测方法:按照被祝1指标描述构建包含个或多个编程代码理解能力的测试数据集,海试数据臾中应包含不少于600条测试数据(单个能力项不少于200条测试数据),使用可潟程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.I对结果的准确率进行计算,5. 2.11长文本理解评测预训练模型财长文本内容的深入理解和分析能力,包含但不限于:a)文电摘要:旄够自动从一篇长文本中提取核心要点并生成摘要.这包括提取式推要(直接从文本中选取
19、关键句子)和生成式摘要(至新表达文本的核心信息);b)主题模型识别:使够识别并门类文本中的主要主越和概念,通常包括自然塔言处理技术来探测文本的潜在主题分布:c)文本卷辑性检测:评估文本中的爱轼连贯性和论证结构,包括但不限于因果关系、财比关系和时间顺序的识别:d)细节理解:能终准确识别并解译文本中的详细信息和更公情节,这可能涉及跨段落的推州和深层的语义分析:e)跨文档信息融合:能修整合多个相关文档中的信息,提供全面的信息视角和深入的内容理解,评测方法:构建包含多个长文本理解旎力的琮令测试数据集.测试数据集中应包括不少于ICK)O条测试数抠(单个能力项不少于200条测试数据).f史用可编程测试工具
20、和测试统计工具物测试数据集输入到被测系统并获取运行结果,可参考冏录A.1.1对结果的准确率、召回率及F1.值等指标进行标合评价。5.2 12样态图像分类评测预训练模型是否具有理解图片的谙义内容,并输出其对应的类别文本标签的能力.包含但不限于:a)评估模型识别图片中个体种类的能力:b)评估模型理解图片整体语义内容的能力.评测方法:按照被测指标描述构建包含一个或多个前态图像分类能力的强试数据集,测试数据集中应包含不少于400条测试数据单个能力项不少于200条测试数据),使用可编程测试工具和测试统计工具将祗试数据集输入到被测系统并获取焰行结果.可参考附录A.1.1对结果的准确率进行计算.5.3 13
21、样态图像分割评冽预训练模型是否具H精确划分图片中各个对象及其边界的能力,从而对图像中的不同区域进行分类和标记。包含但不限于:a)对望边界识别:评估模型在准确识别和划分图像中垠个对象边界的能力:b)区域分类:评估模型对图像中不同区域按类别进行分类和标记的能力.评测方法:按照被测指标描述构建包含一个或多个图像分割能力的测试数据集,测试数据集中应包含不少于400条测试数据(成个能力项不少于200条测试数据),使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可多考附录A1.】对结果的分别梢度和边界精度进行计算,5. 2.14目标检测评测预训练模型是否具备识别并定位图片中多个物
22、体的能力,包含但不限于:a)物体识别:评估模型能否准确识别图片中的不同物体种类:b)物体定位;评估模型能否准确地在图片中定位物体的位置,包括物体的边界框;O多类别桧测:评估模型对图片中多种类别物体的检测能力:d)小物体桧测:特别评估模型在检测小尺寸物体上的性能.评测方法:按照被测指标描述构建包含个或多个目标检测能力的浏试数据集,海试数据集中应包含不少于800条例试数据(单个能力项不少于200条测试数据.测试数楙集应涌靛各种物体大小、形态和环境背景,使用可编程测试工具和测试统计工具符测试数据集输入到被测系统并获取运行结果,可参考附录A1.1对结果的准确性、召回率和F1.分数进行计算。5.215动
23、态图像分类评测仪训练模型是否具有理解视频内容并常出其对应类别文本标签的能力.包含但不限于:a)评估模型识别视频中的个体动作和活动种类的能力:b)评估模型理解视版整体谙义内容和情境的能力:C)评估模型对视叙中不问时间段事件的理解和分类能力.评测方法:按照玻测指标描述构建包含一个或多个动态图像分类能力的观试数据集,流试数据集中应包含不少于600条冽试数据(单个能力项不少于200条测试数据).使用可编程SI试工具和测试统计工具将试数据集输入到被测系统并获取运行结果,应聚集谷类视频数据.包括日常牛.活、体育活动、社交活动等不同类型的视频内容,确保全面评估模型的分类准确性和泛化能力.可参考附录A1.1.
24、对结果的准确率进行计算.5.2.16 行为识别评测按训练模型是否具有理解并识别视频或图像中人物的动作和行为的能力,包含但不限于:a)人物动作识别:评(模型识别人物在机频或图像中特定动作(如跳加、走路、打电话等)的能力:b)群体行为分析;评估模型理解并识别视频中多人交互行为(如会议讨论、休闩比寝等)的能力:c)异常行为检冽:能够识别视频或图像巾的异常或不寻常行为(如林倒、突然奔1.等),对于安全监控系统尤为重要.评测方法:按照被指标描述构建包含一个或多个行为识别能力的iM试数据集,强试数抠集中应包含不少于600条观试数据(单个能力项不少于200条测试数据),使用可编程测试工具和洲试统计工具将测试
25、数据集轮入到被测系统并获取运行结果.可参考附录1.1.对结果的准确率进行计簿.此外,对于异常行为检测,评刑还应包括模型的响应时间和错误报警率的测试,5.2.17 声纹识别评测预训练模型是否具有识别并验证个体荔子声吾特征的身份的能力。包含但不限-Ha)说话者5证:评估模型能够根据输入的声音样本确认说话者身份的能力:b)说话者识别:评估模型能够从多个说话者中识别并区分特定说话者的声音的能力。评测方法:按照被测指标描述构建包含一个或多个声纹识别能力的浏试数据集.测试数据集中应包含不少于400条试数据(取个能力项不少于2QQ条测试数据),使用可编程海试工具和涎试统计工具将测试数据集输入到被测系统并获取
26、运行结果,可参考附录A.I.I对结果的准确率、召回率和H得分进行计算。5.2.18 音频问答评测预训练模型是否具有从音频中提取信息并回答与之机关的问跑的能力.包含但不限于:a)语音理解;能盛从人类语音中理解问题的具体内容;b)语音转文本:招问答中的谙音转化为文本以使进一步处理:C)问题响应:根据语音输入的问题提供准礴的答案或相关信息:d)上下文跟踪:在一系列语音问答中保持问应和答案的上下文关联,评测方法;按照被测指标描述构建包含个或多个音频问答能力的测试数据集,测试数据集中应包含不少于800条测试数据(单个能力项不少干200条测试数据3测试数据集的在盅各种语音环境和口音.使用可编程测试工具和测
27、试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A1.1对结果的准确率及响应时间进行it算,5.2.19环境音分类评测假训统模型是否具备理解和分类环境中不同声籽源的能力,以输出相应的类别文本标签.包含但不眼于:a)城市环境音识别:评估模型识别和分类城市环境中的特定声音.如交通唤声、人群即天、警报声等的能力:b)自然环境讦识别:评估模型对自然环境中声音的分类能力,如鸟呜、水流声、风声等:C)家庭环境看识别:评估模型对家庭环境中常见声音的分类能力,如电器声、门铃声、宠物声音等.评涮方法:按照被测指标描述构建包含一个或多个环境音分类能力的消试数据集,SI试数据集中应包含不少F600条测
28、试数据(单个使力项不少于200条测试数据,使刖可编程测试工具和观忒统计工具符测试数掂集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算.5.220图文检索评测预训饬;模型是否具有根据给定的国片/文本检索到与之及匹配的文本/图片构成配对的能力,包含但不限干:a)文搜图:能第根据输入的文本交询检索相关的图像;b)图搜文;能修,血检索与图像相关联的文字描述,评测方法:按照被测指标描述构建包含一个或多个图文检索能力的测试数据集.测试数据集中应包含不少于400条测试数据取个能力项不少于2Q。条测试数据),使用可编程测试工具和涮试统计工具将测试数据集输入到技测系统并获取运行结果.可
29、参考附录A.1.1对第果的准确率进行计算.5.2.21图片问答评测预训练模型是否具有基于给定图片提供详细答案的能力,包含但不限于:a)物体识别与解郭:能够识别图片中的物体并对其特性或功能进行解择:b)场景理解:能够理解图片展示的场景.并回答与场景相关的问即:c)情掇分析:能够从图片中的人物表情或场景氛围判断情迷状态:(!)图文关联:能州对图片中的文本信息与觇党内容之间的关系进行解译和分析;e)动作解择:能够识别图片中的动作,并解择这些动作的可能含义或目的.评测方法:按照被测指标描述杓建包含一个或多个图片问答能力的测试数据集,测试数据集中应包含不少干100O第测试数据(整个旎力项不少于200条测
30、试数据),使用可编程测试工具和测试统计工具将测试数据蛆输入到被测系统并获取运行结果,可参考附录A.1J对结果的准确率进行计兑。5.222视觉空间关系评测预训练模型是否具有基于图片内杵正确判断文本中所描述的对弦间位置关系的能力.评测万法:按照被测指林描述杓建包含一个或多个视党空间关系能力的部试数据集,测试数据集中应包含不少于200条测试数据,使用可编程测试工具利利试统计工具招测试数据展输入到核测系统并换取运行需果,可参考附录A.1.1对结果的准确率进行计算,5. 2.23视觉语言推理评测预训练模型是否具有基于给定的一对图片和描述,划断描述与图像间的对应关系是否一致的能力.评测方法:按照被测指标描
31、述构包包含一个或多个视觉语言推理能力的测试数据集,测试数据集中附包含不少于200条测试数据,使用可编程测i工具和测试统计工具将测谎数据集给入到被冽系统并获取运行结果,可参考附录A1.1.对结果的准确率进行计算。6. 2.24视觉或含评测预训练模型是否具有推理判断给定图片和文本之间的关系的能力。评测方法:按照被测指标描述构建包含一个或多个视觉越含能力的测试数据集测试数据集中应包含不少F200条测试数据,使用可编程测试工具和测成统计工具将浏试数据蛆输入到被测系统并获取运行结果,可参考附录1.1对结果的准确率进行计算.7. 2.25视频检索评刈预训练模型是否具方根据给定的视施/文本t索到与之最匹配的
32、文本/则构成配对的能力,包括但不眼于以下能力:a)文本检索视频:能够根据输入的文本查询检索相关的视物:b)视领检索文本:能够查询检索与视频相关联的文字描述.评测方法:按照被测指标描述构建包含一个或多个捌势检索能力的测试数据集,满试数据集中应包含不少于400条测试数据(单个能力项不少干200条测试数据),使用可摭程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行站果,可参考附录A1.1对结果的准确率进行计算,8. 2.26视频问答评测预训练模型是否具有理解和分析视频内容,井基于视领内容回答相关问题的能力.包括他不限于:/1.Irf-VabCde情节理解:能轮分析视翔中的情节,识别为键那
33、件和角色行为,以回答与情节相关的何题;角色分析:能够根据视频中的人物表现和对话.解析角色性格、动机及其互动:情普分析:能够识别视翔中的情绪表达和氛,IH变化,回答有关视频情感层面的向超:事实检索:能脚从视频中检索具体的事实信息,如时间、地点、具体行为等,以回答事实性问题;抽效推理:能鲂从视频中提取信息并进行抽象思考,回答涉及推理和设辑的我杂问题,评测方法:按照被测指标描述构建包含一个或多个视频问答能力的测试数据集,测试数据集中应包含不少于K)OO条测试数据(单个能力项不少于200条测试数据,使用可编程测试工具和测试统计工具珞测试数据蛆输入到被测系统并获取运行结果,可参考附录AJj对结果的准确率
34、进行计算。9. 2.27图表推理评冽预训练模M是否具备理解和推理图爱信息(如图形、表格和图表注解)的能力,以准确地蟀择图表中的数据和趋势.并据此作出合理的推断.包括但不限于:a)数据理解;能弊准确解读图表中的数据点、数据分布、和趋势戊等,理解K所衣达的统计意义:b)格势预测:根据图表中的历史数据,预测未来的发展趋势或变化:C)相关性分析:能够分析图表中不同数据系列之间的相关性,如正相关、负相关或无明显相关性:,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算.5.229视频异常检测评测预训练模型是否具有理解并识别视频中异常行为
35、或事件的能力,包括但不限于:a)人员异常行为:评估模型时视频中人协的异常行为如打斗、奔跑等的识别能力;b)交通异常事件:评估模型对视嫉中交通工具的异常行驶行为(如违章行驶.事故发生等)的识别能力:c)环境异例状况:评估模型对视频中环境界常(如火灾、洪水等自然灾害的检测能力.评测方法:按照被测指标描述构建包含一个或多个视频异常桧测能力的测试数据集,测试数据集中应包含不少于600条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算,5.3生成能力评测指标5.3.1 概述预训练模型生成能力评测维度主要分为单模态生成能力和多模
36、态生成能力。单模态推度主要包括文本难度,多模态主要包括图文、图文音、文音3个二级维度.生成能力评测维度和指标说明见我2.表2生成能力评测维度和说明序号一级维度级维典型任务说明1.单模态文本摘要总结模型能好理解文本并根据给人内容生成相应摘要总结.2.机器翻译模皇能终理解文本指令,将文本从一种语有翻译成另一种语吉.3.文本改写模鞭将文本从一种表述方式改写成另一种表述方式。4.代码生成模型能修理解文本指令,生成符合其要求的编程代码。5.半结构化数据生成模型能膨理解文本指令,并根据输入指令生成sq1.、jsonXB1.等内容。6.多模态图文文本生成图片模型能膨理解文本指令,生成符合其要求的图片.7.图
37、片生成文本描述指模型能好对图片的内容进行概括总结生成合理的文本描述。8.文本生成视频模R能峥理解文本指令.生成符合其亶求的视频.9.视频生成文本描述模型能好对视频的内容进行概括总结,牛成合理的文本描述.10.图文书文本生成有声视频模型能型;理解文本指令,生成符合其要求的有声视猱。11.视频生成文本描述模星能终对有声视频的内容进行概括总结,生成合理的文本描述.12.文有语音合成模鞭可以根据指定文本生成时应的语音。13.语音识别模型能弊理解输入的语音,并将其转录为时应的文本。14.语音翻话模型能笏理解输入语音及其语言,并骼其翻译为指定语言所对应的语音。5.3.2摘要总结评测修训练模型的摘要和总结能
38、力.包括但不限于:a)摘要能力:评测模型能就从长文本中提取关键信息,生成的沽、准确的推爰,同时保留原文的JE要信息:b)总结能力:评测模里能够理解输入文本的主旨H1.意:困,以简练的语言表达出来,同时保例主要信息;c)段落关系理解:测试模型能鲂理解段落之间的逻辑关系,以及如何在整个文档中组织信息;0篇章理斛:测试模型能够理解整个文章或文档的结构和主旨,以及各部分之间的岷系,评测方法:按照被测指标描述构建包含一个城多个摘要总结能力的测试数擀篥,测试数据篥中网包含不少于800条测试数据.使用可编程测试J1.具和测试统计工具物测试数据垓输入到被冽系统并获取运行结果,可参考附录A.2时结果进行主观评测
39、,5. 3.3机器朗诺评测预训练模型招文本从一种谙吉物译成另一种语音的能力,包括但不限于:a)评测模型翻译准确的能力:b)评测模型对行业特定术语掌握程度。评测方法:按照被测指标描述构建包含一个或多个机器翻译能力的测试数据条,测试数据祟中应包含不少产100条测试数据,使用可编程测试工具和测试统计工具潞祗试数据比输入到被测系统并获取运行结果,可参考附录1.4对结果的B1.EJ指标进行计J5.34文本改写评测预训练模型将文本从一种表述方式改写成另一种衣述方式的能力,包括但不限于:a)评测模型对原文本内容理解能力:b)评测模型根据给定文本风格对文本改写的能力.评测方法:按照被测指标描述构建包含一个或多
40、个文本改写能力的测试数据集,测试数据集中应包含不少于400条测试数据,使用可端程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果.可参考附录A.2对结果进行主观评测.5.3.5 代码生成评测预训练模型根据给定目标生成可运行编程代码的能力,包括但不限广:a)编程谱言掌握能力:评测模型对C.Python,Java,JavaScript、go等不少于1种娟程谙吉的掌握能力:b)代码质盘:评测模型生成的代码是杏傕够正常运行.是否有语法搐误、是否符合编程规箍,运行复杂度和箱出结果准确率等”评测方法:按照或测指标描述杓建包含一个或多个代码生成能力的测试数据集,测试数据柒中应包含不少予100条
41、测试数据,使用可编程测试JC具和测试统计工具将测试数据蛆输入到被测系统并狭取运行结果,可参考附录R.2时结果进行主观评测,5.3.6 半结构化数据生成评测预训练模型根据输入指令生成sq1.、json、xm1.等内容的能力。包括但.不限-Ha)格式正确性:评测生成的半结构化数据是否有泄法错误、是否符合文件规范:b)内容质量:评测是否理解指令意图,生成符合要求的半结构化数据内容。评测方法:按照被测指标描述构建包含一个城多个半结构化数据生成能力的测试数据集,测试致楙集中应包含不少于400条测试数据,使用可桀程测试工具和测试统计工具将测试数据集输入到核测系统并获取运行结果,可参考附录2对结果进行主观评测.5.3.7 37文本生成图片描述评测徵训练模型根据输入的一句话或者一段文字,完成对文本的理解,根据理解的含义和文字的要求生成目标图片的能力,包括但不限于:a)图片质量:评测生成图片的清晰度、色彩、光纹、细节等视觉因索: