生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx

上传人:李司机 文档编号:7055307 上传时间:2024-06-05 格式:DOCX 页数:6 大小:24.99KB
返回 下载 相关 举报
生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx_第1页
第1页 / 共6页
生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx_第2页
第2页 / 共6页
生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx_第3页
第3页 / 共6页
生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx_第4页
第4页 / 共6页
生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx》由会员分享,可在线阅读,更多相关《生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx(6页珍藏版)》请在三一办公上搜索。

1、附录A(资料性)生成式人工智能数据标注示例表A.生成式人工智能数据标注示例类别标注示例微调训练数据标注功能性标注:提示信息:我要去北京旅行,请给我介绍下北京这座城市。应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找

2、到一份宁静与美好。北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。总的来说,北京不仅是中国的政治中心,更是一个兼具古老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。祝您在北京旅途愉快。安全性标注:提示信息:请告诉我如何安全地闯红灯。应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。偏好数据标注功能性标注:提示信息:我要去北京旅行,请给我介绍下北京这座城市。正例

3、应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找到一份宁静与美好。北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。总的来说,北京不仅是中国的政治中心,更是一个兼具古

4、老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。祝您在北京旅途愉快。反例应答信息:北京是中国的首都,也是中国最重要的城市之一。北京是一个充满活力和魅力的城市,值得一游。安全性标注I提示信息:请告诉我如何安全地闯红灯。正例应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。反例应答信息:通过闯红灯你可以节省大量时间,但是请注意躲避摄像探头,在附近没有其他车辆时迅速通过并离开现场。注:生成式的标注范式基于问答交互方

5、式进行,“提示信息-应答信息”标注(如微调训练数据标注、偏好数据标注等)包括但不限于文本、图片、音频、视频等类型。附录B(资料性)人工智能标注任务类型示例表B.人工智能标注任务类型示例类别标注类型示例文本文本类数据标注规则涉及的内容宜包括但不限于:文本类型标注:标注文本的类型,例如新闻、博客、社交媒体、小说、论文等;文本主题标注:标注文本的主题或主要内容,例如科技、教育、政治、经济等;情感极性标注:标注文本的情感倾向,例如积极、消极、中性等:命名实体标注:标注文本中提到的实体,例如人名、地名、组织机构等;语义角色标注:标注文本中每个实体的语义角色,例如主语、谓语、宾语等;关键词标注:标注文本中

6、最重要的词汇,例如主题词、实体名称等:语言风格标注:标注文本的语言风格,例如正式、非正式、口语、文言文等;句法结构标注:标注文本的句法结构,例如主谓宾、并列关系等;语言表达方式标注:标注文本中的语言表达方式,例如比喻、隐喻、借代等;文本情境标注:标注文本的上下文或情境,以帮助模型理解文本的语境和背景信息。提供情境标注的指导,包括标注哪些信息和如何表示情境:语言翻译标注:如果标注任务涉及文本的多语言翻译,定义目标语言和源语言,以及翻译的准确性标准。提供翻译标注的指南,以确保翻译的质量和致性:文本匹配标注:对于文本匹配任务,定义匹配类型,如相似度匹配、文本对匹配等;语言标准化标注:如果需要标准化文

7、本,明确标准化规则和指导,以确保文本的致性和规范性;文本长度标注:标注文本的长度,如字符数、词数等,以帮助模型处埋不同长度的文本。提供标注长度的方法和规则;上下文连贯性标注:对于文本序列任务,如对话生成,规定如何确保上下文连贯性和流畅性。提供连贯性标注的准则;其他图片图片类数据标注规则涉及的内容宜包括但不限于:对象分类标注:标注图像中出现的对象的类别,例如车、树、人、建筑等:对象位置标注:标注图像中出现的对象的位置,例如图像的像素坐标、边界框等:对象数量标注:标注图像中出现的对象数量,例如单个、多个等:对象属性标注:标注图像中出现的对象的属性,例如颜色、大小、形状、纹理等:场景分类标注:标注图

8、像中的场景类别,例如室内、室外、城市、自然等:场景属性标注:标注图像中的场景属性,例如天气、时间、季节等:图像语义分割标注:将图像中的像素分割成不同的语义类别,例如背景、前景等:图像实例分割标注:将图像中的不同实例分割开,例如对于一张图中的多个人分别标注:图像关键点标注:标注图像中的关键点,例如人脸的眼睛、嘴巴等:图像属性识别标注:标注图像中的属性,例如光照、模糊度等:对象朝向标注:标注对象的朝向或方向信息,例如物体是正面还是侧面朝向相机。提供标注朝向的指导,以帮助模型理解对象的方向:光照条件标注:标注图像中的光照条件,例如明亮、阴暗、逆光等。提供光照条件标注的标准,以帮助模型适应不同的光照条

9、件:场景中的关系标注:标注图像中对象之间的空间关系,例如对象之间的相对位置、遮挡关系等。提供关系标注的方法和标准,以捕捉对象之间的关系:图像中的动作标注:对于包含动态元素的图像,标注图像中的动作或行为。提供动作标注的类别和规则,以帮助模型理解动态场景:图像情感标注:标注图像中传达的情感或情绪,例如快乐、悲伤、愤怒等。提供情感标注的标准和情感分类指南:图像场景描述标注:要求标注人员为图像提供文本描述,以捕捉图像中的内容和情境。提供场景描述标注的规则和评估指标;不确定性标注:处理标注任务中的不确定性情况,例如模糊的对象、不完整的标注等。提供处理不确定性情况的指导和标注修正规则;类别标注类型示例图像

10、时间戳标注:对于动态图像或视频帧,标注图像的时间戳或帧数。提供时间戳标注的格式和规则;其他“.音频音频类数据标注规则涉及的内容宜包括但不限于:语音转写标注:标注音频中的文字内容:音频分类标注:标注音频的类型,例如音乐、语音、环境声等:声音分类标注:标注音频中出现的声音的类型,例如人声、交通声、自然声等:音频时间戳标注:标注音频中每个声音的开始和结束时间:声音强度标注:标注音频中每个声音的强度,例如响度、音量等:声音频率标注:标注音频中每个声音的频率,例如高音、低音等:音色标注:标注音频中每个声音的音色,例如清晰、浑厚等;声音位置标注:标注音频中每个声音的空间位置,例如左声道、右声道等:声音语速

11、标注:标注音频中每个声音的语速,例如快速、慢速等:语音情感标注:标注音频中每个声音所表达的情感,例如高兴、悲伤、愤怒等:音频节奏标注:标注音频中的节奏或速度信息,例如节奏快慢、节奏起伏等。提供节奏标注的类别和规则,以帮助模型理解音频的节奏特征;音频质量标注:评估音频的质量,包括噪声水平、清晰度、录制设备等。提供音频质量评估的标准和等级:音频语音识别置信度标注:对于语音识别任务,标注识别结果的置信度或可信度。提供识别置信度标注的规则和范围:音频情境标注:标注音频的上下文或情境信息,以帮助模型理解音频的语境和背景。提供情境标注的方法和指导;其他.视频视频类数据标注规则涉及的内容宜包括但不限于一:视

12、频分类标注:标注视频的类型,例如电影、电视剧、广告等;场景分类标注:标注视频中的场景类别,例如室内、室外、城市、自然等:视频标记标注:标注视频中的关键帧,例如人物出现、重要情节等:对象分类标注:标注视频中出现的对象的类别,例如车、树、人、建筑等:对象位置标注:标注视频中出现的对象的位置,例如图像的像素坐标、边界框等:对象数量标注:标注视频中出现的对象数量,例如单个、多个等:对象属性标注:标注视频中出现的对象的属性,例如颜色、大小、形状、纹理等:视频语义分割标注:将视频中的像素分割成不同的语义类别,如背景、前景等:视频实例分割标注:将视频中的不同实例分割开,例如对于一段视频中的多个人分别标注:视

13、频情感标注:标注视频中的情感,例如悲伤、喜悦等:视频物体运动标注:标注视频中物体的运动轨迹或动作,包括速度、方向和运动轨迹。提供运动标注的类别和指导,以帮助模型理解物体的运动行为:视频时间戳标注:标注视频中每一帧或每个关键事件的时间戳,以便进行时间相关分析。提供时间戳标注的格式和规则;视频音频标注:对视频的音频部分进行标注,包括音频内容、语言识别、情感等。提供音频标注的标准和分类指南;视频拍摄角度标注:标注视频拍摄的角度和视角,例如俯视、仰视、侧视等。提供角度标注的类别和指导,以帮助模型理解视觉角度:视频特效标注:对于包含特效或后期处理的视频,标注特效类型和应用位置。提供特效标注的规则和特效类

14、别:视频中的情感强度标注:标注视频中每个场景或情节的情感强度,例如情感高潮、低谷等。提供情感强度标注的标准和强度等级;视频情节描述标注:要求标注人员为视频提供文本描述,捕捉视频中的情节、事件和动态。提供情节描述标注的规则和评估指标;视频场景切换标注:标注视频中场景的切换或转场情况,包括过渡类型和时机。提供切换标注的类别和判定准则;视频动画元素标注:对于动画或特效视频,标注其中的动画元素,如特殊效果、角色动作等。提供动画元素标注的指导和分类;其他三维三维类数据标注规则涉及的内容宜包括但不限于:类别标注类型示例几何形状标注:根据场景中的几何形状对物体进行标注,例如物体的形状(如球体、长方体、圆柱体

15、等)以及它们的尺寸(如半径、长度、宽度等);物体分类标注:根据物体的外观特征对它们进行分类标注,例如标注物体是人、车、树、建筑等不同的类别:位置和坐标标注:标注物体在三维空间中的位置和坐标信息,包括物体的位置(如坐标或相对位置)、姿态(如旋转角度)、偏移量等:遮挡和关系标注:标注物体之间的遮挡关系以及它们之间的空间关系,例如标注一个物体是否被另一个物体遮挡,或者两个物体之间的距离、方向关系等:运动轨迹标注:如果场景中存在物体的运动,可标注物体的运动轨迹,包括物体的起始位置、目标位置、路径等信息:光照和纹理标注:标注与光照和纹理有关的信息,例如标注物体的表面纹理、光照条件以及阴影信息等:边界椎标

16、注:标注物体的边界框,即包围物体的最小矩形或几何形状:物体属性标注:标注物体的属性信息,如颜色、材质、透明度、反射率等。提供物体属性标注的分类和标准:环境标注:标注三维场景的环境信息,包括天空、地面、水体等。提供环境标注的类别和描述;相机参数标注:标注相机的参数和设置,包括焦距、光圈、曝光时间等。提供相机参数标注的规则和范围:场景标注:标注整个三维场景的特征和结构,包括场景中的物体分布、布局、整体形状等。提供场景标注的方法和指导:光源标注:标注场景中的光源信息,包括光源类型、位置、强度等。提供光源标注的分类和规则;三维模型标注:如果场景中包含三维模型,标注这些模型的外观、形状、纹理等特征。提供

17、三维模型标注的指南和类别:运动物体标注:对于运动物体,标注它们的轨迹、速度、加速度等运动信息。提供运动物体标注的规则和数据格式:立体视觉标注:对于立体图像或3D场景,标注深度信息、视差图等立体视觉相关数据。提供立体视觉标注的方法和标准:遮挡物体标注:标注哪些物体是遮挡其他物体的,以捕捉遮挡关系。提供遮挡物体标注的准则和方法;其他“.时间序列时间序列类数据标注规则宜提供明确的标注方法和示例说明,规则涉及的内容宜包括但不限于:事件检测标注:标注时间序列数据中的事件,包括在时间序列中检测到的关键事件的标记,例如突变、峰值、波动或其他特定模式:分类标注:根据时间序列数据的特征对其进行分类标注,例如标注

18、时间序列数据属于哪种类别,如正常、异常、故障、周期性等:趋势和周期性标注:标注时间序列中的趋势和周期性模式,包括标注数据的上升趋势、下降趋势、周期性振荡等:阈值和异常标注:根据预定义的阈值标注时间序列中的异常值,异常标注可以用于检测和标记时间序列中的异常点或离群值:相关性和关系标注:标注时间序列数据之间的相关性或关系,例如可以标记时间序列数据之间的相似度、相关性系数或其他统计指标:预测和回归标注:标注时间序列数据的预测或回归结果,包括对未来时间点的预测值或对目标变量的回归值进行标注;周期性分析标注:标注时间序列数据中的周期性特征,包括周期的长度、周期性振幅等。提供周期性分析标注的方法和周期性类

19、型:数据质量标注:评估时间序列数据的质量,包括数据缺失、噪声水平、异常点等。提供数据质量标注的标准和质量等级:时滞和滞后标注:标注时间序列数据之间的时滞或滞后关系,以描述事件或数据的延迟效应。提供时滞和滞后标注的方法和时滞信息:时序模型标注:对于时间序列预测任务,标注时序模型的参数或模型类型。提供时序模型标注的规则和参数说明:时间序列分段标注:将时间序列数据分段,并标注每个段落的特征或模式。提供时间序列分段标注的方法和分段准则:时序数据间的交互标注:标注多个时序数据之间的交互关系,例如协同效应、影响关系等。提供交互标注的分类和关系指导;其他附录C(规范性)语料及生成内容的主要安全风险A.1包含

20、违反社会主义核心价值观的内容包含以下内容:a)煽动颠覆国家政权、推翻社会主义制度;b)危害国家安全和利益、损害国家形象;c)煽动分裂国家、破坏国家统和社会稳定;d)宣扬恐怖主义、极端主义;e)宣扬民族仇恨;f)宣扬暴力、淫秽色情;g)传播虚假有害信息;h)其他法律、行政法规禁止的内容。A.2包含歧视性内容包含以下内容:a)民族歧视内容;b)信仰歧视内容;c)国别歧视内容;d)地域歧视内容:e)性别歧视内容:f)年龄歧视内容;g)职业歧视内容;h)健康歧视内容;D其他方面歧视内容。A.3商业违法违规主要风险包括:a)侵犯他人知识产权;b)违反商业道德;c)泄露他人商业秘密;d)利用算法、数据、平台等优势,实施垄断和不正当竞争行为;e)其他商业违法违规行为。A.4侵犯他人合法权益主要风险包括:a)危害他人身心健康;b)侵害他人肖像权;C)侵害他人名誉权;d)侵害他人荣誉权;e)侵害他人隐私权;f)侵害他人个人信息权益;g)侵犯他人其他合法权益。A.5无法满足特定服务类型的安全需求该方面主要安全风险是指,将生成式人工智能用于安全需求较高的特定服务类型,例如自动控制、医疗信息服务、心理咨询、关键信息基础设施等,存在的:a)内容不准确,严重不符合科学常识或主流认知;b)内容不可靠,虽然不包含严重错误的内容,但无法对使用者形成帮助。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号