北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx

上传人:李司机 文档编号:7065850 上传时间:2024-06-06 格式:DOCX 页数:17 大小:23.20KB
返回 下载 相关 举报
北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx_第1页
第1页 / 共17页
北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx_第2页
第2页 / 共17页
北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx_第3页
第3页 / 共17页
北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx_第4页
第4页 / 共17页
北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx》由会员分享,可在线阅读,更多相关《北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx(17页珍藏版)》请在三一办公上搜索。

1、附件1设计开发检查要点举例说明1 .算法策划算法开发策划阶段,应对算法需求、数据收集、算法设计、验证与确认、算法更新、风险管理、可追溯性分析等过程进行算法生命周期策划,输出算法开发计划书。2 .算法需求算法需求分析以用户需求与风险为导向,结合产品的预期用途、使用场景、核心功能,综合分析法律、法规、规章、标准、用户、产品、功能、性能、接口、用户界面、网络安全、警示提示等需求,重点考虑数据收集、算法性能、使用限制等要求。输出算法需求规范。3 .数据收集3. 1数据入选、排除标准在算法需求规范中明确算法数据入选、排除标准。3.2 数据来源及质控数据收集应确保数据来源的合规性,数据质控的充分性、有效性

2、、准确性。3.3 数据采集数据采集需考虑采集设备、采集过程、数据脱敏等质控要求,并建立数据采集操作规范。3.4 数据整理脱敏数据汇总形成原始数据库,不同模态的数据在原始数据库中需加以区分。数据整理基于原始数据库考虑数据清洗、数据预处理的质控要求。输出数据整理规范,同时数据整理规范中需明确样本类型、样本量、样品分布等信息,数据经整理后形成基础数据库。3.5 数据标注3.5.1数据标注前应建立数据标注操作规范,明确标注资源管理、标注过程质控、标注质量评估等要求。数据经标注后形成标注数据库。3.5.2数据标注可使用自动标注软件,但自动标注结果不得直接使用,应由标注人员审核后方可使用;同时,自动标注软

3、件亦需明确名称、型号规格、完整版本、制造商、运行环境等信息,并进行软件确认。3.6数据集构建3.6.1基于标注数据库构建训练集、调优集、测试集,明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例,输出数据集构建标准。3.6.2训练集应当保证样本分布具有均衡性,测试集、调优集应当保证样本分布符合临床实际情况,训练集、调优集、测试集的样本应当两两无交集并通过查重予以验证。3.6.3为解决样本分布不满足预期的问题,可对训练集、调优集小样本量数据进行扩增,原则上不得对测试集进行数据扩增,对抗测试除外。数据扩增需明确扩增的对象、方式(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、生

4、成对抗网络等)、倍数,扩增倍数过大应考虑数据偏倚的影响及风险。若采用生成对抗网络进行数据扩增,需明确算法基本信息以及算法选用依据。3.6.4数据经扩增后形成扩增数据库,需列表对比扩增数据库与标注数据库在样本量、样本分布(注明扩增倍数)等差异,以证实扩增数据库样本量的充分性以及样本分布的合理性。3.7数据库管理3 .7.1数据库管理应遵循真实性、完整性、可用性、合规性、可追溯性、临床代表性、时效性、安全性、准确性9大原则。4 .7.2应定期对逻辑数据库的数据以及文件数据进行备份,备份文件保存在不同机架的机器磁盘上以提高备份的安全性。5 .7.3在整个数据转移过程中,应当明确数据转移方法、数据防污

5、染措施以及数据销毁方式。6 .算法设计人工智能算法设计主要考虑算法选择、算法目标设定分析、算法训练、算法性能评估等要求,形成算法设计说明书。对于黑盒算法,算法设计应开展算法性能影响因素分析,同时与现有医学知识建立关联,以提升算法可解释性。7 .验证与确认算法训练过程中,需要明确算法训练环境,应当对算法进行性能评估,以确保选择的算法准确、有效。算法验证阶段,明确算法性能评估环境,应完成算法性能指标评估、压力测试、对抗测试,黑盒需要算法性能影响因素分析,输出算法性能评估报告。同时,开展算法性能比较分析,详述各类测试场景(含临床评价)算法性能变异度较大的原因,基于分析结果明确产品使用限制和必要警示提

6、示信息,输出算法性能比较分析报告。最后,结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。输出算法性能综合评价报告。8 .算法风险管理人工智能医疗器械的软件安全性级别可基于产品的预期用途、使用场景、核心功能进行综合判定,并开展风险管理活动,采取有效的风险控制措施将风险降至可接受水平,并贯穿于人工智能医疗器械全生命周期过程。人工智能医疗器械的主要风险从算法角度包括过拟合和欠拟合。从用途角度,辅助决策主要包括假阴性和假阳性,其中假阴性即漏诊,可能导

7、致后续诊疗活动延误,特别是要考虑快速进展疾病的诊疗活动延误风险,而假阳性即误诊,可能导致后续不必要的诊疗活动;非辅助决策从算法设计目标能否得以实现角度,亦可参考辅助决策分为假阴性和假阳性。应输出风险管理报告,明确过拟合与欠拟合、假阴性与假阳性、数据扩增与数据偏倚等风险的控制措施。9 .算法可追溯性分析医疗器械全生命周期管理中,应实现算法的可追溯性,并形成算法可追溯性分析报告等相关文件及记录,即追溯算法需求、算法设计、算法实现、算法验证与确认、风险管理、数据集的管理。在数据收集过程中,数据采集、数据整理、数据标注、数据集构建过程中形成数据脱敏交接记录数据清洗记录数据标注记录数据审核记录数据仲裁记

8、录数据集构建记录,以上记录均由操作人员签字确认。数据集管理过程中,每一例数据都可追溯到唯一识别号、脱敏人员、清洗人员、标注人员、审核人员、仲裁人员、入库人员,保证了数据收集各环节的数据和操作人员的可追溯。10 算法更新控制人工智能医疗器械若发生算法更新、软件更新,均应当按照质量管理体系的要求,开展与算法更新、软件更新的类型、内容和程度相适宜的验证与确认活动,将风险管理、可追溯分析贯穿于更新全程,形成记录以供体系核查。对于算法更新,无论算法驱动型更新还是数据驱动型更新,均应开展算法性能评估、临床评价等验证与确认活动,以保证算法更新的安全有效性。对于软件更新,具体要求详见医疗器械软件指导原则、医疗

9、器械独立软件生产质量现场检查指导原则。人工智能医疗器械所含的每个人工智能算法,均应独立开展需求分析、数据收集、算法设计、验证与确认、更新控制等活动,同时考虑人工智能算法组合的整体评价要求,以保证产品的安全有效性。附件2人工智能医疗器械常用术语人工智能artificialintelligence(AI):表现出与人类智能(如推理和学习)相关的各种功能的功能单元的能力。人工智能医疗器械artiflcialintelligencemedicaldevice(AIMD):采用Al技术实现其预期用途的医疗器械。注1:如采用机器学习、模式识别、规则推理等技术实现其医疗用途的独立软件。注2:如采用内嵌Al算

10、法、Al芯片实现其医疗用途的医疗器械。机器学习machinelearning:功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。注:也可称为自动学习。深度学习deeplearning:通过训练具有多个隐层的神经网络来获得输入输出间映射关系的机器学习方法。训练training:基于机器学习算法,利用训练数据,建立或改进机器学习模型参数的过程。监督学习supervisedlearning:一种学习策略,获得的知识的正确性通过来自外部知识源的反馈加以测试的学习策略。注:也可称为监督式学习。无监督学习unsupervisedlearning:一种学习策略,它在于观察并分析不同

11、的实体以及确定某些子集能分组到一定的类别里,而无需在获得的知识上通过来自外部知识源的反馈,以实现任何正确性测试。注1:一旦形成概念,就对它给出名称,该名称就可以用于其他概念的后续学习了;注2:也可称为无师(式)学习。强化学习reinforcementlearning:一种学习策略,它强调从环境状态到动作映射的过程,目标是使动作从环境中获得的累积奖赏值最大。集成学习ensemblelearning:通过结合多个学习器来解决问题的一种机器学习范式。注:其常见形式是利用一个基学习算法从训练集产生多个基学习器,然后通过投票等机制将基学习器进行结合。迁移学习transferlearning利用一个学习领

12、域A上有关学习问题T(八)的知识,改进学习领域B上相关学习问题T(B)的学习算法的性能。过拟合OVer行tting:学习器对训练样本过度学习,导致训练样本中不具有普遍性的模式被学习器当作一般规律,降低了泛化性能;典型表现是训练集上的性能越高,测试集上的性能越低。欠拟合underfitting:学习器对训练样本学习不充分,导致训练样本中包含的重要模式没有被学习器获取,降低了泛化性能;典型表现是训练集上的性能可以继续提高,测试集上的性能同时得以提高。人工智能医疗器械生存周期模型AIMDlifecyclemodel:人工智能医疗器械从起始到退役的整个演进过程的框架。注1:包括:需求分析,设计与开发,

13、验证与确认,部署,运维与监控,再评价直至停运。注2:在人工智能医疗器械生存周期中,某些活动可出现在不同的过程中,个别过程可重复出现。例如为了修复系统的隐错和更新系统,需要反复实施开发过程和部署过程。数据data:信息的可再解释的形式化表示,以适用于通信、解释或处理。注:可以通过人工或自动手段处理数据。个人敏感数据personalsensitivedata:一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。注:个人敏感信息包括身份证件号码、个人生物识别信息、银行账号、通信记录和内容、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交

14、易信息、14岁以下(含)儿童的个人信息等。健康数据healthdata:与身体或心理健康相关的个人敏感数据。注:由于目前全球规定了不同的隐私合规性法律和法规。例如,在欧洲,可能需要采取的要求和参考变更为“个人数据”和“敏感数据”,在美国,健康数据可能会变更为“受保护的健康信息(PHI)”,这需要不同国家或地区的制造商进一步考虑中国当地的法律或法规。数据集dataset:具有一定主题,可以标识并可以被计算机化处理的数据集合。训练集trainingset:用于训练人工智能算法的数据集,其外部知识源可用于算法参数的计算。调优集tuningset:用于优化人工智能算法的数据集,其外部知识源可用于算法超

15、参数的选择。注:为避免与医疗器械领域所用术语“确认”进行区分,这里不使用通用人工智能领域的validationset,二者含义一致。测试集testingset:用于测试人工智能算法性能的数据集,其外部知识源可用于对算法的评估。参考标准referencestandard:筛查、诊断和治疗过程或基于标注过程建立的基准。注:参考标准可包含疾病、生理状态或生理异常以及位置和程度等信息标签。金标准goldstandard:筛查、诊断和治疗可依据的最佳参考标准。数据清洗datacleaning:检测和修正数据集合中错误数据项的预处理过程。数据采集dataacquisition:数据由生成装置按照数据采集规

16、范生成,以数字化格式存储并传输到目标系统的过程。数据脱敏datamasking:通过去标识化或匿名化,实现对个人敏感信息的可靠保护。数据标注dataannotation:对数据进行分析,添加外部知识的过程。仲裁arbitration:多名标注人员对同一原始数据的标注结果不一致时用于决定最终结果的过程。软件质量softwarequality:在规定条件下使用时,软件产品满足明确或隐含要求的能力。软件质量保证softwarequalityassurance:a)为使某项目或产品遵循已建立的技术需求提供足够的置信度,而必须采取的有计划的和有系统的全部动作的模式。b)设计以估算产品开发或制造过程的一组

17、活动。可靠性reliability:在规定时间间隔内和规定条件下,系统或部件执行所要求功能的能力。完整性integrity:保护数据准确性和完备性的性质。一致性consistency:在数据集的各阶段、部分之间,一致、标准化、无矛盾的程度。重复性repeatability:由同一操作员按相同的方法、使用相同的测试或测量设施、在短时间间隔内对同一测试/测量对象进行测试/测量,所获得的独立测试/测量结果间的一致程度。再现性reproducibility:由不同的操作员按相同的方法,使用不同的测试或测量设施,对同一测试/测量对象进行观测以获得独立测试/测量结果,所获得的独立测试/测量结果间的一致程度

18、。可达性accessibility:组成软件的各部分便于选择使用或维护的程度。可得性availability:a)软件(系统或部件)在投入使用时可操作或可访问的程度或能实现其制定系统功能的概率;b)系统正常工作时间和总的运行时间之比;c)在运行时,某一配置项实现指定功能的能力。保密性confidentiality:数据对未授权的个人、实体或过程不可用或不泄露的特性。网络安全cybersecurity:通过采取必要措施,防范对数据、模型等攻击、侵入、干扰、破坏和非法使用以及意外事故,使设备处于稳定可靠运行的状态,以及保障数据、模型等的完整性、保密性、可得性的能力。安全性safety:免除于不可接

19、受的风险。鲁棒性/稳健性:在存在无效输入或急迫的环境条件下,系统或部件其功能正确的程度。泛化能力generalizability:机器学习算法对陌生样本的适应能力。可追溯性traceability:系统对其决策过程及输出进行记录的特性。公平性fairness:系统做出不涉及喜好和偏袒决策的性质。可解释性explainability:以人能理解的方式,对系统决策因素进行说明的能力。黑盒测试black-boxtesting:忽略系统或部件的内部机制只集中于响应所选择的输入和执行条件产生的输出的一种测试。白盒测试glass-boxtesting:侧重于系统或部件内部机制的测试。类型包括分支测试、路径

20、测试、语句测试等。对抗措施countermeasure:为减小脆弱性而采用的行动、装置、过程、技术或其他措施。对抗样本adversarialsample:基于原始数据上添加扰动达到混淆系统判别目的新样本。对抗测试adversarialtest:使用对抗性样本开展的测试,或采用不同目标样本分布的特选数据作为压力数据集进行的测试。阳性样本positivesample:由参考标准确定为带有某一种或几种特定特征的样本。阴性样本negativesample:除阳性样本以外的样本。真阳性truepositive(TP):被算法判为阳性的阳性样本。假阳性falsepositive(FP):被算法判为阳性的阴

21、性样本。真阴性truenegative(TN):被算法判为阴性的阴性样本。假阴性falsenegative(FN):被算法判为阴性的阳性样本。目标区域targetregion:在影像评价中,根据参考标准从原始数据中划分出的若干个包含特定类别目标的最小数据子集(子集元素为像素,体素等)。分割区域segmentationregion:在影像评价中,从原始数据中划分出的若干个包含特定类别目标的最小数据子集(子集元素为像素,体素等)。病变定位IeSiOnk)CaliZation:算法检出病变位置正确标识出参考标准确定的病变位置。非病变定位non-lesionlocalization:算法检出病变位置未

22、能正确标识出参考标准确定的病变所在位置。病变定位率lesionlocalizationrate:病变定位数量占由参考标准确定的全体病变数量的比例。非病变定位率non-lesionlocalizationrate:非病变定位数量占全体病例数量的比例,非病变定位率可以大于1。假阳性率falsepositiverate:假阳性病例数量(阴性病例中包含非病变定位)占全部阴性病例数量的比例。灵敏度sensitivity召回率(查全率)recall:真阳性样本占全体阳性样本的比例。特异度SPeC迨dty:真阴性样本占全体阴性样本的比例。漏检率missrate:1减去灵敏度。精确度(查准率)precisio

23、n阳性预测值positivepredictionvalue:真阳性样本占被算法判为阳性样本的比例。阴性预测值negativepredictionvalue:真阴性样本占被算法判为阴性样本的比例。准确率accuracy:算法判断正确的样本占全体样本的比例。Fl度量Fi-measure:召回率和精确度的调和平均数。约登指数Youdenindex:灵敏度与特异度之和减去Io受试者操作特征曲线receiveroperatingcharacteristicscurve(ROCcurve):以假阳性率为横坐标、真阳性率为纵坐标,根据算法在不同阈值设定下对于给定的测试集得到的一系列结果绘制的曲线。曲线下面积

24、areaUiIderCUrVe(AUC):曲线下与坐标轴围成的积分面积。自由响应受试者操作特征曲线freeresponsereceiveroperatingcharacteristicscurve(fROC):以非病变定位率为横坐标、病变定位率为纵坐标,根据算法在不同阈值设定下对于给定的测试集得到的一系列结果绘制的曲线。候选自由受试者操作特征曲线alternativefreereceiveroperatingcharacteristicscurve(AFROCcurve):以假阳性率为横坐标、病变定位率为纵坐标,根据算法在不同阈值设定下对于给定的测试集得到的一系列结果绘制的曲线。精确度召回率曲

25、线precision-recallCurve(P-R):以召回率为横坐标、精确度为纵坐标,根据算法在不同阈值设定下对于给定的测试集得到的一系列结果绘制的曲线。平均精确度averageprecision(AP):精确度-召回率曲线下与坐标轴围成的积分面积。平均精确度均值meanaverageprecision(MAP):在多目标检测问题上,算法对于各类目标的平均精确度的平均值。交并比intersectionoverUnion(IoU):分割区域与目标区域的交集占分割区域与目标区域并集的比例注:也可称为Jaccard系数。DiCe系数Dicecoefficient:分割区域与目标区域的交集占分割区

26、域与目标区域平均值的比例。中心点距离centraldistance:分割区域中心与目标区域中心的距离,该指标反映两个集合的接近程度。混淆矩阵confusionmatrix:一种矩阵,它按一组规则记录试探性实例的正确分类和不正确分类的个数。注1:通常矩阵的列代表人工智能的分类结果,而矩阵的行代表参考标准的分类结果;注2:也可称为含混矩阵。KaPPa系数Kappacoefcient:一种用于评价结果一致性的指标。信噪比signal-to-noiseratio(SNR):信号平均功率水平与噪声平均功率水平的比值。峰值信噪比PeakSigIIaItonoiseratio::信号最大可能功率与噪声平均功

27、率水平的比值。结构相似性structuralsimilarity:是一种衡量两幅图像相似度的指标。余弦相似度cosinesimilarity:通过测量两个向量的夹角的余弦值来度量它们之间的相似性。困惑度perplexity:度量概率分布或概率模型的预测结果与样本的契合程度,困惑度越低则契合越准确。字错率worderrorrate:将识别出来的字需要进行修改的字数与总字数的比值。交叉病cross-entropy:一种度量两个概率分布之间差异的指标。互信息mutualinformation:对两个随机变量间相互依赖性的量度。服务可用性serviceavailability:服务客户发起服务请求后,服务可访问的时间占总服务时间的比例。注:服务可用性的计算是在一系列预定义的时间段中,服务可用时间之和占预定义时间段之和的比例,可排除允许的服务不可用时间。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号