报告查询·Report query
佰圣医学

药监局发布医疗AI产品审批要点 人工智能企业是否准备就绪?

您当前所在位置 网站首页 > 医学动态 > 药监局发布医疗AI产品审批要点…

服务热线

0431-80523622

药监局发布医疗AI产品审批要点 人工智能企业是否准备就绪?

作者:赵泓维

在药监局进行“人工智能类医疗器械注册申报公益培训”半年之后,关于审批要求相关的官方详细文件终于下达。半年前的会议上,药监局细致入微的分析了影响医疗人工智能器械审批的每一个过程,细化到对每个指标进行了详尽的讲解。这一次,药监局正式向AI企业发布了审批相关文件《深度学习辅助决策医疗器械软件审批要点》(以下简称《要点》),以文件的方式将审批相关的具体指标确立下来。

相比上一次会议,药监局没有把过多的笔墨放在流程介绍上,整个文件直击人工智能软件的数据质量控制、算法泛化能力、临床使用风险、临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响六大要点。

具体而言,《要点》由适用范围、审批关注要点、软件更新、相关技术考量、注册申报资料说明五个部分组成,每一部分均对其中涉及的指标进行了非常细致的介绍。

需要注意的是,该文件不仅包含了辅助诊断的考量,还明确了非辅助决策软件、传统人工智能软件的要求以及第三方数据库、移动与云计算等考量。

结合《要点》内容,动脉网采访了数位从事医疗人工智能的相关人士,尝试从政策之中挖掘2019年下半年“医疗+AI”的发展方向。

六大关键词点名AI产品原则

从审批的流程与关注点看,以基于风险的全生命周期管理为软件监管根本的直到原则早已确定,而为实施此选择所提及的适用范围、风险考量、需求分析、软件确认、临床实验等因素也已成定式,但其中的细节部分仍有所改良。

审评要点重点关注软件的数据质量控制、算法泛化能力、临床使用风险、临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响。

具体而言,动脉网从《要点》之中提取了6个关键词,这6个关键词明确了人工智能企业在审批中所需注意的关键。

1.适用范围

准则的适用范围包括两类软件。

1. 深度学习辅助决策医疗器械软件:即基于医疗器械数据(医疗器械所生成的医学图像、医学数据,以下统称数据),使用深度学习技术进行辅助决策的软件。

2. 使用深度学习技术进行前处理(如成像质量改善、成像速度提升、图像重建)、流程优化(如一键操作)、常规后处理(如图像分割、数据测量)等非辅助决策的软件可参考使用本审评要点。

需要注意的是,这里不再把深度学习软件化分为可分为AI独立软件(本身即为医疗器械的AI软件)与AI软件组件(医疗器械内含的AI软件),而是以是否“辅助决策”对产品进行了划分,强调了产品的“辅助”功能;同时,这也明确表示非辅助决策软件也将以类似手段进入审批流程。

2.审批重点

审批提出了软件的数据质量控制、算法泛化能力、临床使用风险,临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响六个方面。

而这六个方面正是人工智能企业所实际面临的问题,数据质量关系着算法的成熟度;泛化能力则是指人工智能产品在不同人群中的普适能力;临床试验更是制约现阶段AI产品发展的关键……每一个问题都卡住了一批AI企业。

那么,在要点中重申这些监管要点之后,药监局会提出相应的解决方案对人工智能企业进行辅助吗?一切仍有待时间给出答案?

3.数据收集与处理

在审批之中,数据收集应当考虑数据采集、数据预处理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法设计质量。

在实际审批之中,数据在审批过程中非常重要。据动脉网了解,多家人工智能企业在提交《创新医疗器械特别审批程序》时,被审批机构以“缺少训练集、调优集、测试集中主要数据来源机构”;“缺少主要采集数据的分布情况”;“缺少不同设备和来源机构的测试数据”;“缺少数据标注质量控制中人员资历、数量的要求”;“缺少基于一定样本量真实数据的用户测试”等理由驳回。

对于上述问题,《要点》中认为,采集设备质控应当明确采集设备的兼容性要求和采集要求。兼容性要求应当基于数据生成方式(直接生成、间接生成)提供采集设备兼容性列表或技术要求,明确采集设备的制造商、型号规格、性能指标等要求,若对采集设备无具体要求应当提供相应支持资料。

采集要求应当明确采集设备的采集方式(如常规成像、增强成像)、采集协议(如MRI成像序列)、采集参数(如CT加载电压、加载电流、加载时间、层厚)、采集精度(如分辨率、采样率)等要求。

若使用现有历史数据,应当明确采集设备要求、数据采集质量评估要求(如人员、方法、指标、通过准则)。同时,采集的数据应当进行数据脱敏以保护患者隐私。数据脱敏应当明确脱敏的类型(静态、动态)、规则、程度、方法。

数据预处理、数据标注、数据集构建三个方面文件亦给出了明确的要求,但要求相对简单,企业只需按照要求的模式执行即可,这里不作赘述。

4.算法设计

除了常规命名方面的要求外,《要点》提到了算法训练与网络安全防护问题。

其中,算法训练需要基于训练集、调优集进行训练和调优,应当明确评估指标、训练方法、训练目标、调优方法、训练数据量-评估指标曲线等要求。

评估指标建议根据临床需求进行选择,如敏感性、特异性等。训练方法包括但不限于留出法和交叉验证法。训练目标应当满足临床要求,提供ROC曲线等证据予以证实。调优方法应当明确算法优化策略和实现方法。训练数据量-评估指标曲线应当能够证实算法训练的充分性和有效性。

而在网络安全防护方面,应当结合软件的预期用途、使用场景和核心功能,基于保密性、完整性、可得性等网络安全特性,确定软件网络安全能力建设要求,以应对网络攻击和数据窃取等网络威胁。相关要求详见网络安全指导原则。

类软件常见网络威胁包括但不限于框架漏洞攻击、数据污染,其中框架漏洞攻击是指利用算法所用现成框架本身漏洞进行网络攻击,数据污染是指通过污染输入数据进行网络攻击。

5.以临床评价为主的软件确认方式

软件确认是本次《要点》中的重点,文件中明确表示,企业应根据软件指导原则要求,提交基于临床试验的临床评价资料,即提交申报产品的临床试验资料,或者与申报产品核心算法具有实质等同性的同品种产品或同类软件功能的临床试验资料。

而对于临床试验,《要点》建议优先选择同品种产品或临床参考标准(即临床金标准)进行非劣效对照设计,若无同品种产品且难以获取临床参考标准(如违背伦理学要求)可选择替代方法,如选择用户结合软件联合决策与用户单独决策进行优效对照设计。非劣效界值或优效界值的确定应当有充分的临床依据。此外考虑到用户的差异性,可选择多阅片者多病例(MRMC)试验设计。

《要点》建议企业应结合适用人群、病变等层面选择观察指标,原则上选择敏感性、特异性、ROC/AUC作为主要观察指标,亦可在此基础上根据软件特点选择敏感性/特异性衍生指标、ROC/AUC衍生指标、组内相关系数、Kappa系数、时间效率、数据有效使用率等指标作为观察指标。入排标准应当基于目标疾病流行病学特征,保证阳性样本和阴性样本选取的合理性和充分性。而在实际之中,大部分企业倾向于选择敏感性、特异性、ROC/AUC作为主要观察指标。

长春佰圣医学检验实验室有限公司 吉ICP备19003856号-2