Technical Framework for Artificial Intelligence Life Cycle Management 리뷰

Regulatory Science

Author

Tea Tasting Lady

Published

2026-05-31

Technical Framework for Artificial Intelligence Life Cycle Management

인공지능 생애주기 관리를 위한 기술 프레임워크

발행 기관: IMDRF (International Medical Device Regulators Forum)
문서 번호: IMDRF/AIML WG/N93 DRAFT: 202X
작성 그룹: Artificial Intelligence/Machine Learning-enabled Working Group (AIML WG)
문서 상태: DRAFT (공개 의견 수렴용)
발행일: 2026년 4월 7일
URL: www.imdrf.org

1. 문서 배경 및 목적

1.1 배경

IMDRF는 의료기기에서 인공지능(AI) 기술의 역할이 확대됨에 따라, AI 활성화 의료기기(AI-enabled Medical Device)의 감독·평가·사용에 관한 국제적으로 조화된 접근법 수립을 지속적으로 추진하고 있다. 본 문서는 IMDRF/AIML WG/N88 FINAL:2025 Good Machine Learning Practice (GMLP) for Medical Device Development: Guiding Principles를 기반으로, AI 활성화 의료기기의 전체 제품 생애주기(Total Product Life Cycle)에 걸친 고려사항을 집중적으로 다룬다.

GMLP 원칙은 데이터 품질, 모델 투명성, 성능 평가, 다학제적 전문성의 역할 등 AI 활성화 의료기기 개발의 기초적 모범 사례를 기술하고 있으며, 본 문서는 각 생애주기 단계에서 관련 GMLP 참조를 제공한다.

1.2 목적

본 문서의 목적은 다음과 같다:

AI 활성화 의료기기 생애주기 관리에 관한 기초 정보 제공
모든 생애주기 단계에 적용되는 보편적 개념 강조
AI 활성화 의료기기 생애주기 각 단계의 개념과 고려사항 개요 제공
국제적으로 인정된 표준 및 자원에 대한 참조 제공

1.3 적용 범위

본 문서는 AI를 활용하여 의도된 목적을 달성하는 기계학습 활성화 의료기기(MLMD, Machine Learning-enabled Medical Device) 제조사를 대상으로 한다. 생성형 AI, 자율형 또는 적응형 모델을 포함하는 특정 MLMD 유형에 대해서도 일부 권고사항을 포함하나 포괄적이지는 않다.

중요 구분: “모델(model)”과 “AI 활성화 의료기기”는 상호 교환적으로 사용되지 않는다. 모델은 ML 훈련 알고리즘이 데이터로부터 학습하여 생성한 수학적 구조체이며, AI 활성화 의료기기는 해당 모델을 하나 이상 포함하여 의도된 의료 목적을 달성하는 기기를 의미한다.

2. AI 생애주기 전반에 적용되는 보편적 개념 (Section 4)

다음 네 가지 개념은 AI 활성화 의료기기 생애주기의 모든 단계에 적용된다.

2.1 품질경영시스템 (QMS, Quality Management System)

QMS는 의료기기 제조사가 기기 생애주기 전반에서 일관된 품질을 보장하기 위해 구현하는 정책·프로세스·절차의 포괄적 프레임워크다. AI 활성화 의료기기에 대해 특히 중요한 QMS 요소는 다음과 같다:

확장 가능한 생애주기 지원 프로세스: 안전 중심의 위험관리가 모든 단계에서 이루어지도록 지원
구성 관리 및 버전 제어: 훈련 데이터와 AI 모델 버전의 추적성(traceability) 유지
시판 후 모니터링 및 감시: 실세계 환경에서 AI 활성화 의료기기의 성능을 능동적으로 모니터링하고 안전 우려 또는 성능 저하에 신속 대응

관련 표준: ISO 13485:2016, IMDRF/SaMD WG/N23 FINAL:2015

2.2 위험 관리 (Risk Management)

AI 활성화 의료기기의 위험관리는 타 의료기기(SaMD 포함)와 동일한 기본 프레임워크를 따르되, AI 고유의 위험을 추가로 고려해야 한다.

AI 고유의 주요 위험 유형:

위험 범주	세부 위험 항목
정보 관련 위험	부정확하거나 오해를 유발하는 출력값; 오류 확률 설명 부재 등 불완전한 정보 제시
인간-AI 상호작용 위험	과도한 의존 또는 자동화 편향(automation bias); 과소 의존 또는 무시; 워크플로우 혼란; 검증 피로; 정보 과부하(알림 피로); 임상 지식의 탈학습
모델 훈련 및 데이터 품질 위험	훈련 데이터 편향; 데이터 드리프트(분포 변화); 불완전하거나 누락된 데이터; 레이블링·주석 오류; 분포 외(OOD) 입력; 지식 코퍼스 단편화 또는 불일치
배포 및 시판 후 모니터링 위험	통합·상호운용성·호환성 문제; 제3자 범용 모델 성능 저하; 소프트웨어 거버넌스 문제(버전 관리 부재); 인프라 부적절성; 검증과 다른 사용 맥락으로 인한 성능·교정 불일치

관련 표준: ANSI/AAMI/ISO 14971:2019, ISO/TR24971:2020, AAMI TIR 34971:2023

2.3 인간 감독 (Human Oversight)

임상의, 의료제공자, 환자, 일반 사용자의 인간 감독은 AI 활성화 의료기기 생애주기 전반에서 필수적이다.

주요 고려사항

설계 단계: 사용자 필요를 파악하여 AI 출력 해석, 자동화 권고 무시, 자동화 중단 능력이 설계에 반영되도록 함
임상 관여: 특성 선택, 모델의 임상적 관련성 검증, 데이터 레이블링·주석 작업 및 잠재적 편향 식별에서 임상 전문성 활용
시판 후 모니터링: 성능 저하 감지, 예상치 못한 실패 양상 식별, 실세계 유효성 평가에서의 인간 감독

관련 표준: ISO/IEC 62366-1:2015

2.4 사이버보안 (Cybersecurity)

AI 활성화 의료기기는 방대한 개발·검증용 데이터와 민감한 환자 데이터 처리로 인해 데이터 도용의 매력적인 표적이 될 수 있다. 악의적으로 오염된 데이터(maliciously poisoned data)는 기기 성능에 부정적 영향을 미칠 수 있다.

주요 사이버보안 고려사항:
- 데이터 익명화, 데이터 분리, 시스템 분리, 데이터 암호화, 접근 제어, 로깅, 감사, 모델 단순화, 이상 감지 기법, 정기 감사
- 위협 모델링(Threat Modeling), 사이버보안 위험 평가, 상호운용성 고려사항, 제3자 소프트웨어 구성요소 검토
- 적응형 모델의 경우: 데이터 오염 시도 또는 기타 파괴적 공격 식별을 위한 시판 후 검증 수행

관련 표준: IMDRF/CYBER WG/N60 FINAL:2020, IMDRF/CYBER WG/N70 FINAL:2023, IMDRF/CYBER WG/N73 FINAL:2023, ENISA (2021) Securing Machine Learning Algorithms, NIST AI 100-2 E2023

3. AI 활성화 의료기기 생애주기 단계 (Section 5)

본 문서는 8단계 생애주기를 제시한다. 이 생애주기는 ISO 13485:2016, IMDRF/SaMD WG/N23 FINAL:2015, IEC 62304 A1:152015를 기반으로 AI의 데이터 기반 특성과 인간-AI 상호작용의 복잡성을 추가로 반영한다.

[생애주기 도식]
계획 및 설계(1) → 데이터 수집 및 관리(2) → 모델 구축 및 튜닝(3) → 외부 모델 검증(4) → 검증 및 유효성 확인(임상 평가 포함)(4) → 배포(5) → 운영 및 모니터링(6) → 실세계 성능 평가(7) → 일몰(8)

보편 개념(QMS, 위험관리, 인간 감독, 사이버보안, 투명성 및 레이블링)은 전체 생애주기에 걸쳐 적용된다.

3.1 계획 및 설계 (Planning and Design)

계획 및 설계 단계의 목표는 제품 개발 생애주기를 안내할 로드맵을 제공하는 것이다(IMDRF/SaMD WG/N23 FINAL:2015). GMLP 지도 원칙 1은 의도된 용도/목적이 명확하게 이해되고 다학제 전문성이 전체 생애주기에서 활용될 것을 강조한다.

주요 고려사항:
- 모델 선택 및 위험 예측: AI 모델 도입이 특정 의료 용도의 임상적 이득보다 위험이 클 수 있음을 인식. 모델 선택(AI 모델 vs. 규칙 기반 접근법)을 초기에 결정하여 위험 제어 효율성 극대화. 설명가능성·해석가능성이 의도된 사용 환경에서 중요한 경우 단순한 모델 선택도 고려
- 데이터 가용성 및 적합성: 모델에 필요한 데이터의 수량, 품질, 분포를 사전에 파악. 훈련 데이터셋과 테스트 데이터셋의 독립성 확보 계획
- 모델·인프라·사용 요구사항: 해석가능성, 안정성, 성능 요구사항을 포함한 기술적 고려사항 전반 검토. 버전 제어, 리콜·이슈 발생 시 롤백 메커니즘을 포함하는 인프라 계획
- 검증 및 임상 평가 필요사항: 평가 지표, 수용 기준, 통계 분석 방법을 포함한 사전 검증 전략 수립
- 시판 후 모니터링 및 감시: 드리프트 등 AI 활성화 의료기기 고유의 도전에 대응하는 시판 후 모니터링 계획을 이 단계에서 시작

관련 표준: ISO/IEC 23053:2022

3.2 데이터 수집 및 관리 (Data Collection and Management)

Fit-for-purpose이면서 대표성이 있는 데이터는 AI 모델의 적절한 설계·개발을 위해 필수적이다.

주요 고려사항:

데이터 적합성 및 수집/생성:
- 모델의 입력값, 의도된 환자 집단, 질병 상태, 참조 표준에 부합하는 데이터 사용
- 포함·제외 기준의 사전 명확한 정의 (회고적 데이터 분석의 경우 분석 전)
- 복수 데이터 소스 결합 시 데이터 전처리 일관성 확보
데이터 증강 및 합성/시뮬레이션 데이터 사용:
- 데이터 증강 기법(회전, 밝기 조정, 기하학적 변환 등) 활용 가능하나, 합성·시뮬레이션 데이터가 실세계 데이터를 충분히 대표하는지 여부에 대한 불확실성 존재
- 데이터 증강 및 합성 데이터 사용 시 데이터 출처(provenance)와 변환 방법을 상세히 문서화하고 규제 당국에 제출하여 적합성 입증
데이터 대표성 및 편향 완화:
- 훈련·튜닝·검증 데이터가 임상 사용에서 마주칠 데이터의 전체 스펙트럼을 반영해야 함
- 특정 인구집단(소수 민족, 원주민, 농촌·원격지 커뮤니티 등)의 과소 대표 문제 투명하게 문서화
- 적절한 대표성 확보가 어려울 경우: 성능 한계 투명하게 공개, 로컬 검증 추가, 신중한 레이블링, 위험 비례적 브리징 근거 적용 고려
데이터 정리/품질 보증 (Data Cleaning/Quality Assurance):
- 전문가(도메인 전문가, 데이터 과학자)를 활용한 데이터 정리
- 데이터 정리 절차의 사전 문서화, 오류 수정 한계 설정, 다중 소스 집계 시 중복 방지
- 자동화된 데이터 추출·변환·로딩(ETL) 프로세스 구현으로 데이터 무결성 유지
데이터 계보 및 출처 문서화 (Data Lineage and Provenance Documentation):
- 데이터 계보(data lineage): 데이터 출처, 변환 과정, 시간에 따른 이동 기록 → 성능 이슈의 잠재적 근본 원인 추적 가능
- 데이터 출처(data provenance): 데이터 생성에 관여한 입력값, 개체, 시스템, 프로세스 문서화
데이터 보존, 폐기 및 생애주기 관리: 초기 수집부터 보관 저장, 최종 폐기까지 데이터 보존 기준·절차 수립

관련 표준: ISO/IEC 5259-4:2024, ISO/IEC 23053:2022

3.3 모델 구축 및 튜닝 (Model Building and Tuning)

이 단계에서 수집된 데이터를 활용하여 AI 모델이 개발·정제되며, 적절한 아키텍처 선택, 특성 공학, 성능 최적화가 이루어진다.

주요 고려사항:

모델 설계 및 아키텍처 선택:
- 과도하게 복잡한 모델(매개변수·레이어·특성 수 제한) 지양 → 적합성 향상 및 필요 데이터량 감소
- 모델 선택 결정의 근거와 의도된 용도와의 관련성을 문서화하여 규제 제출 지원 및 임상 워크플로우와의 정렬 유지
- 예시: 방사선 진단 AI의 경우, 이미지 인식 작업에서 우월한 성능을 보이는 CNN(합성곱 신경망)이 랜덤 포레스트 모델보다 선호될 수 있음
모델 설명가능성 및 해석가능성:
- 설명가능한 모델은 사용자가 기본 추론과 한계를 이해하도록 지원하고, 적절한 평가 계획 수립에 도움
- 설명가능성과 복잡성·성능 간의 상충관계(trade-off)를 임상 사용 맥락, 사용자 특성, 시스템 배포 환경을 고려하여 평가
- 설명 불가능한 모델은 실세계 채택을 위한 임상의 신뢰 획득에 더 높은 수준의 임상 평가가 요구될 수 있음
데이터 및 특성 전처리:
- 데이터 정리, 정규화, 변환을 통해 모델링에 적합한 일관적이고 신뢰할 수 있는 데이터 확보
- 특성 선택 시 원시 데이터의 생물학적·과학적 타당성과 증거 기반으로 선택 → 임상의와 환자가 이해할 수 있는 “유효한 임상적 연관성(valid clinical association)” 확보
- 특성 전처리 결정 프로세스의 투명성 및 정당성 문서화
평가 지표 선택 (Selection of Evaluation Metrics):
- 손실 함수(loss function)와 평가 지표를 의도된 용도와 대상 환자 집단에 부합하도록 선택
- 일반화 가능한 평가 지표 선택 (특히 생물학적·과학적 증거 기반의 특성 선택이 불가한 경우)
- 일반적인 평가 지표 예시 (Appendix B): Accuracy, Precision, Recall, F1 score, ROC-AUC, MSE; LLM 기반 모델에는 Perplexity, Coherence 등 추가 지표 적용 가능
배포 고려사항:
- 인프라 부적절성, 계산·확장성 제약 등의 위험을 모델 튜닝 단계에서 사전 검토
- 자원 제약 시 지식 전이(knowledge transfer)를 통한 압축/증류(compression/distillation) 방법 고려
범용 및 기성(off-the-shelf) 모델 활용:
- LLM, 파운데이션 모델 등 제3자 모델 통합 시: 공급자 신뢰성, 모델 출처(provenance), 수명, 생애주기 관리 프로세스(버전 이력, 업데이트 주기, 지원 약속) 평가
- 알려진 한계, 잠재적 편향, 불확실성을 평가·문서화
- 생성형 AI 모델의 경우: 출력 가변성, 환각(hallucination) 취약성, 입력 프롬프트/컨텍스트 의존성에 대한 추가 고려
- 대표성 격차 해소를 위해 전이 학습(transfer learning) 및 파인 튜닝(fine-tuning) 고려

관련 표준: ISO/IEC 23053:2022, ISO/IEC TS 25058:2024, ISO/IEC 25059:2023, IEEE 2941-2021

3.4 검증 및 유효성 확인(임상 평가 포함) (Verification and Validation, including Clinical Evaluation)

V&V(Verification and Validation)는 기기 성능에 대한 신뢰를 구축하고, 기기가 설계 요구사항을 충족하며 의도된 목적을 위해 안전하고 효과적으로 사용될 수 있음을 입증한다.

3.4.1 모델 관련 V&V 활동

외부 모델 검증 (External Validation of the Model):
- 훈련 환경을 넘어 모델 성능이 실세계 임상 적용에서도 일반화되는지 검증
- 훈련 데이터와 분리된 데이터셋에서 모델 성능, 정확도, 신뢰성 평가
- 소시오테크니컬 환경(사회기술적 환경) 및 기술·시스템 환경 이해 기반의 검증
모델 견고성 (Model Robustness):
- 이상적인 사용 조건 밖에서도 모델이 계속 성능을 발휘하는 능력 평가
- 스트레스 테스트, 민감도 분석을 통해 입력 데이터 변형, 노이즈, 이상값, 적대적 공격에 대한 모델 탄력성 평가
- 레드 팀(Red teaming): 취약점 탐색 및 구현된 위험 제어와 실패/오류 처리 메커니즘 검증을 위한 유용한 방법

3.4.2 AI 활성화 의료기기 관련 V&V 활동

임상 평가 연구 설계 (Clinical Evaluation Study Design):
- 임상 평가 활동은 모델 출력값의 특성과 모델이 의료기기의 1차 의도된 용도를 제공하는지 여부에 따라 달라짐
- 진단용 기기 (예: 방사선 CAD 소프트웨어): 양성 및 음성 퍼센트 일치도, 예측치 등의 지표로 모델 출력의 정확성과 임상적 유용성 평가에 집중
- 치료용 기기 (예: 자동 인슐린 전달 시스템): 전반적인 치료 효과성 평가에 더 광범위하게 집중
- 인구집단, 질병 특성, 의료 관행이 관할권 간 유사한 문서화된 특성을 가지는 경우, 임상 평가 정보를 다른 관할권의 의사 결정에 활용(외삽)하는 것이 적절할 수 있음
임상 평가 전략:
- 적합한 참조 표준을 갖춘 강건한 후향적 연구부터 의도된 사용 환경에서의 전향적 연구까지 다양한 전략 고려
- 임상 의사 결정을 지원하거나 영향을 미치도록 설계된 기기: 인간-AI 팀의 성능과 안전성을 명시적으로 평가하는 연구 설계 고려
유용성 및 인간 요소 (Usability and Human Factors):
- 기기 출력값을 올바르게 해석하고 사용할 수 있는지, 한계를 인식하고 의사 결정에 효과적으로 사용할 수 있는지 평가
- 사일런트 테스팅(silent testing): 기존 워크플로우에 기기를 통합하면서 임상의들에게 모델 출력을 블라인드 처리하여 실세계 워크플로우와의 통합 평가
- 레이블링 이해도 테스트 포함
성능 적절성 판단 기준:
- 대상 상태의 심각도 (경미한 것부터 치명적인 것까지의 범위)
- AI 활성화 의료기기가 의도된 임상 워크플로우 (사전 선별 또는 후속 확인 포함 여부)
- 임상 환경에서 AI 활성화 의료기기 출력값의 유용성, 중요성, 자율성 (특정 임상 조치·중재가 추가적인 임상 감독 없이 자동으로 시작될 수 있는지 여부 포함)

관련 표준: ISO/IEC 23053:2022, IMDRF/SaMD WG/N41 FINAL:2017

3.5 배포 (Deployment)

배포는 AI 활성화 의료기기를 의도된 사용 환경에 통합하는 과정으로, “기기의 배달, 설치, 설정 및 구성”을 포함하며 시판 후로의 전환점이다.

주요 고려사항:

계획 및 인프라:
- EHR 시스템과 통합하는 경우, 데이터 필드 레이블이 개발 중 예상과 다르게 레이블되어 있으면 시스템을 재구성하여 기기 요구사항에 맞게 입력값을 올바르게 매핑
- 인프라는 다양한 사이트에 걸친 입력값의 수량·품질 요구사항 충족 여부 확인, 데이터 드리프트 모니터링 능력 확보, 임상의의 임상 의사 결정 자율성 유지(AI 출력 무시 능력) 보장
배포 V&V: 배포 계획이 올바르게 실행되었는지, 배포 중 발생한 이상이 AI 활성화 의료기기의 광범위한 사용 전에 적절히 처리되었는지 확인
배포 접근 방식:
- 단계적 출시(phased release): 파일럿 출시 후 최종 출시, 또는 복수 사이트에 걸친 단계적 출시
- 단계적 출시는 잠재적 안전 문제, 성능 변동, 통합 도전을 전면 배포 전에 통제된 방식으로 파악하는 데 유리
사이트별 커스터마이제이션 및 로컬라이제이션:
- 커스터마이제이션: 특정 사이트에서 목표 성능 수준 달성을 위해 이전에 검증된 옵션 범위 내에서 매개변수 조정
- 로컬라이제이션: 사이트별 기준에 더 적절히 부합하도록 AI 모델 재훈련
- 사전 변경 제어 계획(PCCP, Predetermined Change Control Plan): 규제 당국이 특정 관할권 내에서 AI 활성화 의료기기의 특정 변경사항을 사전 검토·승인하는 방법으로 활용 가능
추적성 및 버전 관리:
- 장치 식별자(UDI): 소프트웨어/모델 버전 추적에 활용 (IMDRF/UDI WG/N48 FINAL:2019 권고)
- 재훈련, 이전 버전 롤백 등의 개입이 필요한 실패 이벤트 및 근본 원인 파악을 위한 추적성 메커니즘 구축

관련 표준: IMDRF/SaMD WG/N23 FINAL:2015, ISO/IEC 23053:2022

3.6 운영 및 모니터링 (Operations and Monitoring)

배포된 AI 활성화 의료기기의 성능 저하, 기술·보안·운영 문제를 감지·해결하기 위한 지속적인 모니터링이 핵심이다.

주요 고려사항:

인프라, 데이터 및 로깅:
- 모니터링 요구사항 충족을 위한 데이터 로깅 및 성능 추적 기능 구축
- AI 활성화 의료기기 고유의 로깅: 모델 예측값 및 설명가능성 요소(히트맵, 상위 예측 특성 등), 데이터 입력, 모델 출력, 타임스탬프·사용자 상호작용·모델 버전·환경 컨텍스트 등 메타데이터 캡처
성능 저하 및 드리프트 감지 (Performance Degradation and Drift Detection):
- 모델 성능은 시간이 지남에 따라 저하될 수 있음: 입력 데이터 특성 변화, 기본 인구 역학 변화, 임상 행동 또는 환자 관리 방식의 변화, 초기 훈련 시 명확하지 않았던 점진적 데이터 편향 축적 등
- 드리프트 감지 시: 회고적 분석 등 추가 조사 고려 (적절한 규제 승인 하에 재교정, 재훈련, 개입 전략 시행)
- 생성형 AI 모델의 경우: 원래 훈련 목표에서 급격하고 예측 불가능하게 벗어날 수 있어 드리프트 모니터링이 특히 중요
알림 및 보고 (Alerting and Reporting): 중요 성능 지표에 대한 임계값 설정, 자동 알림을 통한 지속적 모니터링 및 신속한 위험 대응
고급 AI 모델 모니터링:
- 커스터마이저블(customizable) AI: 사전 정의된 매개변수 범위 내에서 운영 → 기존 사양 내의 일관된 성능 유지 및 편차 감지에 집중
- 적응형(adaptable) AI: 알고리즘과 학습 프로세스 수정 가능 → 성능 지표뿐 아니라 기기 자체의 학습·변환 메커니즘을 추적하는 더 동적이고 정교한 모니터링 전략 필요
- 생성형 AI: 창발적 행동(emergent behaviour), 사용자 주도 가변성, 맥락 민감성 출력으로 인해 사용 목적 외 사용, 오용, 의도된 사용 범위 초과 사용 가능성을 모니터링하는 동적·사용 인식 접근법 필요

관련 표준: ISO/IEC 23053:2022

3.7 실세계 성능 평가 (Real-World Performance Evaluation)

AI 활성화 의료기기가 실세계에서 어떻게 성능을 발휘하는지 이해하는 것은 임상적 유용성 지원 및 이익-위험에 대한 더 나은 이해를 위해 유익하다.

주요 고려사항:

기기 성능 지표 정의:
- 기기/모델의 의도된 용도를 기반으로 정보성 있고 확장 가능한 기기 성능 지표 수립
- 전체 집계뿐 아니라 임상적으로 관련 있는 부분집단(인구통계, 질병 아형, 배포 사이트)에서도 성능 지표 정의 → 형평성에 영향을 미칠 수 있는 차등 성능 파악에 지원
- 조사·완화 또는 모델 업데이트를 촉발하는 위험 기반 임계값, 추세, 트리거 조건 사전 명시
데이터 수집: 5.5(배포) 및 5.6(운영 및 모니터링)에서 설명한 인프라를 통해 성능 지표 측정에 필요한 데이터 수집
성능 최적화 (Optimizing Performance):
- 시판 후 모니터링 또는 실세계 성능 평가 결과 기기 성능 지표가 지속적 감소 추세를 보이거나, 기기의 안전·효과성이 위협받거나, 상당한 기술적·방법론적 개선이 발생하거나, 사용자 피드백이 있을 경우 성능 최적화 검토
- 새로운 규제 승인 필요성 평가 포함

관련 표준: ISO/IEC 23053:2022

3.8 일몰 (Sunsetting)

일몰(서비스 종료/폐기)은 AI 활성화 의료기기의 유지보수, 지원, 배포의 종료를 “통제되고 관리된 방식”으로 처리하는 과정이다.

주요 고려사항:

내부 팀과 외부 사용자·사이트를 포함한 이해관계자에게 일몰 계획 소통: 타임라인, 결정 이유, 전환 지원 또는 대안 솔루션
규제·법적·비즈니스적 이유로 데이터 보존 필요성 확인 및 관할권별 데이터 보호 규정 준수
감사 목적 및 향후 법적·준법 문의 대응을 위한 일몰 과정 상세 문서화
시스템 구성요소의 점진적 규모 축소 및 최종 비활성화를 통한 통제된 종료로 데이터 손실·서비스 중단 방지

관련 표준: ISO/IEC 23053:2022

4. 투명성 및 레이블링 (Section 6)

투명성은 AI 활성화 의료기기 관련 명확하고 필수적인 정보를 관련 대상자에게 전달하는 것으로, 생애주기 전반의 핵심 원칙이다(GMLP 지도 원칙 9).

레이블링 정보 요소 (Appendix C):
- 의도된 용도 또는 목적 및 의도된 사용자
- 기기를 안전하고 효과적으로 사용하는 데 필요한 전문적 또는 기타 자격
- 입력값의 호환성 요구사항에 대한 명확한 정보 (해당 시)
- 기기 사용 방법 (전제 단계 또는 필요한 준비 사항 포함)
- 기기를 사용할 수 있는 대상 집단 및 조건 (알려진 한계 포함)
- 측정 성능 및 부분집단 성능
- 기기 사용 기간
- 시판 전 테스트 조건 및 데이터셋
- 기기 출력 해석 방법, 알려진 한계, 모델 설명 또는 특성

모델 유형별 투명성 접근:
- 업데이트 미계획 모델: 초기 기술적·성능 특성에 초점
- 개별 업데이트가 예정된 모델: 각 업데이트 시점에 맞춤형 투명성 정보 제공 (규제 승인 필요 여부 포함)
- 자율 적응형 모델: 업데이트 과정 및 업데이트를 안내하는 매개변수 또는 목표 세부사항 포함
- 범용·기성 모델 통합 시: 해당 모델과 한계에 대한 정보 제공

관련 참조: FDA Transparency for Machine Learning-Enabled Medical Devices: Guiding Principles (2024년 6월), IMDRF/GRRP WG/N52 FINAL:2024 (Edition 2)

5. 결론 (Section 7)

본 문서는 AI 활성화 의료기기의 도전과 기회를 다루는 조화된 프레임워크를 제공하며, 안전성·효과성·환자 중심 혁신을 보장한다.

보편 개념 (Section 4: QMS, 위험관리, 인간 감독, 사이버보안)은 책임감 있는 개발 및 사용에 필수적
생애주기 단계 (Section 5)는 AI 활성화 의료기기 및 그 모델이 GMLP, 환자 안전, 임상 효과성을 염두에 두고 설계·개발·배포되도록 지원
기존 IMDRF 발행물 및 규제 요건을 보완하며, 관할권이 지역 맥락에 적용 가능한 공통 언어와 원칙 제공
목표: AI 활성화 의료기기가 신뢰할 수 있고(trustworthy), 투명하며(transparent), 환자·의료제공자·규제기관의 필요에 부합하도록 하는 혁신을 촉진하면서 동시에 최고 수준의 안전성·효과성 표준 유지

6. 부록 요약

부록 A: GMLP와 생애주기 단계/문서 섹션 간 추적성

생애주기 단계	관련 GMLP 원칙
계획 및 설계	모든 원칙
데이터 수집 및 관리	원칙 3 (의도된 환자 집단 대표 데이터셋), 원칙 4 (훈련/테스트 데이터셋 독립성), 원칙 5 (적합 참조 표준)
모델 구축 및 튜닝	원칙 2 (우수 소프트웨어 엔지니어링, 의료기기 설계, 보안 관행), 원칙 6 (가용 데이터와 의도된 용도에 맞춘 모델 선택·설계)
검증 및 유효성 확인 (임상 평가 포함)	원칙 3, 4, 5, 원칙 7 (의도된 사용 환경에서 인간-AI 상호작용 평가), 원칙 8 (임상적으로 관련된 조건에서 성능 테스트 입증)
배포	원칙 10 (배포된 모델 성능 모니터링 및 재훈련 위험 관리)
운영 및 모니터링	원칙 10
실세계 성능 평가	원칙 10
일몰	원칙 9 (사용자에게 명확하고 필수적인 정보 제공)
투명성 및 레이블링	원칙 9

부록 B: 일반적인 평가 지표 예시

Accuracy (정확도): 예측의 전반적인 정확성 측정
Precision (정밀도): 전체 양성 예측 중 진양성 비율 측정
Recall (재현율): 실제 양성을 정확히 식별하는 능력 측정
F1 score: 정밀도와 재현율을 결합한 조화 평균
ROC-AUC: 다양한 분류 임계값에서 모델 성능 및 변별 능력 평가
MSE (평균 제곱 오차): 예측값과 실제값 간 차이 측정
LLM 기반 모델: Perplexity (언어 모델 불확실성 측정), Coherence (생성 텍스트의 맥락적 관련성 및 논리 구조 평가)

부록 C: 레이블링 요소

상세 내용은 Section 4 투명성 및 레이블링 참조. 추가 정보는 IMDRF/GRRP WG/N52 FINAL:2024 (Edition 2) Principles of Labeling for Medical Devices and IVD Medical Devices 참조.

7. 규제 시사점 (FDA/MFDS 관점)

7.1 FDA 관점

본 문서는 FDA의 기존 AI/ML 기반 SaMD 관련 가이던스(2021년 Action Plan, 2024년 PCCP Final Guidance, 2024년 Transparency Guiding Principles 등)와 높은 일관성을 보임
PCCP(Predetermined Change Control Plan) 개념이 배포 단계(Section 5.5)에서 명시적으로 언급되어 FDA의 적응형 AI 관련 규제 정책과 직접 연계됨
임상 평가 연구 설계에서 “인간-AI 팀”의 성능·안전성 평가 강조 → FDA 510(k)/De Novo/PMA 제출에서 임상 연구 설계의 근거로 활용 가능
규제 신뢰(Regulatory Reliance): 관할권 간 유사한 임상적 특성을 가진 경우 임상 평가 외삽 허용 가능성 → 글로벌 규제 조화 촉진

7.2 MFDS 관점

MFDS의 AI 의료기기 허가 심사에서 요구하는 생애주기 전반의 품질경영(QMS), 위험관리, 성능 평가 요구사항과 일치
데이터 대표성 및 편향 완화 섹션은 MFDS 심사 시 한국 환자 집단 데이터 대표성 요구사항과 직접 관련됨
사이트별 커스터마이제이션/로컬라이제이션 개념은 MFDS의 AI 의료기기 사후관리 요구사항과 연계 가능
시판 후 모니터링: MFDS의 AI 의료기기 시판 후 안전관리 계획 수립 시 본 문서의 5.6, 5.7 섹션 참조 가능

7.3 통계 방법론 규제 적합성 평가

평가 지표 선택(Appendix B)은 규제 제출용 임상 성능 연구의 1차/2차 평가변수 설정과 직접 연계
부분집단 분석(demographic, disease subtype, site)을 성능 지표 정의에 포함하도록 명시 → 규제 수용 가능한 형평성 분석 지원
본 문서는 연구 설계, 통계 방법론, 결측치 처리에 대한 구체적 요건을 명시하지 않으며 “원칙 기반(principle-based)” 접근을 취함 → 개별 관할권의 구체적 규제 요건(예: MFDS 가이드라인, FDA Guidance)과 함께 적용 필요

8. 주요 참조 문헌

문서	내용
IMDRF/AIML WG/N88 FINAL:2025	GMLP for Medical Device Development: Guiding Principles
IMDRF/AIMD WG/N67 (Edition 1):2022	Machine Learning-enabled Medical Devices: Key Terms and Definitions
NIST AI RMF 1.0 (2023)	Artificial Intelligence Risk Management Framework
ISO 13485:2016	Medical Devices — Quality Management Systems
IMDRF/SaMD WG/N23 FINAL:2015	SaMD: Application of Quality Management System
ANSI/AAMI/ISO 14971:2019	Medical devices — Application of risk management
AAMI TIR 34971:2023	Application of ISO 14971 to ML in AI — Guide
ISO/IEC 5259-4:2024	AI — Data quality for analytics and ML — Part 4
IMDRF/CYBER WG/N60 FINAL:2020	Principles and Practices for Medical Device Cybersecurity
IMDRF/SaMD WG/N41 FINAL:2017	SaMD: Clinical Evaluation
ISO/IEC 23053:2022	Framework for AI Systems Using ML
ISO/IEC TS 25058:2024	Guidance for quality evaluation of AI systems
IEC 62304:2006/A1:2016	Medical device software — Software life cycle processes
IMDRF/GRRP WG/N52 FINAL:2024	Principles of Labelling for Medical Devices and IVD
ISO 14155:2020	Clinical investigation of medical devices — GCP
ISO/IEC 62366-1:2015	Application of usability engineering to medical devices
FDA Transparency Guiding Principles (2024.06)	Transparency for ML-Enabled Medical Devices