國際政策趨勢

英國美國與加拿大的監管機關 共同發布10項機器學習醫材的指導原則

美國食品藥物管理局(FDA)、加拿大衛生部(Health Canada)與英國藥物及保健產品管理局(Medicines and Healthcare products Regulatory Agency, MHRA)共同發布了10項指導原則,為良好的機器學習規範(Good Machine Learning Practice, GMLP)發展提供參考。這些指導原則將促進安全有效及高品質的AI醫材之使用。
 

人工智慧和機器學習技術有可能透過在日常提供的醫療照護服務中,所產生的大量資料來獲得新的重要見解,以改變醫療照護系統。其使用軟體演算法從實際使用中來學習,且在某些情況下可能會運用這些資訊來改善產品功效。但是由於AI的複雜性以及開發的疊代(iterative)和資料驅動性質,也產生了其獨特的議題。
 

10項指導原則為良好的機器學習規範打下基礎,以解決這些產品獨特的性質所帶來的問題,且亦有助於在這快速變遷的領域中培養未來的發展性。
 

10項原則奠定了國際醫療器材法規論壇(International Medical Device Regulators Forum, IMDRF)、國際標準組織(international standards organizations)以及其他機構可以共同推動的目標。其包括研究、建立教育工具和資源、國際法規協和以及共識標準,這將有助於為監管政策和指南提供相關參考資訊。
 

監管機關預想該指導原則將被使用於:

  • 採納已在其他部門被證實過的規範
  • 對其他部門的規範進行調整,使其適用於醫療科技與照護部門
  • 為醫療科技與照護部門建立新的規範


隨著
AI醫材領域的發展,GMLP的最佳典範和共識標準也必須隨之發展起來。如果我們要授權利益關係者在相關領域推動負責任的創新,強化與國際公共衛生夥伴間的關係乃是關鍵,因此期望該合作計畫能為未來的國際參與提供相關的資訊。

 

指導原則

  1. 在整個產品生命週期中利用跨學科的專業知識(Multi-Disciplinary Expertise Is Leveraged Throughout the Total Product Life Cycle深入了解一個模型在臨床工作流程中的預期整合,以及預期利益和連帶的病患風險,可以幫助確保AI醫材的安全確效,並在醫材的生命週期內解決臨床需求。
 

  1. 實行良好的軟體工程和安全實務(Good Software Engineering and Security Practices Are Implemented):在執行模型設計時要注意「基本原則」,良好的軟體工程實作、資料品質保證、資料管裡以及健全的網路安全實作。這些實務包含有條理的風險管理和設計過程,以得知和溝通設計、執行及風險管理上的決策和原因,並確保資料的真實性和完整性。
 

  1. 臨床研究的受試者和資料集能代表預期的病患群體(Clinical Study Participants and Data Sets Are Representative of the Intended Patient Population):資料蒐集協議應該確保預期病患群體的相關特徵(如年齡、性別、種族等);評估輸入至臨床研究以及訓練和測試資料集中的資料,在相當規模的樣本中是否具有足夠的代表性,從而使結果能合理地類推到預期病患群體。這些對於管理偏見、提升在預期病患群體中的表現、評估可用性以及確認出模型表現不佳的情況來說是很重要的。
 

  1. 訓練資料集是獨立於測試資料集之外的(Training Data Sets Are Independent of Test Sets):選擇並維護訓練和測試資料集以確保其相互獨立,所有潛在的來源因素都應該被考量到並解決它,包括病患、資料蒐集、場域等,以確保資料集的獨立性。
 

  1. 參考資料集是現有的最佳方法(Selected Reference Datasets Are Based Upon Best Available Methods): 開發一個參考資料集(即參考標準)是公認的最佳方法,確保臨床表徵的蒐集,並了解參考資料的侷限性。如果在模型開發和測試中使用公認的參考資料集,可以提升和證明模型在預期病患群體中的穩健性和通則性。
 

  1. 模型的設計適合現有資料,並反映出醫材的預期用途(Model Design Is Tailored to the Available Data and Reflects the Intended Use of the Device):模型設計要適合現有資料,並積極減輕已知風險,如過度擬合(overfitting)、效能退化(performance degradation)及安全風險。與產品相關的臨床效益與風險將被充分理解,並用於在測試中推導出具有臨床意義的效能目標,且支援產品安全有效地達成其預期效用。考量的因素包含整體及局部效能的影響,以及器材的輸入、輸出資料、預期病患群體、臨床使用條件等的不確定性或變異性。
 

  1. 將重點放在「人類和AI」的團隊表現上(Focus Is Placed on the Performance of the Human-AI Team):在模型訓練有「human in the loop」(負責引導AI學習的人類)的情況下,人為因素的考量和人類對於模型輸出資料的判讀,都要以「人類和AI」的團隊表現為重點,而不是僅將重點關注於模型的表現上。
 

  1. 測試證明了醫材在臨床相關條件下的表現(Testing Demonstrates Device Performance During Clinically Relevant Conditions):制定和執行具有統計性的測試計畫,以產生獨立於訓練資料集之外的臨床相關醫材效能資訊。考量的因素包括預期病患群體、重要的子群體、臨床環境,以及使用AI的人員、評估輸出資料和潛在的混雜因素。
 

  1. 向使用者提供清楚的基本資訊(Users Are Provided Clear, Essential Information):使用者可以隨時獲得清楚的相關資訊,這些資訊適用於其預期受眾(如醫療照護服務提供者或是病患),其中包括產品的預期用途和適應症;模型在子群體中的表現;用於訓練和測試模型的資料特性;適當的輸入資料;已知的限制;使用者介面的解釋性,以及模型的臨床工作流程整合。使用者亦可得知器材透過真實世界的效能監控而進行的修正和更新、醫療決策的依據以及與開發商溝通解決產品問題的方法。
 

  1. 對於已使用的模型進行效能監控,並管理重新訓練的風險(Deployed Models Are Monitored for Performance and Re-training Risks Are Managed):所利用之模型可以在「真實世界」的使用中被監控,並將重點放在維持和改善安全及效能上。此外,當模型在使用後被定期或持續訓練時,需要有適當的控制措施來管理過度擬合、非預期偏差及模型退化(如資料集偏移)的風險,這可能會影響到模型的安全性和效能。

https://www.gov.uk/government/publications/good-machine-learning-practice-for-medical-device-development-guiding-principles/good-machine-learning-practice-for-medical-device-development-guiding-principles