AI聊一聊

【李友專專訪】從BTC會議看開放資料-台灣醫療資訊的大戰略

北醫醫科院李友專院長,接受AILI專訪,從BTC會議談起,延伸到台灣醫療產業目前的法規缺漏、業界現況,以及醫界秘辛。本文將會帶你看見台灣國民健康、醫療資訊產業與國際形象一箭三鵰的可能性。


AILI:日前健保署有新聞稿指出,透過大數據分析發現許多頭部電腦斷層檢查與疾病無關,此數據似乎要證明健保署對檢驗費用的核刪是有道理的。以您從醫學臨床專業的角度怎麼看這個說法?

李院長:這些分析或許有用到一點AI,但更多的是邏輯錯亂、反果為因,怎麼會是檢查完發現正常,就說檢查浮濫,這其實已是老生常談,所以其實跟AI與否沒有太大關係,只是因為AI能力強,所以這樣的效應被放大很多倍。例如核刪加護病房開的抗生素,因為後來發現病人沒有感染,但若不打抗生素,後面引發的敗血症誰要負責?所以怎麼會是白打?更貼切的例子,有人肚子餓吃了一顆饅頭不飽,又吃了一個白菜捲發現飽了,回頭來說,早知道吃白菜捲會飽就不吃饅頭了,這都是因果關係沒有搞清楚。不是說沒有浪費,但用目前的核刪法去找浪費是錯誤的。

目前台灣大量篩檢最多是,子(子宮頸癌)、口(口腔癌)、大(大腸癌)、乳(乳癌),乳房篩檢每年都要篩檢近百萬人,但這一百萬人中,95%都是陰性,剩下的5%中又有95%是假陽性。照核刪的邏輯,當初95萬陰性人口豈不是浪費時間去篩檢?更遑論假陽性的人,每年還得回診追蹤。如果一開始就知道誰是患者,當然就對患者進行治療就好,所以AI在健保當然是大有可為的,可以協助精確挑出高風險個人,並且排除假申報或錯誤申報,用AI細篩,再用人工複查,絕對比現在隨機抽選檢查,再放大懲罰來的好太多1。目前的機制就像是,因為找不到兩百個小偷處以有期徒刑,因此找一個小偷出來槍斃。

回到個人診療,AI更是可精確找到高風險族群,我們是全世界擁有最多個人健康資料的國家,以我去過這麼多國家,沒有一個國家的資料擁有我們這麼多病歷資料與變數。先不要說開不開放外部使用,我們國家自身其實都可以透過它提升國民健康、促進檢驗品質,但目前我們只是把資料放在那,沒有利用。


AILI:若不是健保資料庫,而是各大醫院自己管理的病歷資料,是否更具有AI開發上的價值?從技術與產業發展的角度,建議醫院應如何處理和外部廠商之資料提供合作模式?

李院長:這是全世界都有的問題,但台灣的特別之處是我們擁有健保的cohort(譯:世代追蹤研究),不管你到哪家診所健保通通知道。個別醫院因為現有雲端藥歷、病歷,因此可以約略知道病人動態,只會知道機構的級別。因此健保是非常強大的索引檔,醫院自己病例是否價值更高,要看題目,例如自費、美容,則醫院有更好、細緻的資料,但醫院不具備全貌,病人一走醫院也無法留存病人的紀錄,所以如果有研究需要用過往數據,就不適合用醫院自身。尤其都會區,民眾購物比較心態強烈,會在不同醫院間來去。像美國有綁定,生病要去特定診所,否則就自費,因此地理區較能確定。


AILI:若是現在新的資料,其實只要有書面同意的話都還好談,最大的問題是既存資料的授權囉?

李院長:過去的資料進行去識別化不成為個資後,可否在沒有病人同意下加值利用,這是重要的。理論上去識別化後就不是個資,就不應該受用個資法,且技術上只要去得夠乾淨,就無法回推識別的。有些人會擔心,那如果有天真的被回推了呢?那麼我們就事先再研擬如何處罰與賠償的規定啊!例如有次NIH(美國衛生研究院)電腦被竊個資外洩,NIH直接寄出400元美金給每個病患供以諮詢律師,後續如果有個資洩露損害,再做賠償。所以不應該是完全保證不會洩漏,因為技術上不存在這種保證,而是要加強機構對個資的控管使其盡可能不發生。一旦這樣的法規通過了,其實醫院分享的動機就會增強。

AILI:那麼如果存在醫院有合法授權管道,醫院如何與廠商達到價值分配的共識呢?

 

李院長:那就要看醫院對自身資料的價值認知了,如果覺得價值高,那就跟廠商去協議如何分配。因爲資料本身的價值會隨著時代改變,例如藥廠想要開發罕見疾病的藥物,自然就要找罕見疾病的資料,並且若有人搶先開發出來,那麼醫院的資料自然就不值一提了,所以價值是動態的。但我們能做的就是盡可能除去法規障礙,因為醫院是相對被動的組織,資料授權不是醫院強項,如果做本業就可以有高額收入,何必蹚資料授權的渾水還可能觸法。

AILI:BTC會議上,有官員對於現在醫療資料的串連利用認為在制度上有相當進展,例如各家生物資料庫已經可透過國家衛生研究院加以整合,並且將推動串連癌登檔、健保資料庫、死因檔等,並結合醫學影像資料及雲端藥歷等,以您之經驗了解,這個議題目前在國內推展情形如何?對於政府之推動方向有何建議?

 

李院長:影像是比較大的問題,因為有時影像內部會有可辨識的個資,因此開放影像申請是一種進步,但當然要有條款去規定取得的人必須要試圖刪除可識別部分,如果沒有做到一樣有罰則,這樣就沒有太大問題。目前的資料開放最大的問題是,都必須得到資料庫現場取用且有諸多限制,基本上不能攜帶任何東西,即便後來開放SAS(Statistical Analysis System, 統計分析系統)也是困難重重,更遑論有時候資料庫中心還客滿,連進用都沒辦法,而開放分中心一樣麻煩,不能取用本部的特定資料。因此歸根究底還是在於去識別化的個資如何解套、釐清,至於死因檔、健保資料庫等這樣的串檔,確實可能有技術上保護個資的困難,所以我的建議是,應該有條件的部分釋出去識別化的資料庫,至於標準在哪,大家再來討論。

AILI:不過目前人權團體除主張個資的去識別化外,還有主張資訊自主權,亦即僅管個資已經被去識別化,但因其源自個人,因此必須取得同意才能使用,如果個人有退出意願,就要允許退出。


李院長:Opt-out(選擇退出)可以啊,例如健保資料一年年釋出,2018年釋出那就2019年幾月前可以主張退出,也可以主張自此之後永遠退出,並且向病患解釋退出的權益變動,充分告知風險。畢竟總有人想要退出,民主國家自然要尊重人民權利,但也不能永遠懸而未決等待民眾同意或不同意。


AILI:目前英國與日本都有這樣Opt-out的機制,並且真的有來Opt-out的人大約就是1~2%左右。


李院長:是啊,所以這其實不是大問題,如果今天法規鬆綁,即便2%的人退出,學界還是可以取得大量的有用資料,何樂不為?健保老早就可以這樣做了,何況其實健保本身就有公益性,在國家出錢做健保,其實民眾就有一點道德義務要分享資料,不過如果民眾真的不要,那就要告知民眾,這樣的退出對於特定疾病,甚至是民眾自身這個族群的疾病研究發展會有延緩,如果民眾不在意,那民眾要退出就退出。


AILI:其實以英國為例就是如此,退出的2%族群,其實反而是患有罕見疾病,或少數民族或者中下階層,他們存在疑慮,但卻反而是系統最需要的數據。


李院長:所以說如果他們真的要退出,那也不能強留,就一定要告知他們可能付出相應的風險或代價。


AILI:所以現在Opt-out應該是人權團體與科技、醫療界最大的共識了。


李院長:但我聽說目前有人權團體是希望,政府手上是不能存有去識別化後資料與原始資料的對照表的,因此現在最好的方法應該還是,找到一個受信賴第三方,如中研院來保管,以免真的有需要的時候可以調用,但大部分的時候都是不可取用的。可以找到這樣的共識是很好的,像是剛剛也有提到其實opt-out目前是沒有什麼本質的損害的,少數族群或是罕見疾病族群則要多多宣傳。像是美國的Amish(艾米許)人2,他們就選擇不使用電器,那就會失去電器的方便性,不使用醫療技術,如果願意承擔,那麼也無可厚非。


AILI:沒錯,提到信賴第三方,其實是日本目前採取的做法,是醫院將可識別化資料授權給第三方,由第三方統整所有醫院資料後,再行去識別化以供給學術機構做研究。


李院長:其實以前台灣就有類似的研究,可以透過加密,發給每個醫院不同的鑰匙,最後串在一起,才會變成一樣的資料,在醫院端是不一樣的,因為要避免的問題是,如果釋出匿名資料,醫院可以用自己的資料去對比出病人的軌跡。


AILI:所以隨著科技發展,或許真的有可能某些資料可以被重新識別,因此在歐洲也有比較明確的立法,規定拿到資料的醫院是不可以試圖去回推的,即便技術可行,法律上也不允許。


李院長:以前台灣曾經有個老師,曾經拿國家衛生院的資料與醫院資料做比較,結果真的找出加密的方法,進而可以解密。健保局當時就說這樣的行為是不行的,連嘗試都不應該。不過他的目的是類似白帽駭客3,希望找出加密的漏洞進而防堵。所以可識別的資料跟不可識別的資料應該是要分開處理,積極同意是一部分,不可識別的就Opt-out,如果大家都OK,那就可以趕快推動,我們的科技法律太消極了,當然政府可能是被告怕了,所以推動意願就慢,畢竟有做事意願的人才會被告,久而久之政府自然就覺得不做事就不會被告了。


AILI:所以目前社會是否缺乏這樣的論述,去告訴大家醫療資料整合的好處,例如最近開放的細胞治療,或者原廠藥與學名藥的療效,其實這都需要醫療資訊才能實證,因此醫療資訊產業在台灣應該要被促進才對。


李院長:很多人都覺得藥廠是賺黑心錢,現在又近一步要人民的資料去賺錢,人民只有損失沒有利益等等,但其實好處就像上述,當然有些藥廠希望藉此取得行銷數據,像是哪家醫院用了多少抗生素,但其實這些資訊藥廠早就有了,從物流廠商就可以拿到,根本不需要健保資料庫。很多人都會覺得這些數據會變成行銷資料,一生產就會接到奶粉廣告等等,其實都不是從這邊來的,甚至奶粉廠商自己就派人在產房抄嬰兒資料。所以根本就不用談健保,物理上就可以外洩了。

所以還是會有一派論述說,只要機構留有資料的根,無論機率再低就有可能被竊取,但技術上就是沒辨法做到保證不可回推,因此方向還是要朝如果發生了怎麼處罰與賠償,即便技術做到極限,還是可以有其他竊取法,例如收買員工或直接到現場搬走資料。


AILI:所以增加民眾的資安意識與法律責任加重是比較可行的做法。


李院長:就像車子或飛機,如果要求到永遠不會車禍或墜落才允許上路,那就永遠沒有飛機或車子了。應該是要規範如果墜機或車禍,後續要怎麼處理才對。不過台灣的資安態度與技術確實還有努力空間,例如最近的勒索病毒。不過其實這些網路勒索背後都是很簡單的經濟道理,花多少時間、買多少資料、請多少駭客,最後預期得到多少回報,而台灣醫院規模較小,花在資安的比例也小,所以防護力度也小。

不過說到竊取資料,我卻有不同的想法,若我們能將資料在取得同意後免費授權到全世界,不僅不用偷,還可以對全世界產生貢獻,其實開源也是世界趨勢,像是醫學最常用的免費搜尋引擎PubMed,在20年前就要請400個人來讀資料。一旦開放,全世界都會知道台灣,這帶來的行銷效益比花錢都好、都高,所以即使部分也好,其實我們都可以把資料作為人類的公共財。全世界的研究者聽到台灣的健保資料庫,都羨慕的不得了,一定要近期內就做到,因為如果當第二名,價值就暴跌了。

因此資料的開放,不僅帶來民眾健康福祉的提升、國際的實質參與,更可以促進國外AI業者進駐台灣,更可以透過國際看到台灣衛生醫療環境的缺失。舉個例子,像是北醫舉辦的健康物聯網黑客松,所採用的資料庫MIMIC,就是取用哈佛附設的Beth Israel Deaconess Medical Center(貝斯以色列女執事醫療中心)20年的加護病房去識別化資料,這個資料庫只要幾封email就可以取用,連生理參數都有。飛利浦最近也發表所謂EICU的資料庫,蒐集他們在醫院裡面的產品所得到的數據。但健保資料庫,是從未有過的如此滴水不漏的資料庫,如果可以釋出,台灣在醫療領域地位的提昇、研究能量的成長,還有商機、形象的改變,像是投稿國際期刊或參與國際會議都是一飛沖天的。


AILI:所以目前如果法規沒有約束的話,技術上是可以做到資料庫開源的。


李院長:當然啊,我曾去過PubMed的機房,當時就可以看到全世界有多少人在使用,都是數以千萬計的。當時二三十年前就能做得到,現在當然可以。所以可以分階段釋出試試水溫,花政府預算約莫一千萬,就可以做到讓全世界用的很順暢,而且我們的資料很結構化,更好處理。

 

結論是如何讓政府正視到這是國家的大戰略,並且讓民眾也了解資料開放的好處。就像我們現在用Pubmed用的理所當然,但其實這樣的舉動會永遠被記錄在醫學史上。

 
註一:依據全民健康保險醫療費用申報與核付及醫療服務審查辦法第22條,健保核刪有放大回推機制,即醫療機構被核刪一筆後,主管機關認為其他品項也可能存在浮報,為減輕查核成本,即使缺乏證據,也可依比例倍數刪除健保給付額度。
註二:阿米許人,美國基督新教重洗派門諾會的信徒分支,因信仰而拒絕使用電力等現代技術。
註三:白帽駭客,不同於一般惡意駭客(又稱黑帽駭客),雖具有破壞或侵入電腦系統能力,該入侵行為卻是意欲提醒電腦服務提供者之缺失。