將 AI 用于疾病診斷已經是一個老話題。
早在 2019 年 8 月,倫敦癌癥研究所就在NPJ Breast Cancer雜志上發(fā)表了一篇文章,稱他們將 AI 應用于分析乳腺癌的基因序列與分子數據,最終成功識別出 5 種新的乳腺癌亞型,還能辨識出哪些女性對乳腺癌有較好的免疫力。
鏈接:
這項研究吸引了越來越多科研者加入將 AI 用于輔助乳腺癌發(fā)現或治療的隊伍。
去年 1 月,谷歌的健康團隊又聯(lián)合 DeepMind 在 Nature 上發(fā)表了一項將 AI 用于檢測乳腺癌的研究成果。他們開發(fā)了一個針對乳腺癌的 AI 篩查系統(tǒng),可以對乳腺癌 X 射線造影數據進行大規(guī)模分析與處理,也引起了廣泛關注。
當時,這項研究的報道稱,通過與 6 位美國放射科醫(yī)生的篩查過程相比,他們所開發(fā)的 AI 系統(tǒng)表現優(yōu)于所有醫(yī)生,AI 系統(tǒng)的自動識別面積比一般放射科醫(yī)生要高出 11.5%。
蕓蕓大眾一看,立即拍腿贊嘆:AI 真了不起!AI 是不是很快就要超越、甚至取代放射科醫(yī)生?
冷靜、冷靜。
近日,《英國醫(yī)學雜志》(The BMJ)刊登了一篇來自英國華威大學醫(yī)療科學部門研究人員(以下簡稱“該團隊”)的研究工作。該團隊對近年 AI 技術用于乳腺癌篩查的工作進行了檢索,希望檢驗 AI 技術用于 X 光攝像識別的準確度。
該團隊得出的研究結論是:目前的研究證據還不足以判斷 AI 在乳腺癌篩查項目中的準確性,也尚不清楚 AI 在臨床醫(yī)學的哪個環(huán)節(jié)最有用。
但可以肯定的是,AI 系統(tǒng)目前尚無法取代超過兩位放射科醫(yī)生合作探討的結果。
研究背景
乳腺癌是奪走全球女性健康與生命的主要原因之一。2015 年,全球約有 240 萬女性被診斷出患有乳腺癌,523,000 名女性因此死亡。
乳腺癌在早期時發(fā)現會更容易治療,因此許多國家都推出了乳腺癌的篩查計劃。
乳腺癌篩查需要一名或兩名放射科醫(yī)生檢查 X 光照片,以尋找癥狀出現前的癌癥跡象,從而降低乳腺癌的發(fā)病率與死亡率。在篩查的過程中,乳腺癌的發(fā)現率為 0.6% 至 0.8%。值得注意的是,15% 至 35% 的乳腺癌會因為篩查誤差或不易見癥狀而沒有被發(fā)現。有些被漏診的癌癥,在癥狀上被稱為“間期癌”(interval cancer)。
2019 年,全球有 3.8% 研究 Scopus 數據庫的同行評審文章與 AI 相關。許多研究稱,在乳腺癌篩查的圖像識別上,AI 比經驗豐富的放射科醫(yī)生表現更優(yōu),并能彌補現有人類醫(yī)生篩查的缺陷。比如,AI 算法不會“疲勞”,也不會摻入主觀診斷,所以能幫助發(fā)現更多乳腺癌病例,減少放射科醫(yī)生的工作量,甚至完全取代放射科醫(yī)生。
但是,華威大學的研究指出,AI 也可能會加劇篩查的危害。比方說,如果 AI 在圖像篩查中檢測到更多微鈣化(由較低級別的原位導管癌引起),那么它可能會改變乳腺癌的疾病譜。在這種情況下,AI 可能會增加過度診斷與過度治療的概率。
尸檢研究表明,大約 4% 的女性是帶著乳腺癌死亡,但死因并不是乳腺癌,所以數據存儲了許多不重要的臨床疾病,包括可能被 AI 檢測到的偶發(fā)原位癌。疾病譜與 X 線圖像的特征有關(例如,原位導管癌通常與微鈣化有關)。因此,AI 系統(tǒng)基于訓練的案例,以及 AI 系統(tǒng)的結構,可能會對檢測到的疾病譜產生重大影響。
目前的許多人工智能系統(tǒng)是不可解釋的,是一個“黑匣子”,與人類決策者的思路可解釋形成鮮明對比。AI 算法無法理解圖像的上下文、收集模式與含義,可能產生“抄捷徑”的問題。此前,DeGrave 等人在“AI for radiographic COVID-19 detection selects shortcuts over signal”(2020 年)一文中便展示了一些深度學習系統(tǒng)如何通過混雜因子而不是病理來檢測新冠病毒,從而導致系統(tǒng)的泛化性極差。
這項工作對 2010 年 1 月 1 日至 2021 年 5 月 17 日期間 Medline、Embase、Web of Science 與 Cochrane Database of Systematic Reviews(CENTRAL) 等英文文獻數據庫進行了系統(tǒng)檢索。
檢索的主題包含 4 個:乳腺癌(breast cancer)、人工智能(artificial intelligence)、X 線照相術(mammography)和測試精度(test accuracy)或隨機對照試驗(randomised controlled trials)。
研究發(fā)現
回顧常規(guī)乳腺癌篩查中所用的 AI 圖像分析系統(tǒng),華威大學的研究團隊確定了 12 項評估商用或內部卷積神經網絡 AI 系統(tǒng)的研究,包含了對 131,822 名女性的篩查數據,是第一個對 AI 輔助乳腺癌發(fā)現的準確性進行檢測的研究工作。其中,9 項研究將 AI 系統(tǒng)與放射科醫(yī)生進行了對比。
三項回顧性研究將 AI 系統(tǒng)與原始放射科醫(yī)生的臨床決策作了比較,研究對象包含 79,910 名女性,其中 1878 名女性在篩查后的 12 個月內檢測到癌癥或間期癌。在研究所評估的 36 個 AI 系統(tǒng)中,有 34 個(94%)的準確率低于單一的放射科醫(yī)生;如果與兩位以上的放射科醫(yī)生討論對比,那么 36 個 AI 系統(tǒng)的檢測準確率都比不上人類醫(yī)生。
瑞典篩查計劃的 DREAM 挑戰(zhàn)覆蓋了 68,008 名女性,發(fā)現表現最佳的 AI 系統(tǒng)也比不上人類放射科醫(yī)生(88% vs. 96.7%);當 AI 的閾值分別設置為第一讀者敏感性與讀者敏感性的共識時,AI 的表現也與人類原創(chuàng)的共識決策相差甚遠(81% vs. 98.5%)。八個表現最佳的 AI 系統(tǒng)的集成方法特性也比不上第一的放射科醫(yī)生(92.5% vs. 96.7%)。
瑞典一個更廣泛的研究使用了三個商用 AI 系統(tǒng),設置的閾值與原創(chuàng)放射科醫(yī)生的特性相當。該研究發(fā)現,與第一的放射科醫(yī)生相比,一個商用 AI 系統(tǒng)的靈敏度更高(81.9% vs. 77.4%),其余兩個商用 AI 系統(tǒng)的靈敏度較差(67%,67.4%)。而與人類的創(chuàng)新共識決策相比(85%),三個商用 AI 系統(tǒng)的表現都更差。
而在五項范圍較小(1086 位女性、520 種癌癥)、風險較高且臨床需求較小的研究中,所評估的 5 個 AI 系統(tǒng)(獨立替代放射科醫(yī)生或閱讀輔助)在閱讀實驗室測試集時的準確率都高于單一的放射科醫(yī)生。在三項研究中,用于分類的 AI 技術可以分別篩選出 53%、45% 和 50% 處于低風險的女性,而放射科醫(yī)生僅能檢測到 10%、4% 和 0% 的癌癥。
六項范圍最小的研究(總共覆蓋了 4,183 名女性)發(fā)現,AI 比單一的放射科醫(yī)生更準確。在這六項研究中,有五項研究里,放射科醫(yī)生是在實驗室環(huán)境中檢查 932 名女性的 X 光圖像,這種方法不能推廣到臨床實踐中。
而美國的一項篩查研究則發(fā)現,AI 系統(tǒng)在靈敏性(56% v 48%)與獨特性(84% v 81%)方面的表現超過單一的放射科醫(yī)生。此外,兩項豐富的測試集多案例多閱讀器實驗室研究報告稱,AI 在實驗室環(huán)境的閱讀中要優(yōu)于單個放射科的平均表現。
在輔助閱讀上,有三項研究將 AI 作為閱讀輔助工具,發(fā)現放射科醫(yī)生在實驗室環(huán)境中閱讀豐富測試集的準確性無法泛化到臨床實踐上。三項研究均顯示,有 AI 技術輔助的放射科醫(yī)生在平均靈敏度上均高于獨立閱讀。
在豐富的測試集多讀者多案例實驗室研究中,一個獨立的內部 AI 模型(DeepHealth Inc.)能夠檢測到更多的浸潤性癌癥(多 12.7%)和更多的原位導管癌(多 16.3 %)。
寫在最后
研究團隊得出的結論是:目前的研究證據還不足以判斷 AI 在乳腺癌篩查項目中的準確性,也尚不清楚 AI 對臨床醫(yī)學的哪些方面最有用。但可以肯定的是,AI 系統(tǒng)目前尚無法取代兩位以上放射科醫(yī)生的合作探討。
大多數研究都集中在以圖像識別和解釋為核心的篩查過程中。最近發(fā)表的工作還研究了如何將人工智能和深度學習用于糖尿病視網膜病變篩查。除了傳統(tǒng)的篩查計劃,深度學習在醫(yī)學中的應用也越來越廣泛,并被考慮用于黑色素瘤、眼科疾病(年齡增長所引起的黃斑變性和青光眼)的診斷,以及對組織學、放射學和心電圖圖像的解釋。
該團隊認為,如果用 AI 協(xié)助放射科醫(yī)生重新設計乳腺癌篩查流程,而不是與放射科醫(yī)生競爭、取代放射科醫(yī)生,也許是一種更有潛力的研究方式。比如,我們可以用 AI 技術預先篩選簡單的常規(guī) X 光照片,以及對遺漏病例進行補充篩選。同樣地,在糖尿病眼部篩查中,越來越多的證據表明,AI 可以篩選出哪些是需要人類審核員查看的圖像,哪些是可以直接返回給女性的圖像
關鍵詞: AI 疾病診斷 英國 權威醫(yī)學期刊 醫(yī)療AI