以下文章來源于:藥明康德
近年來,隨著生活水平的提高,人們對健康愈發(fā)重視,早期癌癥的篩查也在加速普及中。為了提高癌癥篩查的準確性和效率,人工智能(AI)在癌癥篩查領域已做出了不少嘗試,尤其是在乳腺癌篩查場景中的應用。目前,FDA已經批準了至少16款乳房X光篩查算法,用于癌癥檢測、癌癥風險預測和質控。但近期的一項薈萃分析顯示,AI似乎還沒能發(fā)揮出其在幫助癌癥篩查方面應有的潛力——在乳腺癌篩查方案中使用AI進行圖像分析,納入研究的36個AI系統(tǒng)中有34個(94%)的準確性都低于單位放射科醫(yī)生作出的判斷,而且所有36個AI系統(tǒng)的準確性都低于2位及2位以上的放射科醫(yī)生作出的共同判斷。
基于這項研究,學者們對目前輔助乳腺癌篩查的AI算法作出了如下總結:“近期的證據顯示,現有的AI系統(tǒng)在乳腺癌篩查中無論是從質量還是數量上來說,都遠未達到臨床應用的要求。”來自華盛頓大學醫(yī)學院的放射學助理教授Aaron Mintz教授指出,盡管可能的原因有很多,但其中最重要的還是由于用于訓練AI的數據集來源過于單一,缺乏不同種族、不同地域及不同社會經濟地位人群的多樣化的高質量數據。目前大多數大型AI培訓隊列的數據都來源于歐洲,這是因為歐洲有國家性的注冊和篩查計劃。而美國用于AI培訓的數據集往往是單中心的,在數量和多樣性上存在著嚴重的不足,這會導致?lián)擞柧毜腁I產生系統(tǒng)性的偏倚。2020年,一項調查了用于深度學習算法的美國隊列的地理分布研究顯示,納入的76項用于圖像診斷的深度學習算法研究(涉及放射學、眼科、皮膚病學、病理學、胃腸病學和心臟病學)中,有56項(76%)使用了至少1個地理上可識別的隊列來訓練算法。在這56項研究中,來自加利福尼亞州的隊列出現了22次(39%),來自馬薩諸塞州的隊列出現了15次(27%),來自紐約的隊列出現了14次(25%)。56項研究中共計有40項(71%)使用了來自這3個州中至少1個州的患者隊列。在其余47個州中,有34個州沒有貢獻任何患者隊列,其余的13個州分別貢獻了1至5個隊列。
▲用于訓練臨床機器學習算法的美國患者隊列表(按州統(tǒng)計)(圖片來源:參考資料[3])也就是說,來自加利福尼亞州,馬薩諸塞州和紐約州的隊列被不成比例地大量用于訓練臨床深度學習算法,而其余47個州的人群數據就像是“數據沙漠”地帶,基本上沒有被覆蓋到。隨著越來越多的乳腺癌篩查中開始應用這種基于多樣性不足的數據集訓練而成的AI算法,其在實際使用時的表現欠佳問題也逐漸被突顯。尤其是乳腺癌的發(fā)病率在不同人種間存在著很大的差異,若用于AI訓練的數據集缺乏對不同人群足夠的代表性,將會導致大量的漏診和誤診。構建大型、多樣化的數據集的主要障礙之一是各醫(yī)療保健組織內部的數據都是孤立的。出于信息安全的考慮,管理患者健康數據的機構或管理者不會將這些數據分享出去。然而,一種名為聯(lián)邦學習(federated learning)的新興AI訓練技術有望突破這個困境。聯(lián)邦學習不需要原始數據在各個組織間傳送就可以讓研究人員在本地實現信息共享。這是怎么做到的呢?原來,聯(lián)邦學習是讓算法本身在各個數據提供點進行“旅游”,AI在接觸到用于訓練的數據后會進行加權評分,將評分結果而不是原始數據本身發(fā)送給研究人員,從而既獲得了想要的數據結果,又保護了患者原始數據,這被認為是十分安全的。如果所有的機構都愿意敞開他們數據庫的大門,通過聯(lián)邦學習將建立起一個生物醫(yī)學數據合作研究的新世界——未來我們可以構建一個巨大的多站點聯(lián)合乳腺影像學數據網絡,除了標準的數字乳腺X線攝影和數字乳房斷層合成信息,同時還囊括了大量的必需參數例如年齡、種族、性別、社會經濟地位、地理位置、乳腺攝影設備、乳腺攝影發(fā)現、癌癥診斷和患者結局等等不同的信息。
圖片來源:123RF
通過來自這個多站點數據網絡的數據集,可以確保目前處于邊緣化的群體的數據也能被覆蓋到。這種方法將解決“數據沙漠”問題,確保開發(fā)出來的AI能夠適應多樣的患者數據。通過引入聯(lián)邦學習,AI開發(fā)人員可以在大型真實數據集上驗證他們的模型,來檢驗算法是否存在偏差或性能上的缺陷。一旦發(fā)現存在此類問題,研究人員可以通過深入訪問該模型應用性能較差的隊列對AI繼續(xù)進行調整,最終建立起能在不同患者特征下都表現良好的技術。目前,不少開源和商業(yè)數據平臺的用戶都參與搭建了這個多站點聯(lián)合網絡。當前的計劃是,在城市和鄉(xiāng)村代表性不足的社區(qū)站點進行推廣并招聘相關人員,然后對其進行入職培訓。希望在不久的將來,為AI研究人員提供數據的機構能夠把他們的數據摘要上傳到類似目錄的統(tǒng)一界面,研究人員可以通過瀏覽這種目錄來聯(lián)系想要的數據的持有者,最后通過聯(lián)邦學習獲取數據或是通過其他兼容的數據共享協(xié)議獲得數據使用許可。這種創(chuàng)新模式可以通過獲取更多樣的數據矯正AI對某一類人群的偏向性,加速AI適應真實世界的應用場景。在這種新形勢下,醫(yī)院必須認識到他們所擁有的多樣化數據是一座尚待開發(fā)的寶庫,并利用各種機會讓這些數據發(fā)揮出更大的價值。人們對AI幫助臨床醫(yī)生提高圖像診斷的工作效率和準確性寄予了厚望,盡管目前還有很長的路要走,但我們相信,只要找到了問題的原因所在,有了明確的改進方向,各類機構和研究人員將會不遺余力地去解決,使新的算法更完善。期待AI在醫(yī)療領域中的應用和發(fā)展越來越好!