ChatGPT能夠顛覆醫療AI嗎?

2023年以來,圍繞chatgpt的火熱探討重新燃起了市場對於醫療ai的興趣。

過去,醫療健康領域的人工智能模型大多只能處理單一模態的數據,解決相對狹窄的醫學問題,如識別胸部ct中的黑點,而chatgpt能夠接受多重數據類型的訓練,使之像一名醫生一樣提供完整的醫學建議。

然而,坊間對於chatgpt價值認可各不相同。一部分觀點相信大型語言模型(llm)能夠顛覆ai的推理邏輯,優化算法對於醫學影像、醫學文本的推理,另一部分觀點則認為這項技術已經出現多年,如今不過是老調重彈,量變有餘,質變不足。

為了明晰chatgpt能否重構全球醫療ai格局,探明行業的未來發展前景。動脈網與業內多位專家進行了對話,嘗試一一解答上述問題。

過得了審批,進不了臨床

ibm watson的退場曾對整個生命科學領域予以警示:在面對一種可能的新興技術時,我們不能單單藉助非醫療行業的“主觀印象”判斷該技術的顛覆性及可用性,還需考慮其應用於醫療領域後,如何切入的診療流程、如何面臨的審評審批、如何實現商業化等實際問題。

審評審批是決定ai能否存在於市場的重要環節,也是chatgpt切入臨床難以會迴避的核心關卡。我們不妨假設:如果基於chatgpt的ai要以醫療器械的方式實現輔助診斷,需要依賴怎樣的審批路徑?參照怎樣的醫療器械標準?

medtech dive曾對fda批准的ai產品進行了全面的統計。截至2022年10月5日,fda總計授權了521份ai/ml醫療器械申請,其中絕大部分走的510(k)這一路徑,小部分拿到pma授權,僅18款器械通過的是de novo審批程序。畢竟,510(k)簡化了醫療ai的審批流程,尤其是對於不少影像設備廠商,他們的ai應用可能只作用於某一特定模塊,只要開發人員能夠證明他們的設備與已經上市的設備“基本等效”,就不需要再重新進行臨床試驗。

nmpa對於ai/ml醫療器械的授權相對謹慎,沒有類似於510(k)這樣的快速通道可供使用。但隨着審批制度的不斷完善,大量第二類、第三類智能醫療器械在2018年後湧現,尤其是在科亞醫療“深脈分數”獲得三類證,將“深度學習”首次寫入註冊證基礎信息後,醫療人工智能產品的審批迎來爆髮式增長。

nmpa、fda歷年批准的人工智能醫療器械數量(nmpa僅統計第三類醫療器械)

因此,僅談論審批路徑,nmpa、fda均對有價值的ai技術張開懷抱。若有企業將基於chatgpt的ai植入自身的設備之中,並能其與已經上市的設備“基本等效”,那麼它很有可能藉助510(k)成功上市;2022年3月nmpa發布的《人工智能醫療器械註冊審查指導原則》擴展了人工智能核心算法審批的範圍,如果lls能夠證明它的價值,亦有可能藉助現有框架進入審批流程。

再談chatgpt可能的應用場景。nmpa與fda在審批項目組成上的組成大致相似,截至2022年10月5日,fda 授權的521份ai/ml醫療器械申請中,超過75%是輔助診斷產品,13%是輔助治療產品;nmpa授權的70份ai/ml醫療器械申請,超過71%是輔助診斷產品,24%是輔助治療產品。

輔助診斷產品與輔助治療類產品嚴格依賴於臨床證據,要求算法能夠復現給出的結果,並能給出相應的證據。反觀目前chatgpt模型的應用情況,它能夠根據關鍵詞輸入給出一個確定的輸出結果,但同一關鍵詞的多次輸入並不具備一致性。換句話說,當輸入信息過於複雜且追求精度時,chatgpt無法精準復現給出的答案,因而很難用於上述兩個領域。

新一代臨床輔助決策系統(cdss)是chatgpt最有可能顛覆的賽道之一。新一代cdss依賴於nlp的助力,只能處理文本信息。相較之下,支撐chatgpt的llm不僅包含了nlp,還包含眾多其他系統,使其具備整合電子病例,圖像,檢查數據、基因組,甚至微生物組序列信息的能力。

動脈網對2020-2022年期間fda批准的ai項目整理後發現,儘管輔助診斷與輔助治療類ai仍佔據着主流位置,但cdss類產品的過審數量較2020年前已顯著上升(國內cdss通常不需要經過nmpa審評審批,僅森億智能的vte風險評估軟件醫療器械獲得了第二類醫療器械認證)。

2020-2022年fda批准ai醫療器械(部分)

對於整個醫療體系而言,ai帶來的監督功能與對於基層醫療的賦能能夠有效提高疾病預防的效率,通過推動疾病早治療,從長期之中減少醫保賬戶支出,從這個角度而言,基於chatgpt的應用或許存在落地的潛力。

誰來為chatgpt的決策背書?

美國初創公司ansible health的研究人員發佈於《plos數字健康》雜誌的研究結果。chatgpt能夠在執照考試中取得"大約60%的通過門檻"。另一項研究利用45個病例對chatgpt診斷疾病的表現進行了評估,實驗結果發現,chatgpt能夠在39個病例中找出正確診斷(準確率87%),遠高於以前的癥狀檢測工具,也高於老版chatgpt的判別能力(82%),因此,在不少專家看來,cdss是chatgpt有效的落地路徑。

數據支持下,chatgpt顯然能夠充當一個有效的臨床輔助決策工具,但要真正落地於臨床,ai需要拿出手的不單單是一個比率。

“無論是百度還是谷歌,當你向它進行提問,它會給你大量網頁作為回答,讓你自己進行甄別過濾,但chatgpt不同,它像一個進化版的搜索引擎,會給你一個唯一的答案。”惠每科技cto王實告訴動脈網。“這是它的優點,也是它落地的隱患。”

醫院目前使用的cdss主要由人機交互、推理機、知識庫三個核心部門組成。機器藉助nlp去理解醫生的輸入,過程中處理的是交互問題,沒有涉及真正意義上的以ai替代醫生的決策,這並非在某些特定場景ai 無法超越醫生,而是ai無法對任何可能的錯誤負責。

王實表示:“我們正在經歷智慧型醫療的發展,尤其在2018年-2020年間,國家衛健委陸續出台了電子病歷評級、互聯互通評級、智慧醫院評級等政策,以評促建來推動醫療機構全面向數字化轉型升級,在這個過程中也運用到了很多新興技術,其中,cdss作為高級別評審的核心項目之一,也對cdss的建設機製作出了嚴苛的規定,那就是必須是基於循證醫學證據的。

因此,cdss的提示與建議是在符合診療規範的前提下,綜合指南參考,輔助醫生決策。相比之下,chatgtp在某些問題的回答上可能給出一個更好的答案,但它沒法對自己作出的回答援引資料進行背書,沒法對自己可能出現的錯誤負責,也沒有醫生願意為算法的錯誤買單。”

這對於chatgpt的技術落地而言是一個致命考驗。和當年的ibm watson相似,chatgdp的顛覆在於它能夠像醫生一樣作出決策,而醫生則希望ai做好份內的信息處理工作,自己握住決策權。

成本,制約chatgpt的關鍵所在

從cnn、nlp的發展路徑看,技術開發者總是能在應用之中對技術進行取捨,使最終的成品滿足市場的需求,若要全心圍繞llm技術開發醫療應用,取得成果也是必然。只是對於開發者們,不是哪一家初創企業都像open.ai一樣,能在模型的訓練上投入海量的金錢。

公開數據顯示,openai過去推出的llm模型gpt-3擁有1750億個參數,與之對應的訓練費用高達1200萬美元(單次成本約140萬美元),關於chatgpt的訓練費用說法不一,但大致可推測在200萬美元-1200萬美元這一區間之內。

對於需要建立類似模型的醫療等細分垂直賽道而言,先是必須擁有gpt級別的基礎模型。然後才是耗費大量時間、精力,以及資金對基礎模型進行長期且持續的計算和數據訓練,以創建新的模型。實現以上條件,國內只有bat級別的企業才有資本涉獵其中。

同時,高昂訓練費用下,即便是大企業也沒辦法對已經完成訓練的模型進行明確指向的調整,如果chatgpt這樣體量的模型在醫療領域的探索中誤入歧途,相關的研究者們想要繼續挖掘llm的潛力,可能只有等待下一個模型出現。

種種影響因素之下,chatgpt乃至其他llm在醫療臨床中的價值可能都會相當有限。僅討論當下,與搜索相關的科普、互聯網醫院都場景顯然更有潛力。脫離臨床,chatgpt的特立獨行或許能夠為上述場景打開新的增長空間。

總的來說,關於chatgpt應用於臨床的討論或許讓人有些失望。chatgpt並非完全為醫療而生,基於chatgpt的ai也難以像打磨多年的輔助診斷、輔助治療ai一樣深入臨床環節。

但從長遠來看,llm仍然具備顛覆現有ai的能力。如果它能跨越電子病例、影像、基因組等多模態醫學數據,構建綜合性的分析能力,它必定能夠打破當下ai面臨的局面,重新定義ai的價值。

*封面圖片來源:123rf

動脈網,未來醫療服務平台