新智元報(bào)道
(資料圖片僅供參考)
編輯:LRS
【新智元導(dǎo)讀】基于100萬(wàn)醫(yī)學(xué)數(shù)據(jù)、PaLM模型、ViT模型,谷歌全新模型Med-PaLM M成醫(yī)學(xué)界大模型新sota!
「看病難」在全世界范圍內(nèi)都是一個(gè)難題,想要成為一位優(yōu)秀的???、全科醫(yī)生不僅需要耗費(fèi)大量時(shí)間來(lái)進(jìn)行知識(shí)學(xué)習(xí),還需要經(jīng)歷足夠多的病例來(lái)獲取實(shí)操經(jīng)驗(yàn)。
如果醫(yī)學(xué)AI系統(tǒng)足夠強(qiáng)大,在常見(jiàn)病的處理上完全可以取代人類醫(yī)生,醫(yī)療服務(wù)緊缺現(xiàn)象也會(huì)得到極大緩解。
今年4月,美國(guó)哈佛大學(xué)、斯坦福大學(xué)、耶魯醫(yī)學(xué)院、加拿大多倫多大學(xué)等多所頂尖高校、醫(yī)療機(jī)構(gòu)的研究人員在Nature上聯(lián)合提出了一種 ,可以靈活地編碼、整合和大規(guī)模解釋醫(yī)學(xué)領(lǐng)域的多模態(tài)數(shù)據(jù),比如文本、成像、基因組學(xué)等,有可能顛覆現(xiàn)有的醫(yī)療服務(wù)形式。
最近,Google Research和Google DeepMind共同發(fā)布了一篇論文,對(duì)全科醫(yī)學(xué)人工智能概念進(jìn)行了實(shí)現(xiàn)、驗(yàn)證。
研究人員首先策劃了一個(gè)全新的多模態(tài)生物醫(yī)學(xué)基準(zhǔn)數(shù)據(jù)集MultiMedBench,包含100多萬(wàn)條樣本,涉及14個(gè)任務(wù),如醫(yī)療問(wèn)題回答、乳腺和皮膚科圖像解讀、放射學(xué)報(bào)告生成和總結(jié)以及基因組變異識(shí)別。
然后提出了一個(gè)新模型Med-PaLM Multimodal(Med-PaLM M),驗(yàn)證了通用生物醫(yī)學(xué)人工智能系統(tǒng)的可實(shí)現(xiàn)性。
Med-PaLM M 是一個(gè)大型多模態(tài)生成模型,僅用一組模型權(quán)重就可以靈活地編碼和解釋生物醫(yī)學(xué)數(shù)據(jù),包括臨床語(yǔ)言、成像和基因組學(xué)數(shù)據(jù)。
在所有MultiMedBench任務(wù)中,Med-PaLM M的性能都與最先進(jìn)的技術(shù)相差無(wú)幾,在部分任務(wù)上甚至還超越了專用的SOTA模型。
文中還報(bào)告了該模型在零樣本學(xué)習(xí)下可以泛化到新的醫(yī)學(xué)概念和任務(wù)、跨任務(wù)遷移學(xué)習(xí)以及涌現(xiàn)出的零樣本醫(yī)學(xué)推理能力。
文中還進(jìn)一步探究了Med-PaLM M的能力和局限性,研究人員對(duì)比了模型生成的及人類編寫的胸部X光報(bào)告進(jìn)行了放射科醫(yī)師評(píng)估,在246份病例中,臨床醫(yī)生認(rèn)為Med-PaLM M的報(bào)告在40.5%的樣本中比放射科醫(yī)生編寫的要更好,也表明Med-PaLM M具有潛在的臨床實(shí)用性。
MultiMedBench
為了訓(xùn)練和評(píng)估大模型在執(zhí)行各種臨床相關(guān)任務(wù)的能力,谷歌的研究人員收集了一個(gè)多任務(wù)、多模態(tài)的全科醫(yī)療基準(zhǔn)數(shù)據(jù)集MultiMedBench
該基準(zhǔn)由12個(gè)開(kāi)源數(shù)據(jù)集以及14個(gè)獨(dú)立任務(wù)組成,包含100多萬(wàn)條樣本,涵蓋了醫(yī)療問(wèn)答、放射學(xué)報(bào)告、病理學(xué)、皮膚病學(xué)、胸部X光、乳房X光和基因組學(xué)等多個(gè)領(lǐng)域。
任務(wù)類型: 問(wèn)題回答、報(bào)告生成和總結(jié)摘要、視覺(jué)問(wèn)題回答、醫(yī)學(xué)圖像分類和基因組變異識(shí)別(genomic variant calling)
模態(tài): 模式:文本、放射學(xué)(CT、MRI 和 X-射線)、病理學(xué)、皮膚病學(xué)、乳房X射線檢查(mammography)和基因組學(xué)。
輸出格式: 所有任務(wù)(包括分類任務(wù))都是開(kāi)放式生成(open-ended generation)
純語(yǔ)言任務(wù)包括醫(yī)學(xué)問(wèn)題回答(MultiMedQA任務(wù))和放射學(xué)報(bào)告總結(jié),可以測(cè)試模型是否具有理解、回憶和操作醫(yī)學(xué)知識(shí)的能力。
多模態(tài)任務(wù)包括醫(yī)學(xué)視覺(jué)問(wèn)題解答 (VQA)、醫(yī)學(xué)圖像分類、胸部X光報(bào)告生成和基因組變異識(shí)別,非常適合評(píng)估模型的視覺(jué)理解和多模態(tài)推理能力。
Med-PaLM M:全科生物醫(yī)療AI的概念驗(yàn)證
基座模型:PaLM-E
PaLM-E是一個(gè)多模態(tài)語(yǔ)言模型,可以處理包括文本、視覺(jué)和傳感器信號(hào)等多模態(tài)的輸入序列,使用了預(yù)訓(xùn)練的PaLM和ViT模型,在OK-VQA和VQA v2等多個(gè)視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試中表現(xiàn)出色。
PaLM-E可以靈活地在單個(gè)提示中交錯(cuò)顯示圖像、文本和傳感器信號(hào),使模型能夠在完全多模態(tài)的背景下進(jìn)行預(yù)測(cè)。
PaLM-E具有零樣本多模態(tài)思維鏈(CoT)推理和少樣本上下文學(xué)習(xí)等多種能力。
研究人員利用PaLM-E模型作為Med-PaLM M的基礎(chǔ)架構(gòu),組合了128B、84B和562B三個(gè)不同參數(shù)量的PaLM-E模型。
預(yù)處理
研究人員將MultiMedBench數(shù)據(jù)集中的所有圖像重新調(diào)整為224×224×3尺寸,同時(shí)保留原始長(zhǎng)寬比,在必要時(shí)進(jìn)行填充處理;對(duì)于灰度圖像,沿通道維度(channel dimension)對(duì)圖像進(jìn)行堆疊,將灰度圖像轉(zhuǎn)換為三通道圖像。
其他與任務(wù)相關(guān)的預(yù)處理方法,如類平衡、圖像數(shù)據(jù)增強(qiáng)等請(qǐng)參閱原文。
指令任務(wù)提示、one-shot樣例
想要訓(xùn)練一個(gè)通用生物醫(yī)學(xué)人工智能模型,模型架構(gòu)及參數(shù)上的統(tǒng)一、能夠同時(shí)處理多模態(tài)、多任務(wù)的輸入是很重要的。
研究人員采用指令微調(diào)的方式,為不同任務(wù)設(shè)定不同的指令,使得模型可以在統(tǒng)一的生成架構(gòu)內(nèi)執(zhí)行不同類型的任務(wù),其中任務(wù)提示由指令、相關(guān)上下文信息和問(wèn)題組成。
比如在胸部X光報(bào)告生成任務(wù)中,上下文信息包括研究原因和圖像方向;而在皮膚病學(xué)分類任務(wù)中,則提供與皮損圖像相關(guān)的患者臨床病史作為上下文。
研究人員將所有分類任務(wù)都設(shè)計(jì)成多選問(wèn)題,將所有可能的類別標(biāo)簽作為單個(gè)答案選項(xiàng)提供,并提示模型生成最可能的答案作為目標(biāo)輸出。
對(duì)于其他生成任務(wù),如視覺(jué)問(wèn)題解答、報(bào)告生成和總結(jié),則根據(jù)目標(biāo)響應(yīng)對(duì)模型進(jìn)行微調(diào)。
為了使模型能夠更好地遵循指令,研究人員在多數(shù)任務(wù)的提示中加入了一個(gè)純文本的示例來(lái)調(diào)整語(yǔ)言模型的預(yù)測(cè)結(jié)果;對(duì)于多模態(tài)任務(wù),將圖像替換為字符串「」,在保持單圖像任務(wù)計(jì)算效率的同時(shí),還可以繞過(guò)給定文本token和多圖像token之間的交叉注意力的潛在干擾。
實(shí)驗(yàn)結(jié)果
評(píng)估目標(biāo)
1. 通用能力
研究人員在MultiMedBench上對(duì)不同規(guī)模的Med-PaLM M模型進(jìn)行評(píng)估,初步了解了在不同任務(wù)中擴(kuò)展ViT和語(yǔ)言模型組件的效果。
然后將其性能與之前的SOTA(包括專門開(kāi)發(fā)的單任務(wù)、單模態(tài)的方法)和未進(jìn)行生物醫(yī)學(xué)微調(diào)的最新通用模型(PaLM-E)進(jìn)行了對(duì)比。
2. 涌現(xiàn)能力
在不同任務(wù)中訓(xùn)練單一靈活的多模態(tài)、通用AI系統(tǒng)的一個(gè)潛在優(yōu)勢(shì)是,通過(guò)語(yǔ)言的組合泛化(如對(duì)新的醫(yī)學(xué)概念和任務(wù)的泛化),會(huì)讓模型涌現(xiàn)出新的能力,可以通過(guò)定性和定量實(shí)驗(yàn)進(jìn)行探索。
3. 測(cè)量放射學(xué)報(bào)告生成質(zhì)量
自然語(yǔ)言生成(NLG)指標(biāo)無(wú)法充分評(píng)估AI模型生成的放射學(xué)報(bào)告的臨床適用性,所以研究人員在MIMIC-CXR數(shù)據(jù)集上對(duì)AI模型生成的報(bào)告進(jìn)行了放射科專家評(píng)估,包括與放射科專家提供的參考報(bào)告進(jìn)行比較。
橫掃M(jìn)ultiMedBench
研究人員將Med-PaLM M的性能與兩類基線模型進(jìn)行對(duì)比:
1. MultiMedBench基準(zhǔn)上各項(xiàng)任務(wù)的先前SOTA專用模型
2. 未進(jìn)行任何生物醫(yī)學(xué)領(lǐng)域微調(diào)的基線通用模型(PaLM-E 84B)
從實(shí)驗(yàn)結(jié)果來(lái)看,Med-PaLM M的最佳結(jié)果(三種模型尺寸)在12個(gè)任務(wù)中的5個(gè)都實(shí)現(xiàn)了超越先前SOTA的性能,并且在其余任務(wù)上也展現(xiàn)出極有競(jìng)爭(zhēng)力的性能表現(xiàn)。
值得注意的是,這些結(jié)果是在使用相同模型權(quán)重集的通用模型中取得的,沒(méi)有針對(duì)特定任務(wù)進(jìn)行任何架構(gòu)定制或優(yōu)化。
在醫(yī)療問(wèn)題回答任務(wù)上,先前的SOTA模型Med-PaLM 2性能更高,但與基線PaLM模型相比,Med-PaLM M在三個(gè)問(wèn)答任務(wù)上,實(shí)現(xiàn)了遠(yuǎn)超PaLM的性能。
不同尺寸模型的性能對(duì)比
對(duì)比12B、84B 和562B的Med-PaLM M模型性能,可以觀察到:
1. 語(yǔ)言推理任務(wù)受益于模型規(guī)模的擴(kuò)大
對(duì)于需要語(yǔ)言理解和推理的任務(wù),如醫(yī)學(xué)問(wèn)題回答、醫(yī)學(xué)視覺(jué)問(wèn)題回答和放射學(xué)報(bào)告總結(jié),將模型規(guī)模從12B擴(kuò)大到562B時(shí),性能顯著提高。
2. 視覺(jué)編碼器的性能是多模態(tài)任務(wù)的瓶頸
對(duì)于乳房X射線或皮膚病學(xué)圖像分類等任務(wù),需要細(xì)致入微的視覺(jué)理解能力,對(duì)語(yǔ)言推理的需求極低(輸出僅為分類標(biāo)簽標(biāo)記)。
可以看到,從Med-PaLM M 12B到Med-PaLM 84B,性能有所提高,但562B模型帶來(lái)的性能提升卻很有限,可能是因?yàn)橐曈X(jué)編碼器在該步驟中沒(méi)有進(jìn)一步擴(kuò)大參數(shù)量(Med-PaLM M 84B 和 562B 模型都使用相同的22B ViT作為視覺(jué)編碼器),成為性能增益的瓶頸;其他干擾因素可能還包括輸入圖像的分辨率等。
在胸部X光報(bào)告生成任務(wù)中,從表面上看,這項(xiàng)任務(wù)似乎需要復(fù)雜的語(yǔ)言理解和推理能力,可以從更大的語(yǔ)言模型中受益;但從實(shí)際效果上來(lái)看,Med-PaLM M 84B模型在大多數(shù)指標(biāo)上與562B模型大致相當(dāng)或略微超過(guò),可能僅僅是由于較大的模型使用了較少的訓(xùn)練步驟。
增加語(yǔ)言模型尺寸沒(méi)用的另一個(gè)原因可能是,MIMIC-CXR數(shù)據(jù)集中生成胸部X光報(bào)告的輸出空間相當(dāng)有限,只有一組模板句子和有限數(shù)量的條件,所以在生成報(bào)告時(shí)采用檢索而非生成的方式可能更好。
此外,更大的562B模型傾向于生成冗長(zhǎng)的報(bào)告,而84B模型則相對(duì)簡(jiǎn)潔,如果在訓(xùn)練中沒(méi)有進(jìn)一步做偏好調(diào)整,可能會(huì)影響最終的評(píng)估指標(biāo)。
零樣本通用能力
通過(guò)評(píng)估Med-PaLM M從蒙哥馬利縣(Montgomery County,MC)數(shù)據(jù)集中的胸部X光圖像中檢測(cè)肺結(jié)核(TB)異常的能力,研究人員探究了Med-PaLM M對(duì)未知醫(yī)學(xué)概念的零樣本泛化能力。
可以看到,相比專門優(yōu)化過(guò)的SOTA模型,不同尺寸的Med-PaLM M性能相近,在沒(méi)有額外訓(xùn)練樣本的情況下,準(zhǔn)確率只落后不到5%
在推理方面,研究人員在MC TB數(shù)據(jù)集上定性地探索了 Med-PaLM M 的零樣本思維鏈(CoT)能力。
與分類設(shè)置不同的是,除了是/否分類預(yù)測(cè)外,還需要用純文本示例提示模型生成一份報(bào)告,描述在給定圖像中的發(fā)現(xiàn)。
從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn),Med-PaLM M模型可以在正確的位置識(shí)別出結(jié)核病相關(guān)的主要病變。
不過(guò),根據(jù)放射科專家的審查,模型生成的報(bào)告中仍有一些遺漏的結(jié)果和錯(cuò)誤,仍有改進(jìn)的空間。
值得注意的是,Med-PaLM M 12B無(wú)法生成連貫的視覺(jué)條件反應(yīng),也就是說(shuō)語(yǔ)言模型的規(guī)模在零樣本CoT多模態(tài)推理能力中起著關(guān)鍵作用,可能是一種涌現(xiàn)的能力。
參考資料:
https://arxiv.org/pdf/2307.14334.pdf
關(guān)鍵詞:
最新資訊