中文字幕乱码视频22,亚洲香蕉午夜视频,黑人巨鞭大战洋妞视频,青青青青久久国产免

<b id="cho9o"></b>
          深圳信息港

          比真實數(shù)據(jù)還有效?訓(xùn)練 AI,硅谷早已用上了合成臨床數(shù)據(jù)

          2023-04-21 22:42:40 來源:鈦媒體

          圖片來源 @視覺中國

          文|vb 動脈網(wǎng)


          (相關(guān)資料圖)

          NFT、Web3.0 后,硅谷最近搶起了生成式 AI。

          當(dāng)大語言模型(LLM)掀起的浪潮波及世界的每一個角落,越來越多的人相信,生成式 AI 賦予我們的不僅僅是單純的交互——它能夠作為一種新式的生產(chǎn)力,逐步顛覆我們的工作與生活。

          最先嗅到變革趨勢的是專注前沿科技的投資者們。硅谷 Fusion Fund 的創(chuàng)始合伙人張璐已經(jīng)好久沒有看到如此狂熱的景象。作為最早投資 AI 在醫(yī)療領(lǐng)域應(yīng)用的硅谷投資機構(gòu),F(xiàn)usion Fund 過去幾年一直對生成式 AI 的醫(yī)療應(yīng)用領(lǐng)域有所布局,投資組合中包括 Huma.AI、深透醫(yī)療等優(yōu)質(zhì)醫(yī)療 AI 企業(yè),有的被投企業(yè)早在兩年前就已經(jīng)與 OpenAI 有了諸多合作。

          " 生成式 AI 的垂直領(lǐng)域應(yīng)用,需要該行業(yè)擁有海量的高質(zhì)量數(shù)據(jù),才能最大化地體現(xiàn)它地技術(shù)實力。而醫(yī)療領(lǐng)域恰恰擁有海量的高質(zhì)量數(shù)據(jù),人類社會中大約 30% 的數(shù)據(jù)與醫(yī)療相關(guān),是最大的品類,在此基礎(chǔ)上生成式 AI 為醫(yī)療領(lǐng)域帶來了巨大的機會。" 張璐說。

          與諸多熱門賽道不同,醫(yī)療領(lǐng)域表面上沉寂著數(shù)以億計的大數(shù)據(jù),但若落足于具體的臨床場景,開發(fā)者時常會為數(shù)據(jù)的數(shù)量、質(zhì)量與數(shù)據(jù)的獲取成本發(fā)愁,尤其是在應(yīng)用級臨床 AI 的研發(fā)方向上,限制其發(fā)展的,正是醫(yī)療數(shù)據(jù)的稀缺性。

          這一次,熟稔于繪圖作詞的文藝 AI 們,能否入駐醫(yī)學(xué)專業(yè),為臨床 AI 的發(fā)展再注活力?

          生成式 AI 賦能臨床的兩條路徑

          AI 的發(fā)展趨勢大致可歸納為兩個方向,一是單任務(wù)辨別式 AI 模型,單病種 AI 輔助診療、分類、檢測等均是這類 AI 應(yīng)用的典型例子;二是生成式 AI 應(yīng)用,局域數(shù)據(jù)生成更高維度的信息,例如預(yù)測醫(yī)學(xué)圖像數(shù)據(jù)、生成健康報告等。

          兩個方向均依賴于臨床數(shù)據(jù)進行模型訓(xùn)練,亦受限于臨床數(shù)據(jù)的缺失。張璐表示:" 早在 2018 年前后,研發(fā)人員便嘗試采用小樣本學(xué)習(xí)、生成對抗網(wǎng)絡(luò)(GAN)等方式彌補訓(xùn)練樣本量不足的問題,也是從那時開始,生成式 AI 便已應(yīng)用于醫(yī)療之中,只是如今它的定義更明確,強調(diào)在深度學(xué)習(xí)之上搭建 Transformer Model。"

          以 Fusion Fund 投下的深透醫(yī)療為例,該公司的核心業(yè)務(wù)為利用 AI 加速 MRI、PET 成像速度,并提升成像質(zhì)量,這個過程本身就是利用生成式 AI 處理原始數(shù)據(jù)獲取合成數(shù)據(jù),再根據(jù)合成數(shù)據(jù)重構(gòu) MRI、PET 影像。

          "MR 臨床掃描中的部分序列常常出現(xiàn)信噪比偏低、偽影明顯等情況,影響最終影像的生成。發(fā)布于 IEEE 的研究 "One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer for Missing Data Imputation" 結(jié)果顯示:在 AI 的支持下,通過 T1、T2 等現(xiàn)有圖像間接生成新的圖像(例如更高分辨率圖像、其他對比度、模擬打造影劑的圖像等),其效果甚至可以優(yōu)于直接成像。目前,我們能將 MRI、PET 的成像過程提速 4-10 倍,并減少 10 倍造影劑的使用,基于更新生成式 AI 的模型也將不斷提升產(chǎn)品性能 " 深透醫(yī)療 CEO 宮恩浩告訴動脈網(wǎng)。

          " 此外,我們也在通過做一些 image degrader 的工作,把一些金標(biāo)準(zhǔn)高質(zhì)量的圖像變至更接近實際掃描獲取的低質(zhì)量圖像,進而訓(xùn)練出新的模型。這種融合了多重數(shù)據(jù)的 diffusion model(擴散模型),它的效果要明顯優(yōu)于通過傳統(tǒng)手段訓(xùn)練的模型。"

          國內(nèi) AI 企業(yè)數(shù)坤科技則是將生成式 AI 用在了冠脈 CTA 的圖像增強上。在與上海市第一人民醫(yī)院的合作中,雙方將 GAN 用于冠脈 CTA 圖像后處理中,成功修復(fù)運動偽影,最終提高冠脈 CTA 的成像質(zhì)量,使其診斷準(zhǔn)確性達到冠脈造影的 " 金標(biāo)準(zhǔn) " 水平。

          定量分析結(jié)果顯示,使用 GAN 技術(shù)修復(fù)運動偽影后的冠脈 CTA 圖像質(zhì)量顯著高于修復(fù)前的冠脈 CTA 圖像

          通常而言,需要 64 排及其以上排數(shù) CT 才能完成心臟 CTA 掃描,而生成式 AI 可以讓 32 排甚至 16 排的 CT 執(zhí)行起 CTA 的掃描任務(wù),取得滿足醫(yī)生診斷需求的影像。從理論上講,這一技術(shù)賦能可以有效提高基層醫(yī)療服務(wù)能力及服務(wù)質(zhì)量。

          MR 同理,通過 AI 賦能,更普遍的 1.5T 設(shè)備或者低場便攜設(shè)備大幅提升圖像質(zhì)量,實現(xiàn) 3T 等高端設(shè)備的診斷質(zhì)量與掃描效率。

          總的來說,生成式 AI 在單任務(wù)辨別式 AI 應(yīng)用中的作用路徑,均是基于原始數(shù)據(jù)生成合成數(shù)據(jù),并將其應(yīng)用于最終結(jié)果的生成,實現(xiàn)影像增強。同時,整個模型訓(xùn)練過程中,生成式模型可以同來進行數(shù)據(jù)擴充(Data Augmentation ) ,從而基于較小數(shù)據(jù)量以更快速度獲取更為優(yōu)質(zhì)的圖像,有利于研發(fā)人員開拓更多數(shù)據(jù)量相對缺失的場景。

          相較于主攻分析能力提升的單任務(wù)辨別式 AI,生成式 AI 應(yīng)用的能力則有一些超脫于當(dāng)下醫(yī)療需求之前。舉一個不那么恰當(dāng)?shù)睦樱罕鎰e式 AI 應(yīng)用可以評估患者當(dāng)下的健康狀態(tài),而生成式 AI 應(yīng)用意在預(yù)測每一人身體的未來。

          目前國內(nèi)嘗試生成式 AI 應(yīng)用探索的項目非常有限。一個典型的例子是鷹瞳 Airdoc 與北京大學(xué)臨床研究所、愛康集團開展的視網(wǎng)膜研究。通過觀察 40 萬人的視網(wǎng)膜血管和神經(jīng)的發(fā)展變化,研究人員讓生成式 AI 自學(xué),去判斷受檢者接下來的發(fā)展變化,評估未來心腦血管病風(fēng)險有多高。目前相關(guān)研究已發(fā)表在國際知名期刊《Science Bulletin》之中。

          據(jù)鷹瞳科技表示,以生成式 AI 為基礎(chǔ)的阿爾茨海默病風(fēng)險預(yù)測、近視進展預(yù)測、帕金森風(fēng)險預(yù)測同樣處于研發(fā)之中。如果上述疾病能通過 AI 實現(xiàn)預(yù)測或早發(fā)現(xiàn),及時的防治措施能夠幫助大量患者規(guī)避疾病風(fēng)險,避免后續(xù)漫長且不可控的治療。

          生成式 AI 能夠生成臨床數(shù)據(jù)嗎?

          既然單任務(wù)辨別式 AI 應(yīng)用與生成式 AI 應(yīng)用都在運算的過程之中使用了生成數(shù)據(jù),那么我們是否也能像 AIGC 在金融、藝術(shù)中的應(yīng)用中那樣,直接生成醫(yī)療數(shù)據(jù)呢?

          美國圣路易斯華盛頓大學(xué)醫(yī)學(xué)院信息學(xué)研究所去年開啟了一項基于生成式 AI 生成患者合成數(shù)據(jù)集的研究,意在為廣大科技醫(yī)療研究人員提供更為豐富的數(shù)據(jù),為各類醫(yī)療 AI 的研發(fā)提速。

          該研究使用了以色列公司 MDClone 研發(fā)的生成式 AI 模型。MDClone 的系統(tǒng)與醫(yī)院的 EHR 直連,可以抽取患者數(shù)據(jù)進行脫敏,把數(shù)據(jù)按照特定維度打散,再利用其自研的生成式 AI 模型進行重新組合。通過這一路徑,MDClone 可以根據(jù)基于少量電子健康記錄中真實的患者數(shù)據(jù)準(zhǔn)確地生成大量合成數(shù)據(jù),重建真實患者的特征。

          在后續(xù)的研究中,相關(guān)人員將合成數(shù)據(jù)集與真實數(shù)據(jù)集置于三個特定任務(wù)下進行對比,分別為分析兒科創(chuàng)傷患者的死亡風(fēng)險;預(yù)測哪些住院患者最有可能發(fā)生敗血癥;制作圣路易斯地區(qū)一年內(nèi)按郵政編碼劃分的衣原體感染率地圖。

          該對比研究結(jié)果顯示,合成數(shù)據(jù)分析的結(jié)果在統(tǒng)計上與真實數(shù)據(jù)的分析相似,各項數(shù)據(jù)集都得出了相同的結(jié)論。在絕大多數(shù)情況下,統(tǒng)計結(jié)果是相同的,只有在極少數(shù)情況下,真實數(shù)據(jù)集和合成數(shù)據(jù)集之間存在差異。

          這一研究結(jié)果與深透醫(yī)療在影像加速中的研究結(jié)果方向一致。這也意味著,過去準(zhǔn)備訓(xùn)練數(shù)據(jù)往往需要耗去研究人員數(shù)個月的時間,而在生成式 AI 模型的賦能下,研究人員可以在數(shù)小時至數(shù)日內(nèi)建立、查詢并下載自己的合成數(shù)據(jù)集。

          此外,這一生成合成數(shù)據(jù)的方法還創(chuàng)造了一種嚴(yán)格的患者隱私保密方式。由于合成數(shù)據(jù)無法與真實的人和身份聯(lián)系起來,醫(yī)院或能借助這一技術(shù)將數(shù)據(jù)變?yōu)橐环N特定的資產(chǎn),在不侵害患者隱私的前提下,最大化相關(guān)臨床研究。

          同樣的邏輯亦可用于影像數(shù)據(jù)中。

          在訓(xùn)練輔助診斷類人工智能的過程中,患者影像數(shù)據(jù)的不均勻分布常常會影響最終模型在實際應(yīng)用中的效果。

          以皮膚病 AI 為例,該 AI 在處理影像時需要同時計算多種皮膚病的概率,但由于人的皮膚膚質(zhì)及患病類型并非均勻分布,僅考慮患病種類一個維度,濕疹、毛囊炎的數(shù)據(jù)頻率偏高,銀屑病的數(shù)據(jù)頻率則會相對偏低。

          常規(guī)算法可以雖然可以實現(xiàn)影像數(shù)據(jù)的合成,但其合成數(shù)據(jù)質(zhì)量與真實數(shù)據(jù)質(zhì)量存在差異,不能完全替代真實數(shù)據(jù)的價值。生成式 AI 的出現(xiàn)則補全了生成邏輯方面的缺陷,讓生成數(shù)據(jù)不僅保有質(zhì)量,還能加快生成過程,擴大生成數(shù)據(jù)的量級。

          英偉達在影像類合成數(shù)據(jù)中早有布局。2022 年,英偉達與倫敦國王學(xué)院使用 Cambridge-1 超級計算機創(chuàng)建一套包含 10 萬份大腦合成圖像的數(shù)據(jù)集,借此訓(xùn)練 AI 應(yīng)用以加快對于癡呆癥、帕金森病及其他腦部疾病的理解。其生成邏輯與文本有相似之處,便是將真實數(shù)據(jù)拆分為素材,再通過特定邏輯的 AI 進行組合,進而解決數(shù)據(jù)量稀缺的問題。

          合成數(shù)據(jù)的另一個潛在應(yīng)用場景在于多病種判別式 AI 的審評審批。

          多病種 AI 的臨床試驗設(shè)計是一個復(fù)雜的過程。譬如,多病種 AI(以 N=2 為例)在進行數(shù)據(jù)集構(gòu)建與算法驗證時,不僅需要構(gòu)建病種 A 數(shù)據(jù)庫與病種 B 數(shù)據(jù)庫,還需要構(gòu)建 A ∩ B 數(shù)據(jù)庫,并需在模型之中添加醫(yī)學(xué)知識,使其能基于醫(yī)學(xué)原理解釋交集數(shù)據(jù)的概率得出過程。

          當(dāng)病種數(shù)量較少時,構(gòu)建融合數(shù)據(jù)庫的難度尚且可控。而在當(dāng)前審評審批邏輯下,病種數(shù)量一旦增多,各病種組合的樣式及需要的數(shù)據(jù)集豐富程度則會呈指數(shù)趨勢上升,數(shù)據(jù)不均勻分布導(dǎo)致的障礙也會進一步凸顯。

          譬如,糖網(wǎng)病變的 0 期、6 期患者數(shù)據(jù)天然較少,企業(yè)很難在真實世界中找到足量滿足驗證數(shù)據(jù)集要求的數(shù)據(jù)量。若將病種的組合考慮在內(nèi),相關(guān)數(shù)據(jù)收集復(fù)雜程度將急速擴增,最終變成一個現(xiàn)實之中無法解決的難題。顯然,應(yīng)用生成式 AI 對部分稀缺維度進行數(shù)據(jù)擴增有希望解決這一問題。

          深透醫(yī)療已拿到 FDA、CE、NMPA 等各地認(rèn)證,宮恩浩在采訪中告訴動脈網(wǎng):" 合成數(shù)據(jù)的應(yīng)用貫穿 AI 應(yīng)用全流程,F(xiàn)DA 有明確要求申報公司闡述清楚訓(xùn)練和測試用到的真實臨床數(shù)據(jù)的數(shù)量和細節(jié),但 FDA 沒有對合成數(shù)據(jù)的使用量及使用環(huán)節(jié)進行明確規(guī)定。另一方面,影像增強過程中產(chǎn)生合成數(shù)據(jù)并以此重建影像與直接構(gòu)建合成數(shù)據(jù)集進行 AI 訓(xùn)練兩種方式存在差異,后一種方式仍然存在探索空間。"

          中國人工智能醫(yī)療器械標(biāo)準(zhǔn)化技術(shù)單位及 NMPA 對于數(shù)據(jù)質(zhì)控的標(biāo)注制定及討論同樣走在全球前列,目標(biāo)是針對訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練、遷移學(xué)習(xí)等方面的建立完善的標(biāo)準(zhǔn)。如今生成式 AI 的進一步拓寬,或能加速相關(guān)法律法規(guī)及審評審批條款的制定,使多病種 AI 的審評審批獲得理論與經(jīng)濟上的雙重可能。

          距離硅谷,我們還有多遠?

          近日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布了一則關(guān)于《生成式人工智能服務(wù)管理辦法(征求意見稿)》公開征求意見的通知,有意將生成式 AI 盡快納入監(jiān)管范圍。

          對于這項仍處于野蠻生長中的技術(shù),有效的監(jiān)管將為其帶來更為良性的發(fā)展空間,也利于企業(yè)及早規(guī)避可能的政策風(fēng)險。不過,要在國內(nèi)全面推動生成式 AI 的發(fā)展,需要依靠不能只是監(jiān)管。

          " 任何技術(shù)創(chuàng)新都是由基礎(chǔ)技術(shù)創(chuàng)新,到技術(shù)應(yīng)用創(chuàng)新,最后帶來商業(yè)模式的創(chuàng)新。目前國內(nèi)的生成式 AI 發(fā)展與硅谷存在一定差距,既存在于模型方面,又存在于數(shù)據(jù)方面。在美國,以 OpenAI 為代表的科技公司已經(jīng)完成了 GPT 模型、大語言模型(LLM)等基礎(chǔ)設(shè)施的搭建,這意味著,美國已經(jīng)進入到了創(chuàng)新的第二階段——技術(shù)應(yīng)用創(chuàng)新。" 張璐表示。

          要追趕硅谷并不簡單,一方面需要有科技公司完成基礎(chǔ)模型的突破,讓后進的創(chuàng)業(yè)公司們能夠通過 API 去調(diào)用先進的模型;另一方面需要加速多模態(tài)數(shù)據(jù)的治理,為模型的專科化培養(yǎng)提供數(shù)據(jù)支撐。

          回到國內(nèi),哪些企業(yè)能夠承擔(dān)風(fēng)險扛起 AI 跨時代發(fā)展的責(zé)任?還需時間給出答案。

          更多精彩內(nèi)容,關(guān)注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體 App

          關(guān)鍵詞:

          熱門推薦