
大數據文摘出品
2019年底的新冠疫情,給全世界按下了暫停鍵。
但一場未被人注意到的比賽,才剛拉開序幕。
2020年1月,新冠病毒人傳人的事實得到確認,2月,德克薩斯州麥克萊倫的研究小組的實驗證明,新冠病毒的強度被證明至少是SARS的10倍……
引起疫情的原因是什麽?重症患者後期緣何會出現低氧血症?病毒感染的靶細胞是什麽?要從日漸攀升的確診數中拯救更多人,通過病毒基因測序來了解這種疾病顯得刻不容緩。為了探索這些問題的答案,中國的醫學專家們在新冠肺炎疾病病因學方麵展開了深入探索。
2020年大年初三,麵對全然未知的病毒,上海市公共衛生臨床中心緊急求助轉化醫學國家重大科技基礎設施(上海)瑞金基地(以下或簡稱為“瑞金國家轉化醫學中心”),瑞金國家轉化醫學中心立即召集精兵強將,開始“與時間賽跑”,對新冠病毒進行基因測序。
對一種全新的病毒進行測序和分析不是件容易的事情,研究人員需要持續將病毒數據納入病毒基因組快速分析流程,按照不同的參數在基因組進化動態分析跟蹤展示平台進行驗算,整個過程耗費超過200萬個CPU核時。
在這場爭分奪秒的抗爭中,麵對人類一無所知的新病毒,瑞金國家轉化醫學中心從零開始,僅用了45天就實現了對於新冠病毒的基因組測序和組裝,就新型冠狀病毒基因組、分子流行病學特點、疾病臨床特征進行了深入研究。

圖:組裝的 SARS-CoV-2 基因組分析,來自Viral and host factors related to the clinic outcome of COVID-2019
2020年5月20日,《自然》雜誌在線全文發表了該項研究成果“Viral and host factors related to the clinic outcome of COVID-2019”。文章闡述了新冠肺炎的病理生理,並為後續治療提供相關病理學依據,也為保護全人類生命安全做出重要的貢獻。

論文鏈接:http://www.nature.com/articles/s41586-020-2355-0
這一切成果並非偶然。
基因測序之於瑞金國家轉化醫學中心雖是日常工作的一部分,但要從頭完成一種新病毒的測序及研究,除了過硬的科研能力,還需要完備的基礎設施的支持。而早在2017年,瑞金醫院就已經開始打造一個集存、傳、算、用為一體的定製化超算平台,還成功利用其研發了服務全國五百多家醫院的《中國成人白血病診療登記管理係統》。
可以說,這項工作,非瑞金國家轉化醫學中心莫屬。
“與時間賽跑”的瑞金國家轉化醫學中心
轉化醫學一直都是一個“與時間賽跑”的領域。
其本質就是在主張更為緊密地結合基礎醫學研究與臨床實踐,通過多學科交叉合作,實現“從實驗室到臨床、再從臨床到實驗室”的轉化。
而一旦前期分析和探索新療法或嚐試新藥物花費了太多時間,臨床實踐的時間便會大幅縮減,治療周期被延長不說,還可能錯失最佳治療時機。
因此,引入超算平台對於瑞金國家轉化醫學中心這個國內首個也是截至目前唯一建成的國家級綜合性轉化醫學中心來說,成了一件順勢而為的事。
但在初期實踐中,該中心的IT美女福利导航團隊發現,該平台搭載的英特爾® 至強® 可擴展處理器固然可以保障算力性能,但存儲係統始終難以滿足實時、高頻和高效的數據訪問和處理需求。
要知道,瑞金國家轉化醫學中心的日常研究和工作主要圍繞基因組測序、轉錄組測序、蛋白質組學等組學檢測美女福利导航,結合不同患者生理生化指標、疾病曆史診療結果等信息,通過生物信息學手段對原始數據進行綜合分析,再通過機器學習、深度學習和星空人工智能等方法整合特征數據。而單個人類全基因組測序分析涉及的數據可能高達870GB,這一套流程下來,數據量級已經難以想象了。
同時,平台還必須滿足不同的轉化醫學團隊對不同生信數據的高需求。也就是說,瑞金眼中超算平台的理想存儲係統,不僅要具備存儲海量數據的能力,還必須要具備更出色的I/O和吞吐能力。
也正是這些製約因素,讓瑞金與英特爾再次攜手合作。
打破HPC領域的存儲牆
瑞金的數據存儲難題並不是個例,而是在轉化醫學研究過程中的常態,也是很多高性能計算係統都在麵對的主要瓶頸。
1996年,轉化醫學的概念在柳葉刀雜誌上首次問世。2003年,時任美國NIH主任的Elias A. Zerhouni明確指出,轉化醫學的核心是要將醫學生物學基礎研究成果迅速有效地轉化為可在臨床實際應用的理論、美女福利导航、方法和藥物,也即打破基礎醫學、藥物研究、臨床醫學之間的屏障,加強研究與應用之間的結合。
在轉化醫學的實踐過程中,如果失去超算平台的美女福利导航支持,處理海量生信數據的速度和質量將會大打折扣。但超算平台的建設並非一勞永逸,如果存儲性能跟不上算力,高性能處理器應有的功效也會遇到效率瓶頸,這就是所謂的存儲牆。
打破轉化醫學的存儲牆,也就是在“與時間的賽跑”中拯救更多的病患。而突破高性能計算的存儲牆,其影響和意義也會超越單個行業或應用領域。
其實不止是瑞金國家轉化醫學中心,整個行業都亟需一個性能更出色、功能更全麵、部署和應用也更便捷的新型存儲方案,於是,英特爾® 傲騰™ 持久內存和基於它打造的DAOS(Distributed Asynchronous Object Storage,分布式異步對象存儲)應運而生。
這個新方案幾乎是從初試啼聲開始,就改變了高性能計算領域的存儲競爭格局——以該領域權威的IO-500排行榜為例,瑞金國家轉化醫學中心使用的ASTRA高性能計算平台,在去年就以高達87.50 GiB/s和2984.61 kIOP/s的帶寬和吞吐性能於拿下了該榜單10節點榜單第8名的排位,在IO-500總榜單上也排名第14,堪稱中國及全球生信領域高性能計算係統存儲性能中的佼佼者。而今年最新一期的排名上,前10名中也有一半是在使用DAOS方案。


圖片來源:http://io500.org/list/sc21/ten
這一切,都要歸功於對於存儲係統的全新設計。在生信超算平台的建設中,瑞金采取了三級存儲模式,其中原始數據的存儲及備份采用的是傳統並行文件係統方案,而一些追求更極致性能的生信計算部分,則采用了基於英特爾® 傲騰™ 持久內存的DAOS並行文件係統。
DAOS是一種開源軟件定義橫向擴展對象存儲,可為高性能計算應用提供高帶寬、低時延和高IOPS的存儲容器。DAOS主要使用傲騰™ 持久內存和固態盤,能形成更加靈活的分層存儲機製,把熱數據、源數據、索引數據放到持久內存裏,利用距離處理器更近的優勢來為更大體量的數據提供高速低時延訪問,從而構建出更有層次化的、能適應新的數據讀寫需求、模型及工作流的存儲係統。
可以說,DAOS涵蓋了創新存儲介質和美女福利导航、以及對這些介質和產品使用方式的雙重革新,這也是它贏得與時間賽跑的關鍵所在。
DAOS中這個創新存儲介質,所指就是英特爾的傲騰美女福利导航,而產品則是基於這種介質開發的傲騰持久內存。其創新之處,就在於它兼顧了傳統內存和存儲產品的優勢,但同時又盡可能避開了它們的短板。具體來說,現在的內存多使用DRAM,它性能高、讀寫快,主要用來承載熱數據。這看起來沒什麽問題,但問題就在熱數據的體量一旦變大,DRAM要進行容量擴展時,其成本過高,單條容量受限以及掉電數據就會丟失等短板就會暴露出來。
相比之下,作為DAOS存儲加速硬件底座的英特爾® 傲騰™ 持久內存,不但能像DRAM一樣,可插入現有DIMM插槽,並提供接近於DRAM的性能,還可以像存儲一樣,提供更大的容量規格(目前單條容量可達128GB、256GB和512GB)以及數據的持久化存儲。它同樣可以擔負起承載熱數據的重任,而且還是容量數倍於DRAM的熱數據,這就加快了算力對數據進行讀寫和處理的整體效率,而且在計劃中的停機和意外宕機後,這些數據還無需從存儲設備中重新加載,可大大加快重啟時間並減少I/O,從而顯著降低了大內存節點的功耗。


圖注:從架構層麵了解傳統存儲係統(左)與基於英特爾傲騰™ 持久內存的DAOS係統(右)的差異
加快了數據讀取和處理速度,就加快了整個高性能計算係統的數據處理效率,也就為病患爭取了更多的治療時間。同時,隨著數據不斷積累,新方案也給醫生的日常診斷提供了值得借鑒的參考,由此形成了一個數據閉環,如此循環下來,時間越久效果自然就越好。
破牆之後,量變引起質變
一旦存儲牆問題得到緩解,量變終會引起質變。
在麵對超高深度腫瘤全基因組測序這種超大數據的處理時,原先需要一周的處理時間,在經過全麵和反複的調優,包括引入DAOS及使用至強可擴展平台對Sentieon提供的測序應用加速後,瑞金國家轉化醫學中心現在隻需要7-8個小時就能得到結果,而且優化還在持續,以求更進一步縮短腫瘤分析的用時。
效率提上去之後,基因檢測就可以更好地向臨床方向發展。
通過大數據對現有知識建模,在軟件的輔助下病患就能得到更多新的信息,這些信息都是與基於病患的診斷和臨床的路徑密切相關的。再納入到瑞金"300張床"的研究型病房背景下,病患就能有更多種方案的選擇,而這些都是根據數據分析的結果來確定的。
雖然瑞金國家轉化醫學中心建立在瑞金醫院內部,但轉化醫學中心本身又作為一個醫院在運行,其也擁有一整套完整的信息係統,這些信息與醫院的信息是完全對接的。
麵對專病時,由於其自身的數據集邏輯、檢驗指標等方麵都存在差異,直接調用醫院係統數據存在較大的問題。因此瑞金國家轉化醫學中心正在著手一個全國性白血病數據分析的項目,需要采集匯總近500家醫院的數據,涉及到8萬多病人。但是在分析過程中,他們發現,統一回收的數據特異性不夠,精細到某一個病後精細度又變差了。如果轉化醫學中心能夠把這些信息係統都打通的話,數據收集也就會變得更加輕鬆。
此外,隨著AphaFold2在蛋白質結構預測領域聲名鵲起,相關運行代碼的開源分享,結構生物學研究進入一個新的時代。瑞金國家轉化醫學中心ASTRA高性能計算平台共同負責人呂綱也告訴大數據文摘,中心也在嚐試利用高性能計算在臨床問題中利用這些新興的美女福利导航工具,並做好隨時準備應對重大的公共衛生安全事件的準備。
呂綱還表示,隨著高性能計算逐漸滲透進入科學的各個角落,未來腫瘤檢驗的測序價格會更低,也就會有更多的患者會選擇采用更新的組群分析來支持醫生的判斷,更多的數據也就會湧入整個過程中,因此能為數據存儲、讀寫、訪問和處理提供全方位高性能支持的存儲係統也就必不可少。
其實,這樣的係統不隻是在轉化醫學領域必不可少,它對所有麵臨存儲牆或數據牆挑戰的用戶來說都是一劑良藥。從改造內存/存儲,以更優的成本大幅擴展內存子係統的空間,到將大體量數據存儲在更接近算力、能夠實現更高速數據讀寫和持久化存儲……在高性能計算作用越來越凸顯的當下,英特爾® 傲騰™ 持久內存及相配套的DAOS方案也必然會繼續大放光彩。
更多架構師成長計劃課程,歡迎訪問英特爾架構師成長計劃平台:
http://protect-eu.mimecast.com/s/hASjC0VnLHMLXqnVtDfD69?domain=bizwebcast.intel.cn

星空人工智能美女福利导航網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。!:首頁 > 新聞 » 腫瘤分析一周變7小時 至強平台助轉化醫學與病魔賽跑