您的位置:首頁>科技>正文

基因測序提速46倍 諾禾致源借阿裡雲繪製基因科學藍圖

2017年的最後一周, 我國啟動了“中國十萬人基因組計畫”, 繪製中國人的精細基因組圖譜, 這是我國在人類基因組研究領域實施的首個重大國家計畫, 需要在四年內完成全部的基因測序與分析任務。

作為六家單位之一, 北京諾禾致源參與了此次十萬人基因組計畫, 借助阿裡雲的計算和存儲能力, 諾禾致源能在17分鐘內就載入完1萬個人類全基因組資料, 僅用1.5小時就可完成單個基因測序pipeline, 比此前快了46倍之多, 極大縮短了測序的時間。

在雲計算快速發展的這幾年中, 諾禾致源一直在努力推進基因測序上雲建設。 目前, 諾禾致源已將基因測序業務陸續遷移到阿裡雲, 為基因行業全面雲化實現雲上資料獲取、基因測序、結果交付的夢想, 邁出堅實且重要的一步。

基因業務快速增長 本地IT資源遇難題

諾禾致源成立於2011年, 彼時之雲計算還處於起步階段, 諾禾選擇了自建本地IT資源來承載業務。 然而隨著近年業務的增長, 以及本地IT資源面臨升級改造的時間節點, 問題逐漸暴露:

l 伺服器配置不足, 運行性能不理想

· 系統運行速度慢

· 業務卡頓不流暢

· 資料上傳速度慢, 非常耗時

l 傳統存儲無法滿足業務快速增長

· 物理存儲介質有安全隱患, 老化、意外丟失、損壞

· 存儲容量有限, 無法應對突發業務

· 需要專人運維保管, 增加人力成本

· 售後服務差, 溝通成本

l 定制化分析較困難

· 業務與IT資源匹配溝通成本高

· IT資源無法定制化, 技術不匹配

· 本地資源排隊, 資料分析延誤長達1個月

CPFS+FPGA 存儲+計算的雲上基因平臺

日前, 阿裡雲推出了基於NAS的並行檔案系統——CPFS, 可提供高達1億的IOPS和1TB/s的吞吐能力, 支援大型並行資料處理能力, 可大幅提升基因測序、科學計算等高性能計算的工作效率。

具體來說, CPFS可將資料條帶化後均勻分佈在整個存儲集群上, 允許client並行訪問, 吞吐和IOPS隨存儲節點的數量實現線性增長, 整個存儲集群對外提供超高的聚合頻寬和IOPS。

同時, 採用融合乙太網的 RDMA 協定 (RoCE) 網路縮短IO訪問的網路時延, 進一步提高了IO存取速度。

此外, 基於Paxos ring的仲裁調度, CPFS可自動檢測服務節點異常, 快速切換到備用節點, 保障服務的可用性。

諾禾致源第一時間在雲端構建了基於阿裡雲CPFS的基因測序解決方案。 如下圖所示, 通過專線連接阿裡雲, 人基因資料從測序儀下機後, 樣本資料通過專線上傳到雲端的OSS物件存儲中, 再通過CPFS並行檔案系統配合ECS計算集群完成基因測序任務。

業務系統上雲後, 資料分析過程都在雲端完成, 除了常規的ECS彈性計算外, 諾禾致源還創新引入了阿裡雲推出的FPGA雲伺服器, 這是一款現場可程式設計閘陣列(FPGA)的計算實例, 這類異構計算實例支援平行計算, 計算能力、輸送量、能耗比比傳統CPU或GPU要強上十倍。

由於FPGA硬體的可重配特性,用戶可以對已創建的FPGA硬體加速應用,進行快速擦寫和重配,達到低時延硬體與彈性伸縮最好的結合。基於FPGA+CPFS的黃金組合,諾禾致源將單個基因測序pipeline從傳統模式下的70個小時縮短為僅用1.5個小時即可完成。同時,僅需17分鐘即可載入完1萬個人類全基因組資料,這些原始資料多達300GB。這一速度對臨床醫學的快速診斷、科研成果的快速轉換具有重大意義。

雲計算助力精准醫學 基因科學如虎添翼

借助于阿裡雲提供的海量雲存儲和批量彈性計算,諾禾致源能夠以更大的吞吐、更快的速度、更低的成本分析人類基因組資料,助力精准醫學。

截至目前,諾禾致源運營有25台Novaseq和三套Hiseq X Ten,每年可完成28萬人的全基因組測序,是全球最大的基因測序平臺,業務覆蓋科技服務、腫瘤基因檢測及遺傳檢測三大領域,極大地提升了國人遺傳疾病分析和診斷的效率。

雲帶來的不僅是效率的提升,還有成本的下降,目前機構的檢測成本已低至數百美元。這一價格還將持續下降。今後,人類做一次檢測,或將和用體溫計量一次體溫一樣便捷。

或許在數年之內,每個新生兒都會被繪製基因組圖,每個成年人都通曉生命出路。

由於FPGA硬體的可重配特性,用戶可以對已創建的FPGA硬體加速應用,進行快速擦寫和重配,達到低時延硬體與彈性伸縮最好的結合。基於FPGA+CPFS的黃金組合,諾禾致源將單個基因測序pipeline從傳統模式下的70個小時縮短為僅用1.5個小時即可完成。同時,僅需17分鐘即可載入完1萬個人類全基因組資料,這些原始資料多達300GB。這一速度對臨床醫學的快速診斷、科研成果的快速轉換具有重大意義。

雲計算助力精准醫學 基因科學如虎添翼

借助于阿裡雲提供的海量雲存儲和批量彈性計算,諾禾致源能夠以更大的吞吐、更快的速度、更低的成本分析人類基因組資料,助力精准醫學。

截至目前,諾禾致源運營有25台Novaseq和三套Hiseq X Ten,每年可完成28萬人的全基因組測序,是全球最大的基因測序平臺,業務覆蓋科技服務、腫瘤基因檢測及遺傳檢測三大領域,極大地提升了國人遺傳疾病分析和診斷的效率。

雲帶來的不僅是效率的提升,還有成本的下降,目前機構的檢測成本已低至數百美元。這一價格還將持續下降。今後,人類做一次檢測,或將和用體溫計量一次體溫一樣便捷。

或許在數年之內,每個新生兒都會被繪製基因組圖,每個成年人都通曉生命出路。

Next Article
喜欢就按个赞吧!!!
点击关闭提示