華文網

浪潮超算助中國農牧第一品牌加速基因研究

借助浪潮超算系統,廣東溫氏食品集團股份有限公司(下稱溫氏集團)在種豬基因研究中,從經濟性到易用性,從計算性能到I/O、存儲性能獲得了全方位提升,實現了基因計算平臺快速部署和種豬分子育種技術的高效開展。

近日,第十一屆中國品牌價值500強評選結果揭曉,溫氏股份是進入前100強中唯一一家中國農牧企業。

溫氏集團國家生豬種業工程技術研究中心致力於種豬分子細胞工程育種技術研究,目前該中心成功部署了浪潮超算開展基因組選擇育種工作。借助新平臺的強大計算能力,溫氏集團實現快速提高選種的準確性和效率,有效提高生豬的產量和品質。

基因組研究助力培育優良種豬資源

我國是農牧大國,其中生豬養殖數量居世界首位,但在生豬繁育體系“金字塔”頂端的核心種豬資源卻大部分依賴進口,因此造成我國生豬產業長期處於“產業的巨人,種業的矮子”尷尬局面。近年來,我國雖日益重視種豬育種研究,卻始終未擺脫“引種—維持—退化—再引種”的被動局面。溫氏集團作為國內農牧的龍頭企業,

也一直想要解決這個問題。

為此,溫氏集團依託國家生豬種業工程技術研究中心,與華南農業大學共建種豬基因組計算分析平臺,開展種豬分子育種研究,加快優良專業化種豬品系的培育,從根本上解決種豬資源問題。

溫氏集團

三大問題困擾種豬基因組研究

譜寫和研究種豬基因組序列並非易事,如何盡可能快的處理海量的基因組資料是困擾種豬基因組研究的第一道坎,也就是如何有效降低時間成本的問題。以溫氏集團聯合其他機構繪製的種豬全基因組序列圖譜為例,需要先將基因組隨機打碎,然後進行測序,最後進行拼接。並且為保證拼接結果的精確性,上述過程需要重複8-10次,涉及到海量的基因資料,

高性能計算系統已成為資料分析中必備的基礎設施。

同時,高性能計算系統的設計構建不能一概而論,需要根據基因研究的資料量大小、使用者量多少等具體需求有針對性的進行構建。在基因組研究中,有的課題組資料量相對較少,但是科研專案卻涉及到生物資訊分析,需要配置小型的分析平臺;有的課題組有1-2台測序儀,資料量中等,至少需要一套十幾個節點的計算設備。

在資料分析中,基因組研究軟體種類繁多,不同類別的軟體應用特徵各異,如何在一套系統中讓軟體的效率最高,最大限度的發揮系統的性能至關重要。因此在配置系統方案時要考慮核心應用或是關鍵應用的應用特徵,如序列比對、序列拼接應用IO吞吐大,記憶體容量需求高,針對這類應用要按需配置系統資源。

此外,在滿足基礎硬體設施的前提下,溫氏集團還關心軟體的運行或使用情況。在基因組研究中會涉及到如序列比對、序列拼接、結構預測、功能注釋等眾多分析類別,大概涵蓋數十種軟體,安裝調試軟體就會耗費大量的時間,且多資料軟體需要在Linux的作業系統下,以全命令列的方式運行,使用起來很不方便,因此便捷化和統一的管理部署在基因組研究中顯得尤為重要。

浪潮超算為基因組研究提供有力硬體支撐

針對溫氏集團對於原有高性能系統集群改造升級的需求,浪潮在系統設計構建集群過程中,結合資料的產出量、軟體應用等特徵,為溫氏集團設計構建的超算系統採用“瘦節點+胖節點”結合的混合架構、Infiniband專用計算網路、乙太網管理網路方案和浪潮-TStor並行存儲系統。這種胖瘦結合的節點架構,搭配IB計算網路和並行存儲,能更好的滿足不同計算任務的需求,充分發揮系統效能。

其中,瘦節點主要進行比對、注釋,snp查找等記憶體需求相對較小、計算相對密集的計算,本次根據溫氏集團需求,浪潮採用了NX5440M4刀片伺服器做計算節點,該伺服器具備高密度、高擴展特性,在8U主機殼空間內可以放置20台NX5440M4。

胖節點主要進行拼接等記憶體消耗較大的操作,採用浪潮明星產品八路伺服器TS860G3,配置8顆目前X86體系中計算速度快的Intel Xeon E7-8860V3系列處理器,搭配1TB記憶體,滿足大型序列拼接應用需求。

在網路方面,由於基因計算中的多數應用頻寬較大,對延遲的要求高,浪潮採用Infiniband網路方案,IB網路相對於乙太網的最大優勢就是極低的延遲,端到端的延遲最少可達200納秒,而乙太網經過優化也僅到3微秒左右。可以在滿足網路需求情況下節省使用者的系統構建成本。

存儲系統則採用浪潮專業並行存儲,能夠保證生物資訊學資料的安全可靠,最大限度地提升存儲的讀寫頻寬,保證基因相關應用對存儲中資料的頻繁讀寫的性能,通過lustre並行檔案系統能提供完善的管理介面,並通過使用者配額管理工具實行資源按需分配,保障溫氏集團的多個用戶端使用需求。

浪潮G1000基因一體機軟體對基因應用對症下藥

除了超算系統設計構建之外,浪潮還為用戶提供了浪潮G1000基因一體機軟體,這款基因一體機軟體針對生物基因應用定制化開發,可以解決傳統高性能系統跟生物基因應用軟體契合度不高、不能充分發揮集群性能、軟體效率不高等問題,使研究人員專注于基因研究,從繁瑣的集群維護和配置中解放出來。

浪潮G1000基因一體機整合和預置多種常用的生物資訊流程,如全基因組重測序分析流程、外顯子分析流程等,流程會進行定時更新和升級。使用者直接選擇預定義的流程,確定參數和資料集後即可提交任務。以全基因組重測序分析為例,所涉及的BWA、Samtools、GATK和ANNOVAR等多種軟體可以按照預定義的工作流程自動執行。

溫氏集團相關負責人介紹,與傳統的解決方案相比,浪潮G1000基因一體機方案無論從經濟性、易用性和高效的計算能力等各方面都具有較大優勢,能夠幫助我們快速部署和高效實施基因組研究應用。

在基因組研究中會涉及到如序列比對、序列拼接、結構預測、功能注釋等眾多分析類別,大概涵蓋數十種軟體,安裝調試軟體就會耗費大量的時間,且多資料軟體需要在Linux的作業系統下,以全命令列的方式運行,使用起來很不方便,因此便捷化和統一的管理部署在基因組研究中顯得尤為重要。

浪潮超算為基因組研究提供有力硬體支撐

針對溫氏集團對於原有高性能系統集群改造升級的需求,浪潮在系統設計構建集群過程中,結合資料的產出量、軟體應用等特徵,為溫氏集團設計構建的超算系統採用“瘦節點+胖節點”結合的混合架構、Infiniband專用計算網路、乙太網管理網路方案和浪潮-TStor並行存儲系統。這種胖瘦結合的節點架構,搭配IB計算網路和並行存儲,能更好的滿足不同計算任務的需求,充分發揮系統效能。

其中,瘦節點主要進行比對、注釋,snp查找等記憶體需求相對較小、計算相對密集的計算,本次根據溫氏集團需求,浪潮採用了NX5440M4刀片伺服器做計算節點,該伺服器具備高密度、高擴展特性,在8U主機殼空間內可以放置20台NX5440M4。

胖節點主要進行拼接等記憶體消耗較大的操作,採用浪潮明星產品八路伺服器TS860G3,配置8顆目前X86體系中計算速度快的Intel Xeon E7-8860V3系列處理器,搭配1TB記憶體,滿足大型序列拼接應用需求。

在網路方面,由於基因計算中的多數應用頻寬較大,對延遲的要求高,浪潮採用Infiniband網路方案,IB網路相對於乙太網的最大優勢就是極低的延遲,端到端的延遲最少可達200納秒,而乙太網經過優化也僅到3微秒左右。可以在滿足網路需求情況下節省使用者的系統構建成本。

存儲系統則採用浪潮專業並行存儲,能夠保證生物資訊學資料的安全可靠,最大限度地提升存儲的讀寫頻寬,保證基因相關應用對存儲中資料的頻繁讀寫的性能,通過lustre並行檔案系統能提供完善的管理介面,並通過使用者配額管理工具實行資源按需分配,保障溫氏集團的多個用戶端使用需求。

浪潮G1000基因一體機軟體對基因應用對症下藥

除了超算系統設計構建之外,浪潮還為用戶提供了浪潮G1000基因一體機軟體,這款基因一體機軟體針對生物基因應用定制化開發,可以解決傳統高性能系統跟生物基因應用軟體契合度不高、不能充分發揮集群性能、軟體效率不高等問題,使研究人員專注于基因研究,從繁瑣的集群維護和配置中解放出來。

浪潮G1000基因一體機整合和預置多種常用的生物資訊流程,如全基因組重測序分析流程、外顯子分析流程等,流程會進行定時更新和升級。使用者直接選擇預定義的流程,確定參數和資料集後即可提交任務。以全基因組重測序分析為例,所涉及的BWA、Samtools、GATK和ANNOVAR等多種軟體可以按照預定義的工作流程自動執行。

溫氏集團相關負責人介紹,與傳統的解決方案相比,浪潮G1000基因一體機方案無論從經濟性、易用性和高效的計算能力等各方面都具有較大優勢,能夠幫助我們快速部署和高效實施基因組研究應用。