您的位置:首頁>科技>正文

人和未來:成立僅3年的生物技術公司,是如何刷新了IT紀錄的?

測序環節產生的基因資料——每個人動輒百G以上——是等待挖掘的金礦。 因此, 資料的存儲、傳輸、分析和解讀是必須的過程, 這就對大比例的壓縮演算法、高效的傳輸策略、超快速的計算平臺和專業的解讀服務提出了很高的要求。

在不久前Intel舉辦的英特爾生命科學資訊技術論壇上, 資料壓縮存儲、高性能計算相關的討論是重頭戲。 Broad Institute登陸中國, 與Intel、華大基因、阿裡雲和浪潮聯合成立了GATK中國社區。 FPGA則首次成為貫穿全場的關鍵字, 預示Intel在未來幾年將加大在異構計算方面的投入。

除了這些巨頭公司之外, 一家創業公司——人和未來也引起了大家的關注:成立僅3年,

其研發的資料壓縮演算法將傳統壓縮演算法的效率提升了20倍, 開發的基因資料雲計算系統將全基因組計算時間從以天為單位減少到10分鐘。

就在2016年, 這家公司在第11屆國際基因組學大會(ICG)的全球公開競賽中一舉拿下資料壓縮和計算加速競賽雙料冠軍,

這個成績更是刷新了資料壓縮和加速運算當前的世界紀錄。

令人驚奇的是, 這竟是一家生物科技公司。 那麼, 一家生物技術公司, 如何成為攻城獅, 刷新了IT的世界紀錄呢?

當商業碰上技術, 有備而來的創業

人和未來成立於2014年, 由袁夢兮、黃文靜和宋卓博士共同創立。 初創的十餘人團隊中, 不僅聚集了多位留學北美的遺傳學、生物資訊學、電腦及醫學博士, 也完美的融合了創始團隊金融和商業的背景。

2014年是中國基因檢測產業的創業高潮年, 這可以從去年動脈網發佈的行業年終盤點中就可以看出來。 這一年新成立的企業超過35家, 其中就包括人和未來。

這一年,

國家發改委曾經叫停了所有高通量測序臨床應用服務。 與其是看准了行業風口, 不如說這家公司實際經過了多年沉澱才終於振翅而飛。 在公司正式成立之前, 三位創始人已經籌畫了5年。

2009年的美國, 以23andme、Knome為代表的創業企業掀起了第一波基因檢測產業化的熱潮。 受其感召和鼓舞, 當時還在美國讀書的袁夢兮和宋卓利用暑假各自回國調研國內檢測市場。

無巧不成書, 他們幾乎同時拜訪了當時湘雅附三體檢中心的主任, 並因此相識。 從某種意義上講, 這次旅程對公司的最終成立具有歷史意義。

兩人在長沙火車站肯德基的第一次會面, 開啟了Genetalks-人和未來籌建的序幕。

同年, 袁夢兮在康奈爾商學院的同學黃文靜加入創業團隊。

團隊借助聖地牙哥華人科學家的技術平臺, 於2009年開始了最早的研發和資料分析工作。 公司的第一個疾病與基因資訊的資料庫, 以及低頻突變單分子標記測序方法便在這一期間完成了雛形。

2011年團隊再次回國考察基因檢測的市場, 打算啟動商業轉化, 大幹一場, 但慎重分析後, 認定當時國內的基因檢測市場仍處於無准入無監管的狀態, 時機尚未成熟。 團隊決定繼續積累, 並等待最佳入場時機。

此後, 除了繼續在北美各研究院所和機構繼續協同研發的團隊外, 袁夢兮、宋卓、黃文靜分別去了IDG資本, 貝瑞和康和禮來製藥, 從創業投資管理、生物技術轉化、醫療市場運營等不同視角, 帶領職業化團隊進行了成功探索。

直到2014年, 基因測序叫停, 團隊興奮的意識到產業序幕即將揭開。 團隊迅速召回美國成員, 在兩個月時間即完成了融資、檢驗所規劃、核心技術和國內團隊落地, 並在長沙研發檢測基地開啟了全新里程。

超前意識預見未來趨勢

當時羅氏的454焦糖測序法誕生不到一年, 宋卓實際上是第一批高通量測序的博士研究生。

在范德堡大學期間, 宋卓的研究方向是人類遺傳學和生物資訊學。 也許在那個時候, 就本能地預見了資料處理和分析將成為未來整個行業的瓶頸。 BT+IT打一開始就烙入了技術團隊的精神內核

因此, 從成立之初, 公司便在IT領域特意進行了佈局。

2014年, 人和未來先後與亞馬遜AWS、阿裡雲和Intel進行合作。 基於這些IT巨頭提供的底層服務, 人和未來勇於創新,開發了多個令人耳目一新的高性能生物資訊解決方案。

佈局資料傳輸分析流程,刷新世界紀錄

目前公司大資料產品線包括兩個解決方案:基因資料的傳輸壓縮,高性能計算解讀。

傳輸壓縮解決方案GTZ

GTZ是人和未來與湖南省工程研究中心合作開發的資料傳輸壓縮解決方案。

GTZ是人和未來開發的資料傳輸壓縮解決方案。通過將資料傳輸、壓縮、分發集於一體,GTZ能實現將大規模基因組資料傳輸時間縮減90%,同時還能減少90%的磁片存儲空間,與老牌傳輸工具Aspera相比,相同頻寬下,傳輸能力提高10倍;與傳統常用的壓縮演算法gzip相比壓縮速度提高10倍,壓縮率提高3倍 。為基因組大資料的傳輸和存儲提供了高效率低成本的解決方案。

一個人的基因組資料的大小約為3GB,如果測序深度為30X,算上堿基品質等資料,最終全基因組資料的大小超過200GB。

將測序數據保存在雲端(比如,亞馬遜雲S3物件存儲服務),如果不壓縮,需要400元/年,如果使用gzip壓縮,需要140元/年,如果使用GTZ壓縮可以將保存成本降至40元。

目前國內公司已經購買了大量的Illumina 生產的NovaSeq新型測序儀。單台NovaSeq測序儀可以在30小時內產出6TB 資料,一年滿負荷運轉可以產出超過1.5PB資料。如果採用GTZ壓縮,可以為每台NovaSeq減少超過150萬的存儲成本。

另外,不同于傳統的傳輸方案,GTZ採用邊傳輸邊壓縮的專利技術,實現了滿頻寬穩定高效傳輸。

通過將資料傳輸、壓縮、分發集於一體,GTZ能實現將大規模基因組資料傳輸時間縮減90%,傳輸能力是Aspera的10倍;同時還能減少90%的磁片存儲空間,與主流的gzip 的35%相比提升3倍。

高性能計算解決方案

1. GT-WGS

GT-WGS是基於亞馬遜AWS的基因資訊雲計算平臺。基於公有雲的分散式運算,平臺採用數百台高性能電腦協同運算,能夠將30X的人類全基因組資料分析時間縮短到10分鐘以內(縮短了23個小時)。在快速分析的同時,GT-WGS仍兼具結果準確性,與標準的GATK流程對比,其分析結果一致性大於99%。

一般情況下,從基因資料產生需要經歷樣本提取、建庫、質控、測序、分析、解讀這6個環節。在普通方案,這個流程最快也要用時50 h。而GT-WGS方案則能將建庫時間和分析時間分別縮短1 h和23 h,將個人基因組檢測服務(從採樣到結果報告)的時間縮短至一天。

GT-WGS的機時費用約為16美元,與單台標準伺服器相比,資料分析速度提高了90倍,可節約75%的雲電腦時費用。

2. GTX One

儘管雲計算有著彈性靈活等諸多優勢,鑒於國內仍有大量基因資料存儲於線下,適合本地計算的硬體加速系統必然是未來基因資料分析的一個戰略要地。

人和未來於去年推出了基於CPU+FPGA異構硬體加速的資料分析一體機GTX-One。PCI-E 3.0 FPGA,可以使一台普通PC機具有了百台伺服器的基因資料分析能力。

通過為基因資料分析定制優化計算流水線,單台GTX One能夠在15分鐘內完成30X全基因組的比對和突變分析,刷新基因資料分析的最低能耗紀錄。今年公司對GTX-One的介面進行升級。

簡單來說,GTX One單台設備實現了150台標準伺服器的分析能力,最大化地降低了計算集群的採購和運維的成本,並加快了基因組分析速度。

基於文本挖掘的資料解讀方案

CNV是基於NCBI text mining的文本挖掘資料庫,能夠將人類性狀與基因型相關的關聯與挖掘。這類似于此前動脈網曾報導的DNA digest和Genomenon所提供的服務。

通常情況下,大約只有6.6%的文獻會在標題和摘要上體現出疾病與基因突變的關聯。也就是說,在沒有工具的情況下,研究人員需要通讀全文才能找到所需要的資訊。這個過程佔據了研究人員大量時間。

利用文本挖掘對文獻相關知識進行提取和重構,CNV能夠實現文獻挖掘的自動化處理流程,將研究人員從枯燥而冗長的文獻檢索過程中解放出來。

目前,CNV覆蓋了NCBI所有的文獻摘要,並對這些文獻進行每月更新。

BT與IT的融合

看到這裡,你也許會有疑問:這不是一家IT公司?

我想不完全是。從北京南下湖南後,人和未來用兩年的時間建立起了醫學檢驗所、工程中心、基因庫、研究院、示範中心。同時,公司也通過與醫院與體檢機構合作,建立面向B端的檢測市場。目前,公司檢測產品線覆蓋了健康管理和臨床診斷。

總的來看,人和未來既是一家生物公司,也是一家IT公司。

相比單純的生物技術公司,人和未來的IT實力會是公司的競爭優勢。但正如IT巨頭選擇與生物公司結盟跨界一樣,要開發出服務生物技術的優勢產品,必然離不開生物技術的支撐。IT與BT的學科交融,才是這家公司真正的實力。

未來,學科交叉融合將是趨勢

對BT領域而言,IT好比一種工具;而對IT領域而言,BT則是一個龐大而複雜的資料來源,IT領域需要針對不同的問題開發出專業分析工具。

這個過程從2000年人類第一個全基因組測序數據產生後開始,IT領域便一直在針對生物領域的不同需求來開發相應的分析工具。但隨著測序成本下降隨之帶來了資料量的暴增,眼下的資料規模已經逐漸超出了分析工具能夠處理的極限。IT領域面臨的問題不再是“怎麼算”,而是要“怎麼算得更快,如何存儲”。

這是BT領域對IT的新需求,也是IT領域要面臨的新的挑戰和機遇。在此背景下,Seven Bridge、DNAnexus、CLC Bio等交叉學科背景的生物資訊企業應運而生。IBM、Intel、Microsoft、Google等科技巨頭也都看到了這裡未來的前景,紛紛搶灘市場。

Microsoft在2016年與Spiral Genetics合作推出了分析工具BioGraph™ Suite,Intel則抱團BGI、Broad Institute發力高性能計算與存儲優化。這些巨頭希望借由自己在IT領域的優勢跨界到生物市場。但無可厚非,BT實力是他們的短板。因此,這些巨頭通常會選擇與BT領域企業合作聯盟來揚長避短。

IT巨頭攜 BT公司入場,一方面說明生物資料分析將是未來大趨勢,IBM、Intel這樣的全球巨頭也想進來分一杯羹;另一方面這說明要在這一領域站穩腳跟,僅憑IT實力是不夠的,人和未來這樣將IT與BT交叉融合的企業或將在未來競爭中佔領優勢。

更多互聯網醫療資訊請關注動脈網wechat:vcbeat

動脈網(vcbeat.net),關注互聯網醫療及健康領域的新技術、創業和投資,以及新技術背後的倫理

人和未來勇於創新,開發了多個令人耳目一新的高性能生物資訊解決方案。

佈局資料傳輸分析流程,刷新世界紀錄

目前公司大資料產品線包括兩個解決方案:基因資料的傳輸壓縮,高性能計算解讀。

傳輸壓縮解決方案GTZ

GTZ是人和未來與湖南省工程研究中心合作開發的資料傳輸壓縮解決方案。

GTZ是人和未來開發的資料傳輸壓縮解決方案。通過將資料傳輸、壓縮、分發集於一體,GTZ能實現將大規模基因組資料傳輸時間縮減90%,同時還能減少90%的磁片存儲空間,與老牌傳輸工具Aspera相比,相同頻寬下,傳輸能力提高10倍;與傳統常用的壓縮演算法gzip相比壓縮速度提高10倍,壓縮率提高3倍 。為基因組大資料的傳輸和存儲提供了高效率低成本的解決方案。

一個人的基因組資料的大小約為3GB,如果測序深度為30X,算上堿基品質等資料,最終全基因組資料的大小超過200GB。

將測序數據保存在雲端(比如,亞馬遜雲S3物件存儲服務),如果不壓縮,需要400元/年,如果使用gzip壓縮,需要140元/年,如果使用GTZ壓縮可以將保存成本降至40元。

目前國內公司已經購買了大量的Illumina 生產的NovaSeq新型測序儀。單台NovaSeq測序儀可以在30小時內產出6TB 資料,一年滿負荷運轉可以產出超過1.5PB資料。如果採用GTZ壓縮,可以為每台NovaSeq減少超過150萬的存儲成本。

另外,不同于傳統的傳輸方案,GTZ採用邊傳輸邊壓縮的專利技術,實現了滿頻寬穩定高效傳輸。

通過將資料傳輸、壓縮、分發集於一體,GTZ能實現將大規模基因組資料傳輸時間縮減90%,傳輸能力是Aspera的10倍;同時還能減少90%的磁片存儲空間,與主流的gzip 的35%相比提升3倍。

高性能計算解決方案

1. GT-WGS

GT-WGS是基於亞馬遜AWS的基因資訊雲計算平臺。基於公有雲的分散式運算,平臺採用數百台高性能電腦協同運算,能夠將30X的人類全基因組資料分析時間縮短到10分鐘以內(縮短了23個小時)。在快速分析的同時,GT-WGS仍兼具結果準確性,與標準的GATK流程對比,其分析結果一致性大於99%。

一般情況下,從基因資料產生需要經歷樣本提取、建庫、質控、測序、分析、解讀這6個環節。在普通方案,這個流程最快也要用時50 h。而GT-WGS方案則能將建庫時間和分析時間分別縮短1 h和23 h,將個人基因組檢測服務(從採樣到結果報告)的時間縮短至一天。

GT-WGS的機時費用約為16美元,與單台標準伺服器相比,資料分析速度提高了90倍,可節約75%的雲電腦時費用。

2. GTX One

儘管雲計算有著彈性靈活等諸多優勢,鑒於國內仍有大量基因資料存儲於線下,適合本地計算的硬體加速系統必然是未來基因資料分析的一個戰略要地。

人和未來於去年推出了基於CPU+FPGA異構硬體加速的資料分析一體機GTX-One。PCI-E 3.0 FPGA,可以使一台普通PC機具有了百台伺服器的基因資料分析能力。

通過為基因資料分析定制優化計算流水線,單台GTX One能夠在15分鐘內完成30X全基因組的比對和突變分析,刷新基因資料分析的最低能耗紀錄。今年公司對GTX-One的介面進行升級。

簡單來說,GTX One單台設備實現了150台標準伺服器的分析能力,最大化地降低了計算集群的採購和運維的成本,並加快了基因組分析速度。

基於文本挖掘的資料解讀方案

CNV是基於NCBI text mining的文本挖掘資料庫,能夠將人類性狀與基因型相關的關聯與挖掘。這類似于此前動脈網曾報導的DNA digest和Genomenon所提供的服務。

通常情況下,大約只有6.6%的文獻會在標題和摘要上體現出疾病與基因突變的關聯。也就是說,在沒有工具的情況下,研究人員需要通讀全文才能找到所需要的資訊。這個過程佔據了研究人員大量時間。

利用文本挖掘對文獻相關知識進行提取和重構,CNV能夠實現文獻挖掘的自動化處理流程,將研究人員從枯燥而冗長的文獻檢索過程中解放出來。

目前,CNV覆蓋了NCBI所有的文獻摘要,並對這些文獻進行每月更新。

BT與IT的融合

看到這裡,你也許會有疑問:這不是一家IT公司?

我想不完全是。從北京南下湖南後,人和未來用兩年的時間建立起了醫學檢驗所、工程中心、基因庫、研究院、示範中心。同時,公司也通過與醫院與體檢機構合作,建立面向B端的檢測市場。目前,公司檢測產品線覆蓋了健康管理和臨床診斷。

總的來看,人和未來既是一家生物公司,也是一家IT公司。

相比單純的生物技術公司,人和未來的IT實力會是公司的競爭優勢。但正如IT巨頭選擇與生物公司結盟跨界一樣,要開發出服務生物技術的優勢產品,必然離不開生物技術的支撐。IT與BT的學科交融,才是這家公司真正的實力。

未來,學科交叉融合將是趨勢

對BT領域而言,IT好比一種工具;而對IT領域而言,BT則是一個龐大而複雜的資料來源,IT領域需要針對不同的問題開發出專業分析工具。

這個過程從2000年人類第一個全基因組測序數據產生後開始,IT領域便一直在針對生物領域的不同需求來開發相應的分析工具。但隨著測序成本下降隨之帶來了資料量的暴增,眼下的資料規模已經逐漸超出了分析工具能夠處理的極限。IT領域面臨的問題不再是“怎麼算”,而是要“怎麼算得更快,如何存儲”。

這是BT領域對IT的新需求,也是IT領域要面臨的新的挑戰和機遇。在此背景下,Seven Bridge、DNAnexus、CLC Bio等交叉學科背景的生物資訊企業應運而生。IBM、Intel、Microsoft、Google等科技巨頭也都看到了這裡未來的前景,紛紛搶灘市場。

Microsoft在2016年與Spiral Genetics合作推出了分析工具BioGraph™ Suite,Intel則抱團BGI、Broad Institute發力高性能計算與存儲優化。這些巨頭希望借由自己在IT領域的優勢跨界到生物市場。但無可厚非,BT實力是他們的短板。因此,這些巨頭通常會選擇與BT領域企業合作聯盟來揚長避短。

IT巨頭攜 BT公司入場,一方面說明生物資料分析將是未來大趨勢,IBM、Intel這樣的全球巨頭也想進來分一杯羹;另一方面這說明要在這一領域站穩腳跟,僅憑IT實力是不夠的,人和未來這樣將IT與BT交叉融合的企業或將在未來競爭中佔領優勢。

更多互聯網醫療資訊請關注動脈網wechat:vcbeat

動脈網(vcbeat.net),關注互聯網醫療及健康領域的新技術、創業和投資,以及新技術背後的倫理

Next Article
喜欢就按个赞吧!!!
点击关闭提示