北大青年千人Bioinformatics刊文：SVmine新演算法提高SV檢測能力

生信者言原創文章，未經授權嚴禁轉載！！

結構變異（structural variation）是人類基因組中一類重要的變異形式。

雖然目前已經開發出來很多的SV檢測演算法，但他們的檢測能力有限。主要採用paired-end mapping (PEM) 策略和split read mapping（SRM）策略， Read depth methods 也被廣泛應用，但它只能檢測拷貝數變異（copy number variations ， CNVs），而不能檢測copy neutral variants。

近日，北京大學數學科學學院席瑞斌課題組在Bioinformatics發表一篇題為：SVmine improves structural variation detection by integrative mining of predictions from mul- tiple algorithms ［PMID:29036467］的文章，提出了一個新的SV檢測演算法。

席瑞斌研究員，青年千人

北京大學數學科學學院博導教授，主要研究領域為生物資訊學，包括高通量測序數據的新統計計算模型、演算法及軟體；高維統計及大資料方面的新統計理論及方法；課題組已在PNAS, Nature Genetics, Nature, Genome Research, Cell等頂級雜誌發表論文十餘篇。

為了提高SV檢測的準確性，通常的做法是同時使用多種演算法，然後選擇同時被兩種或兩種以上的演算法預測到的結果。

作者發現，使用這種策略的時候，也許是因為演算法太嚴格，

overlap很少。而且，大多數SV演算法的策略都是一樣的，很容易出現假陽性；特別是對於breakpoint的處理，結果很差。準確的breakpoint資訊對於隨後的功能評估非常重要。

所以，作者開發了一個稱為SVmine的演算法工具，進一步挖掘從多個演算法工具得來的SV檢測結果，提高檢測的靈敏度，特異性，更好的處理breakpoint資訊。

SVmine 地址：

https://github.com/xyc0813/SVmine

SVmine演算法通過兩個步驟來評價和改進SV的預測結果。

第一步是進行品質評估和過濾低品質SV預測結果，這一步是重建中斷點附近供體基因組中的潛在真基因組序列（稱之為haplotypes，單倍型）。對已經被預測為SV的序列附近的短reads，使用一個隱瑪律可夫模型調整演算法來重建序列，使得SVmine能夠準確預測，有效地去除假陽性。

第二步是改進高品質SV中斷點的位置。通過進行精准的“三明治”調整軟截斷reads，模擬實驗表明， SVmine與其他演算法相比，表現更優。

Fig1:A.SVmine軟體的流程示意圖；B.候選單倍型的產生；C.三明治重組流程。

SVmine有兩種輸入方式：BAM格式的pair-end reads或者其他演算法預測得到的SV。除單一文庫的資料外， SVmine也可以使用多個不同長度插入片段文庫混合的資料。

首先，將從不同演算法得到的SV進行合併去重，以節省計算時間。通過各自中斷點距離小於350bp進行聚類，對於聚類得到的簇，隨機選擇其中的一個作為代表，進一步優化。 SVmine提取候選中斷點上游和下游的參考序列，以及附近的SNVs / Indels，

產生可能的供體基因組的單倍型。兩個區域中的soft-clipped reads與一端未配對的paired-end reads ，作為不一致的結果將會被收集起來，通過HMM比對演算法對這些單倍型進行重新排列。為了避免重複區域的假陽性，需要使所有不一致reads 和 soft-clipped reads 都能夠做到唯一map。

SVmine計算這些單倍型的可能性是通過對這些reads進行重排。如果沒有SV的單倍型的可能性更大， SVmine則將這個SV視為假陽性，並進行過濾。其餘的SV，將進一步分析，通過 sandwich調整演算法精確估計其中斷點位置。

Fig. 2. (A) The IGV view of BWA alignments of NA12878 in the region of chromosome Y 13349593-1334972. The purple reads indicate that their mates are aligned to chromo- some 1. (B) The purple reads in (A) are mapped to chromosome 1 after introducing an insertion.

文章後半部分，通過兩個真實資料集對SVmine與其他演算法進行了比較。在模擬研究和結直腸癌資料集（包含8對腫瘤/正常組織的測序數據，PE101bp，coverage都是30X左右）中都對個體NA12878進行了分析。

（一）模擬試驗的結果

圖3展示了這些演算法的敏感性和FDR（false discovery rates）。可以看出，SVmine 的敏感性最高， FDR 最低。

Fig. 3. Sensitivities (A-C) and FDRs (D) at different coverages for the 7 SV detection algorithms with a SNV rate 0.1 and an Indel rate 0.2. (A) Sensitivity for deletions. (B) Sensitivity for inversions. (C) Sensitivity for translocations. (D) Overall FDR.

中斷點準確性方面，對其他演算法而言，中斷點精度受附近的SNVs / INDELS影響，顯著。例如，在SV中斷點附近沒有突變的時候， Delly 和Softsearch 演算法能給出非常準確的中斷點估計；但當SV中斷點附近存在突變的時候，其準確性明顯下降。相比之下，此時的SVmine依然提供的資訊相對精確。

Fig. 4.模擬研究中的中斷點準確性箱圖

Table 1. The sensitivity, precision and median breakpoint accuracy for somatic SV detection.

Table 2. Percentages of SV predictions of NA12878 validated by long reads

（二）真實資料的分析

首先，與1000 Genome 資料的比較：

把六個演算法與NA12878預測的結果取交集。在這裡，我們對兩個SV有overlap的定義為：如果中斷點距離雙方小於350 bp。一般情況下，在用SVmine進行過濾之前，overlap是相當低的，但在SVmine過濾後，overlap有明顯的改善。

Fig. 5. (A) Overlaps of SVs given by the 6 SV detection algorithms in NA12878. Num- bers in the plot are the percentages of the SVs detected by algorithms shown in the rows that are also detected by algorithms shown in the columns. For example, 69% BreakDancer SVs are also detected by Delly (the second row and the first column). (B) The overlaps of SVs that are detected by different algorithms and filtered by SVmine. Numbers in the plot are similar to panel (A).

其次，與結直腸癌資料的比較：

在本節中，我們同時應用SVmine演算法和其他演算法，並比較它們的表現。發現有338個經驗證有效的缺失、倒置和易位。BreakDancer, Delly, GASVpro, Hydra Softsearch和SVdetect分別檢測到65%, 72%, 81%,80%, 68%和67% 的 SV，相比之下，SVmine檢測到 90%。

Fig. 6. (A) The breakpoint of the fusion VTI1A-TCF7L2 given by SVmine is exactly the same as the validated breakpoint. The grey bars are split-mapped reads by the sandwich alignment of SVmine. (B) The overlap of somatic SVs detected by the 6 algorithms in colorectal cancer data. Numbers in the plot are similar to Fig. 5. (C) The overlap of SVs detected by different algorithms and filtered by SVmine. (D) Boxplot of breakpoint accuracy for the colorectal cancer data set. The y-axis is the distance between a predicted breakpoint and its corresponding validated breakpoint.

當然，SVmine也存在不足。

為了最大限度地提高SV檢測的靈敏度，得先使用多個SV檢測演算法得到一組候選SV。這是耗時的，特別是對於高覆蓋的WGS資料。但我們可以改善這個問題，例如只有採用一些具有高靈敏度的演算法，Delly和GASV-pro。

當前NGS資料的讀長仍然較短（~150 bp）。複雜基因組區域的SV，如重複區域，片段重複區域是非常難以檢測的。隨著三代測序平臺如PacBio等的發展，這些複雜的區域也能被準確地檢測，用SVmine的策略也可以推廣到PacBio這樣的 long read 資料。

／End.