您的位置:首頁>正文

浪潮FPGA方案 節省80%磁碟空間和網路流量

在數位化轉型的背景下, 資料量正呈現出爆炸式增長的態勢。 而傳統資料壓縮架構存在計算資源需求高, CPU的負載率高, 壓縮任務輸送量不足等問題, 浪潮FPGA方案對GZip演算法進行了專門的開發和優化, 壓縮率能夠達到94.8%, 壓縮速度達到1.6GB/s, 十倍于傳統方法的計算效率。

舉個現實的例子, 我們每年最大的“剁手節”——雙十一當天所產生的交易日誌就達到了PB級別, 而這僅僅是1天、1個網站搜索產生的資料。

那這些資料對於資料中心而言意味著什麼?1天內不僅多了至少1PB的資料需要存儲, 並且又有至少1PB網路流量被佔用。 按照1塊盤8TB的容量來算, 需要124塊硬碟, 按照1台伺服器12塊盤來算, 需要至少12台伺服器來存儲這些日誌。 同時, 在雙十一後, 這些資料仍需要被存儲一段時間用於後續的大資料分析, 這期間日誌檔會被各個電腦群頻繁的訪問讀取, 不僅長期佔用大量存儲空間,

也會加重資料中心內外部網路負擔。

那麼有沒有什麼方法壓縮這些資料?類似我們在電腦上用WinRAR或者其他壓縮工具把檔案壓縮為zip、rar, 資料中心的海量資料是否也能被壓縮。

資料壓縮, 用計算能力換取更多存儲空間

目前, 業界常用的壓縮演算法有基於UNIX系統的檔案壓縮GZip、高儲存密度的電腦檔案壓縮Zip、無失真壓縮軟體BZIP2等,

其中GZip由於具有較好的壓縮比、壓縮效率和平臺通用性, 因此被廣泛的應用。

但傳統的壓縮程式基於CPU, 會存在一些問題。 比如, 壓縮任務所需要的計算資源較高, 在進行大檔或者多檔案壓縮任務時,

會導致CPU的負載率高, 影響其他任務的正常運轉。 另外, 如果壓縮任務請求頻繁, 比如網站檔的GZip壓縮, 網站的同時訪問人數就基本等同於壓縮任務數, 這時候CPU的單核性能高但並行能力弱的特性會導致壓縮任務輸送量不足。

因此, 針對資料中心海量資料壓縮, 用計算能力換取更多存儲空間是必然趨勢。 比如資料檔案中存在很多重複出現的字串, 如果用更短的符號代替, 就能達到縮短字串的目的。 例如, 有個文本中大量使用“整機櫃伺服器”這個詞, 我們用"整機櫃"代替, 就縮短了3個字元, 如果用"整"代替, 就縮短了5個字元。 事實上, 只要保證對應關係, 可以用任意字元代替那些重複出現的字串。 並且這一過程是無損的、可逆的。

基於FPGA的浪潮壓縮方案, 壓縮率達94.8%

為了解決傳統壓縮架構的弊端, 浪潮基於FPGA來開發GZip壓縮演算法, 通過充分利用板卡硬體流水設計和任務級並行, 來提升壓縮任務的輸送量, 並有效降低CPU的負載。

由於FPGA採用與CPU迥異的運行模式, 因此需要進行演算法移植。 目前,浪潮基於FPGA的GZip演算法進行了專門的開發和優化,在樣本壓縮測試中,壓縮率能夠達到94.8%,極大降低資料檔案所佔用的存儲空間。

舉個例子,在大型資料中心,各個業務部門之間的資料可能存在于不同的集群,因此當資料需要被大量的跨集群讀取時,即使各個集群中有數百G的智慧型網路專線,但是傳輸的資料不能把頻寬占滿,因此可能導致任務的較大延時。而在這些傳輸的資料中,日誌等字元重複率較高的文字檔的數量也是很大的,採用浪潮FPGA方案能夠迅速將檔縮小90%以上,並且能夠在傳輸完成後快速解壓,有效降低頻寬佔用。

1.6GB/s壓縮效率,10倍于傳統壓縮方案

資料的壓縮雖然可以節省磁碟空間,但是卻也需要更多的計算能力,如果使用原有的CPU來進行處理,壓縮和解壓的速度較慢,會影響整個集群的業務效率,這就得不償失了。而浪潮FPGA方案在運行簡單但重複性高的任務時,能省去取指和解碼步驟,極大的提高了重複運行相同代碼的效率。據實測資料顯示,基於高性能的硬體平臺和優化的演算法,浪潮FPGA方案可以達到1.6GB/s的GZip壓縮速度,而使用傳統x86架構處理器的性能只能達到60-150MB/s。浪潮FPGA為業界帶來至少十倍于傳統方法的計算效率。

舉個例子,由於GZip可以壓縮Html、JavaScript、Cascading Style Sheets等網路常用的文檔,因此目前大部分的網站會啟用GZip壓縮來降低網站存取速度,通常經過GZip壓縮的網站可以降低2/3以上的大小,因此從用戶端來看,網站的打開速度可能提升3倍。但是對於極高併發量的大型網站來說,過高的暫態流量可能導致伺服器的高負載,而採用浪潮FPGA方案則能夠支撐更高的併發量。

由於GZip無失真壓縮主要針對有大量重複字元的檔,因此以文本為主的資料,比如日誌檔、交易記錄、編譯報告、html檔等都能進行很好的壓縮。但是對於已經被壓縮過的檔,比如JPEG圖片檔等,壓縮率可能很低甚至為負。為此在GZip無失真壓縮之外,浪潮還開發出基於FPGA的WebP失真壓縮方案,進一步提升圖片等資料的壓縮率和壓縮效率。未來,浪潮還將推出更多FPGA方案,為更多應用提供更高效的計算平臺支撐。

目前,浪潮基於FPGA的GZip演算法進行了專門的開發和優化,在樣本壓縮測試中,壓縮率能夠達到94.8%,極大降低資料檔案所佔用的存儲空間。

舉個例子,在大型資料中心,各個業務部門之間的資料可能存在于不同的集群,因此當資料需要被大量的跨集群讀取時,即使各個集群中有數百G的智慧型網路專線,但是傳輸的資料不能把頻寬占滿,因此可能導致任務的較大延時。而在這些傳輸的資料中,日誌等字元重複率較高的文字檔的數量也是很大的,採用浪潮FPGA方案能夠迅速將檔縮小90%以上,並且能夠在傳輸完成後快速解壓,有效降低頻寬佔用。

1.6GB/s壓縮效率,10倍于傳統壓縮方案

資料的壓縮雖然可以節省磁碟空間,但是卻也需要更多的計算能力,如果使用原有的CPU來進行處理,壓縮和解壓的速度較慢,會影響整個集群的業務效率,這就得不償失了。而浪潮FPGA方案在運行簡單但重複性高的任務時,能省去取指和解碼步驟,極大的提高了重複運行相同代碼的效率。據實測資料顯示,基於高性能的硬體平臺和優化的演算法,浪潮FPGA方案可以達到1.6GB/s的GZip壓縮速度,而使用傳統x86架構處理器的性能只能達到60-150MB/s。浪潮FPGA為業界帶來至少十倍于傳統方法的計算效率。

舉個例子,由於GZip可以壓縮Html、JavaScript、Cascading Style Sheets等網路常用的文檔,因此目前大部分的網站會啟用GZip壓縮來降低網站存取速度,通常經過GZip壓縮的網站可以降低2/3以上的大小,因此從用戶端來看,網站的打開速度可能提升3倍。但是對於極高併發量的大型網站來說,過高的暫態流量可能導致伺服器的高負載,而採用浪潮FPGA方案則能夠支撐更高的併發量。

由於GZip無失真壓縮主要針對有大量重複字元的檔,因此以文本為主的資料,比如日誌檔、交易記錄、編譯報告、html檔等都能進行很好的壓縮。但是對於已經被壓縮過的檔,比如JPEG圖片檔等,壓縮率可能很低甚至為負。為此在GZip無失真壓縮之外,浪潮還開發出基於FPGA的WebP失真壓縮方案,進一步提升圖片等資料的壓縮率和壓縮效率。未來,浪潮還將推出更多FPGA方案,為更多應用提供更高效的計算平臺支撐。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示