華文網

大資料環境下製造業關鍵技術分析

李少波1,2,陳永前1

(1.貴州大學 現代製造技術教育部重點實驗室,貴州 貴陽550025;2.貴州大學 機械工程學院,貴州 貴陽550025)

隨著製造業與物聯網、雲計算、互聯網等資訊技術的融合與發展,製造業已進入了大資料時代,

在大資料環境下,製造技術將發生巨大的進步與改革。從大資料下的製造業資料特點出發,勾畫了製造業的大資料技術架構,並重點分析了大資料下製造業的五大關鍵技術,即資料集成技術、資料存儲技術、資料處理技術、資料分析技術以及資料展現技術,為製造業大資料的發展提供參考。

製造業;大數據;智慧製造;Hadoop

中圖分類號:TP391

文獻標識碼:A

DOI:10.16157/j.issn.0258-7998.2017.02.002

中文引用格式:李少波,

陳永前. 大資料環境下製造業關鍵技術分析[J].電子技術應用,2017,43(2):18-21,25.

英文引用格式:Li Shaobo,Chen Yongqian. Analysis on key technologies of manufacturing industry in big data environment[J].Application of Electronic Technique,2017,43(2):18-21,25.

0 引言

大資料(Big Data)這一概念的提出最早可以追溯到上世紀80年代[1],當時並沒有得到人們的關注。直到2008年,著名雜誌Nature出版了專刊《Big Data:Science in the Petabyte Era》[2],從經濟學、互聯網技術、環境科學等多個領域介紹海量資料帶來的挑戰。從此大資料一詞被廣泛傳播,受到了各個國家、政府及各界的廣泛關注與研究,並在IT、金融、互聯網等行業得到了較大的發展與利用[3]。

製造業作為國家經濟支柱性產業,是我國綜合國力的表現,充分地應用和挖掘製造業中的資料逐漸成為行業研究和討論的熱點[4]。製造業具有地理分佈廣泛,製造類型多,製造過程複雜多樣,涉及領域廣等眾多特點,是人類社會中最複雜的行業之一,這決定了製造業將產生龐大的資料量,且有著類型豐富、結構多樣、增長速度快等特點,

是一個典型的行業大資料體現,以一個的典型的紡織製造企業來說,光是一個製造車間一天的資料量都將達到84 GB[5]。在製造業這種龐大的資料量與爆炸式的增長新形勢下,傳統的製造業技術將不再夠用,不能滿足製造行業從海量資料中快速獲取知識與資訊的需求。因此,在大資料環境下,製造技術將發生巨大的進步與改革。

1 大資料下的製造業資料特點

1.1 大資料下的製造業資料來源

大資料不僅僅是一種資料處理技術,而是一種總體視角的體現,是一種綜合關聯性分析,發現具有潛在聯繫之間的相關性,如將大資料單獨割裂來看,則大資料的大價值無從體現[6]。因此在進行製造業大資料分析時,必須全面地考慮製造業的資料來源。在互聯網、物聯網、移動互聯等技術快速發展的今天,製造業的資料來源不僅包括了產品設計與開發、產品加工與設備運行、倉庫管理等行業資料,

同時還包含了市場、客戶關係、政府計畫、互聯網等外部資料。製造業大資料來源如圖1所示。

1.2 大資料下的製造業資料特點

“大資料”一詞在業界都被普遍認為有著“3V”特徵[7],即Volume(容量大)、Variety(種類多)、Velocity(速度快)。在製造業具有十分強的專業性、時序性、關聯性、流程性等特點情況下,不僅擁有大資料的“3V”特徵,而且還有以下特徵[8-9]:(1)強相關與高維度性。製造業各個資料間往往相互關聯相互耦合,從而構成一個複雜多變數的高維系統。(2)強烈的非線性。在產品的生產過程中的許多物理和化學變化都表現為不可測的、非線性的。(3)高雜訊。互聯網大資料主要在乎資料的統計顯著性,對資料噪音並沒有太大的要求,而對於製造業,只要出現一點差錯,都會造成巨大的損失,因此資料的高噪音是製造業大資料不可忽視的。

2 製造業的大資料技術架構

製造業的大資料分析平臺是根據業務的需求逐步勾畫出來的[10]。針對製造業大資料的業務特點,製造業大資料平臺在功能上應滿足多種類型資料的採集與導入,能存儲海量的、多樣的、多類型的製造業大資料,支援多種類型的資料分析方法和資料展示方法。從性能方面考慮,製造業大資料平臺總架構應滿足可擴展性、高錯容性與可靠性、即時性、較好的安全性以及低成本等要求[11]。

在製造過程中,對大資料的即時分析與處理,對製造過程的即時決策及即時控制,是企業生產安全有序進行、及時決策、提高效率、減少損失的重要保障[12]。另一方面,製造業是一個高維非線性的複雜性行業,一個普通的製造企業,其內部就包含著許多子系統,例如製造執行系統(MES)、企業資源計畫(ERP)、產品資料管理(PDM)等。每一個子系統往往又包含著許多業務流程,產生著大量的資料,甚至可以單獨構成一個領域的大資料,例如供應鏈管理大資料就是大資料在供應鏈的一個應用[13]。

綜上,根據製造業實際需求和業務狀況相結合,勾畫出製造業大資料技術架構如圖2所示。在該架構中,系統先將各種來源的資料進行集成處理,再根據對各部分資料的要求與特點選擇不同的處理方式,並根據業務的需求進行分析,最後用不同的資料展現方式將資訊傳達給各個應用系統。

3 大資料下的製造業關鍵技術

3.1 大資料集成技術

資料集成技術就是把不同來源、格式、特點、性質的資料在邏輯上或者物理上有機地集中,為系統存儲一系列面向主題的、相對穩定的、反映歷史變化的資料集合,從而為系統提供全面的資料共用[14]。大資料的集成技術是解決製造企業各系統間的資料沉餘和“資訊孤島”的重要工具。按照資料集成點不同,可以將其分為源端和應用端資料集成。

(1)源端資料集成。在製造企業中,資料來源十分廣泛,資料格式複雜,不僅有傳統的內部生產資料,還有市場資料、客戶關係資料、價值鏈資料等。面對重多的資料來源和格式,如果直接將其進行大資料分析,不但會導致分析速度的下降,而且還會影響資料分析的品質[15],因此在資料分析前將資料集成為統一格式是製造業大資料分析的重要步驟。源端資料集成如圖3所示。

(2)應用端的資料集成。製造業內部存在許多應用系統,例如生產應用、供應鏈應用、定制應用等,不同的應用系統間往往有不同的資料庫和資料形式,且各個應用系統之間的資料一般只能供自己使用,而這樣就很容易產生資訊孤島。對應用端資料進行集成將會利於各個部門與系統間的資訊共用,避免企業資訊孤島的產生。應用端資料集成如圖4所示。

3.2 大資料存儲技術

大資料下的製造業對資料存儲將面臨著以下挑戰:(1)存儲資料量大,製造業大資料量將達到PB級別甚至更高;(2)製造業大資料來源廣,資料形式和資料結構都比較複雜;(3)滿足資料的完整性;(4)資料讀取和寫入速度應達到業務的需求;(5)具備可擴展性。顯然,傳統的資料庫明顯有點力不從心,製造業大資料的存儲還要尋求新的方法。分散式檔案系統是大資料時代資料存儲最好的工具,比較有代表性的分散式檔案系統當屬Hadoop的HDFS[16]。HDFS是受到Google檔案系統(GFS)的啟發而構建的,有著支援超大檔、低延遲資料訪問、高錯容性、可擴展、可運行在普通機器上等優點[17],HDFS的工作原理如圖5所示[10][18]。

3.3 大資料處理技術

製造業的大資料處理技術主要包含了批次處理、流處理和記憶體計算[19],分別滿足製造業大資料處理的不同需求。

3.3.1 批次處理技術

目前最主流的批次處理技術當屬Google公司在2004年提出的MapReduce分散式運算模式,基於該框架寫出來的應用程式可以在普通機器群集上運行,能夠輕鬆地處理TB級別以上的資料集,且有良好的錯容性。

在MapReduce中,一個計算流程分為map和reduce兩個階段。在map階段,其輸入檔(Input file)往往會被劃分為固定大小的輸入塊(split)。每個塊都會對應著一個map任務,該map任務中的map函數會作用於split中的每一個記錄(record),一個記錄就是一個鍵值對。map任務完成後,其結果(鍵值對)會被進行分區(partition),然後暫時寫入到磁片中,為reduce階段做準備。在reduce階段,map階段的每個partition都會被分配至某個reduce任務,等到reduce階段處理完成後,其結果將會被存入到分散式檔案系統(HDFS)中。MapReduce整個處理流程如圖6所示[12]。

3.3.2 流處理技術

批次處理技術對大批量靜態的資料處理是有效的,然而在製造企業中,不光要處理大批量的靜態資料,而且還要處理像生產監控資料、故障警報資料等動態和大批量小資料。

流處理(Stream Computing)技術對這種資料的處理往往是非常有效的[20]。當有資料到來時,流處理工具就應該立刻回應,然後把處理後得到的資訊馬上呈送給使用者或系統,這種資料處理無須資料準備時間,從而有很好的即時性。目前,流處理計算框架主要有:Apache S4、Storm、Scribe、Kafka等,下面用比較主流的S4進行介紹。

S4(Simple Scalable Streaming System)[21-22]是一個分散式流計算模型,S4有著良好的通用性、可擴展性、錯容性等優點。S4在對資料處理時,將資料流程看成是事件(Event)的序列流。每個Event是一個(K,A)元素,通過EventType來標示其類型。K、A分別表示這種類型的 Event的若干個關鍵字和若干個屬性。在這種抽象的基礎上,設計者將Processing Elements(PE)定義為S4中的最小資料計算單元。每個PE只負責處理Event type、屬性Key和屬性Value都匹配的事件,並最終輸出結果或新的(K,A)元素。每個S4都包含有若干個這樣的PE,當資料到來時,便立刻共同作業,完成資料流程的處理。

3.3.3 記憶體計算

記憶體計算技術,就是指CPU直接從記憶體上讀取資料,並進行計算、分析。記憶體計算大大減少了從硬碟讀取資料的時間,是對傳統資料處理模式的一種速度提升。比較有代表性的記憶體計算系統有SAP HANA、Oracle Exadata和IBM pureData。

較批次處理與流處理來說,記憶體計算的最大優勢就在於其處理資料的速度,從而決定了記憶體計算非常適合需要即時獲得結果的資料,是製造業大資料分析和資料處理中的關鍵應用技術之一。 記憶體計算的原理非常簡單,如圖7所示[20]。

3.4 大資料分析技術

大資料技術的根本驅動力是將信號轉化為資料,將資料分析為消息,將消息提煉為知識,以知識促成決策和應用[24]。經過資料的集成與處理後,所得的資料便成為資料分析的原始資料,根據業務的需求與應用,再對資料進一步的分析,最後得到所需要的知識。

傳統意義上的資料分析技術是先將資料進行存儲,然後對資料進行篩選,建立資料中心,在此基礎上建立資料倉庫,再根據業務需求來進行連線分析處理(OLAP)[11]。這種方法對於結構複雜、即時性要求高,分析程度較深的製造業大資料來說是無能為力的。根據製造業大資料的資料特點與業務要求,製造業大資料的資料分析主要面臨的困難是大量非結構化複雜資料分析和即時預測分析。因此可以利用以下思想去解決製造業大資料的分析難題:(1)對資料進行處理。在面臨結構複雜的大資料時,利用粒化思想,將大資料進行粒分,變大資料為小資料後再進行分析;(2)加強對新一代資料分析工具的利用與研究。例如EMC的GreenPlum資料分析工作臺、Teradata的Aster Data平臺等;(3)通過人工智慧和機器學習等技術分析大資料[24]。

3.5 大資料展現技術

製造業的大資料展現技術可以分為製造過程資料展現技術、歷史資料展現技術及視覺化技術。

製造過程資料展現技術是製造業大資料展現技術的關鍵部分。隨著制造物聯的快速發展,製造企業會產生大量生產現場即時資料,如果將這些即時資料即時展現出來,那麼就可以清晰地瞭解到生產現場的即時變化情況,這樣不僅提高了企業的生產效率,而且能完善企業的資源配置,是實現智慧生產的重要步驟。

歷史資料展現技術主要體現在製造業對歷史資料的管理和展示上,這裡的歷史資料一般指對即時性要求不是太強的資料,例如企業生產歷史資料、客戶關係資料、競爭對手資料等。企業對歷史資料分析展現,可以繪製出資料的發展趨勢並預測出未來的資料走勢,可以類比歷史重大事件發生與演變,挖掘歷史事件潛在的知識與規律。

資料視覺化技術是指運用電腦圖形學和影像處理技術,將資料轉換為圖形或圖像在螢幕上顯示出來,並進行交互處理的方法和技術[25]。製造業的複雜性、多系統性決定了資料的分析結果會呈現出多維的特點。資料視覺化技術正是解決這一系列問題的,它以一種簡單易懂的方式將複雜的資料呈現給我們,不僅讓我們更容易去理解資料,而且對發現資料中新的資訊也起到非常關鍵的作用。目前常見的視覺化技術有Tag cloud、History flow、Spatial information flow等。

4 結語

“中國製造2025”和德國“工業4.0”紛紛指出智慧製造是製造業未來的發展趨勢,而大資料技術則是助力實現智慧製造不可缺失的一把利劍。將來,製造技術不光是指傳統的機械加工等技術,而是一種集製造業與互聯網、物聯網、移動互聯、大資料、雲計算等資訊技術為一體的新局面,這是製造業智慧化、綠色化的必要前提。大資料技術已廣泛使用在互聯網、電商、金融等行業,並創造了較大的商業價值,然而對於製造業來說,乃處在起步甚至是研究階段。因此,大力發展製造業大資料技術,挖掘製造業大資料的最大價值,促進製造業的轉型升級將是製造企業下一階段的重要任務與課題。

參考文獻

[1] 迪莉婭.我國大資料產業發展研究[J].科技進步與對策,2014,31(4):56-60.

[2] MANYIKA J,CHUI M,BROWN B,et al.Big data:the next frontier for innovation,competition,and productivity[M].New York:Mc Kinse & Company,2011.

[3] EKBLA H,MATTLOLL M,KOUPER I.Big Data,Bigger Dilemmas:A Critical Review[J].Journal of the Association for Information Science and Technology,2015(8).

[4] 王冰.大型流程工業集團級生產資料平臺的應用探討[J].科技與企業,2014(1):129-130.

[5] 邵景鋒,賀興時,王進富,等.大資料環境下的紡織製造執行系統設計[J].機械工程學報,2015(5):160-170.

[6] 中國電機工程學會資訊化專委會.中國電力大資料發展白皮書[M].北京:中國電力出版社,2013(11).

[7] Bello-Orgaz G,JUNG J J,CAMACHO D.Social big data:Recent achievements and new challenges[J].Information Fusion,2015(8).

[8] 楊水利,梁永康.製造企業服務化轉型影響因素紮根研究[J].科技進步與對策,2016,33(8):101-105.

[9] KRUMEICH J,SCHIMMELPFENNIG J,JACOBI S.Advanced planning and control of manufacturing processes in steel industy though Big Data analytics[J].2014 IEEE International Conference on Big Data:2014.

[10] 趙剛.大資料技術與實踐指南[M].北京:電子工業出版社,2013.

[11] 王淑芬.基於大資料的製造運行監測與分析平臺研究[D].廣州:廣東工業大學,2014.

[12] 楊正益.制造物聯海量即時資料處理方法研究[D].重慶:重慶大學,2012.

[13] 郭偉.大資料及其在供應鏈中的應用.供應鏈管理[J].2015(5):200-220.

[14] 彭小聖,鄧迪元,程時傑,等.面向智慧電網應用的電力大資料關鍵技術[J].中國電機工程學報,2015(2):503-511.

[15] 樓巍.面向大資料的高維資料採擷技術研究[D].上海:上海大學,2013.

[16] Apache.HDFS Architecture.http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/Hdfs Design.html#Introduction.

[17] 蔡斌,陳湘萍.Hadoop技術內幕:深入解析Hadoop Common和HDFS架構設計與實現原理[M].北京:機械工業出版社,2013.

[18] WHITE T.Hadoop:The Definitive Guide[M].O’Reilly Media,Inc,1005 Gravenstein Highway North,Sebastopol,CA95472,2009(7).

[19] KUMAR R.Two computational paradigm for big data[EB/OL].2012,http://kdd2012.sigkdd.org/sites/images/summerschool/Ravi-Kumar.pdf.

[20] 徐飛.大資料流程的即時處理研究[D].無錫:江南大學,2014.

[21] 崔星燦,禹曉輝,劉洋,等.分散式流處理技術綜述[J].電腦研究與發展,2015,52(2):318-332.

[22] Aga.J.Yahoo!S4分散式流處理引擎分析總結[EB/OL].http://www.cnblogs.com/aga-j/archive/2012/02/03/233-7151.html.2012(2).

[23] 孫柏林.“大資料”技術及其在電力行業中的應用[J].電氣時代,2013(8):18-23.

[24] 工業和資訊化部電信研究院.大資料白皮書(2014年)[R].工業和資訊化部電信研究院,2014(5).

[25] 唐澤聖,陳莉,鄧俊輝.三維數據場視覺化[M].北京:清華大學出版社,1999:1-6.

不僅擁有大資料的“3V”特徵,而且還有以下特徵[8-9]:(1)強相關與高維度性。製造業各個資料間往往相互關聯相互耦合,從而構成一個複雜多變數的高維系統。(2)強烈的非線性。在產品的生產過程中的許多物理和化學變化都表現為不可測的、非線性的。(3)高雜訊。互聯網大資料主要在乎資料的統計顯著性,對資料噪音並沒有太大的要求,而對於製造業,只要出現一點差錯,都會造成巨大的損失,因此資料的高噪音是製造業大資料不可忽視的。

2 製造業的大資料技術架構

製造業的大資料分析平臺是根據業務的需求逐步勾畫出來的[10]。針對製造業大資料的業務特點,製造業大資料平臺在功能上應滿足多種類型資料的採集與導入,能存儲海量的、多樣的、多類型的製造業大資料,支援多種類型的資料分析方法和資料展示方法。從性能方面考慮,製造業大資料平臺總架構應滿足可擴展性、高錯容性與可靠性、即時性、較好的安全性以及低成本等要求[11]。

在製造過程中,對大資料的即時分析與處理,對製造過程的即時決策及即時控制,是企業生產安全有序進行、及時決策、提高效率、減少損失的重要保障[12]。另一方面,製造業是一個高維非線性的複雜性行業,一個普通的製造企業,其內部就包含著許多子系統,例如製造執行系統(MES)、企業資源計畫(ERP)、產品資料管理(PDM)等。每一個子系統往往又包含著許多業務流程,產生著大量的資料,甚至可以單獨構成一個領域的大資料,例如供應鏈管理大資料就是大資料在供應鏈的一個應用[13]。

綜上,根據製造業實際需求和業務狀況相結合,勾畫出製造業大資料技術架構如圖2所示。在該架構中,系統先將各種來源的資料進行集成處理,再根據對各部分資料的要求與特點選擇不同的處理方式,並根據業務的需求進行分析,最後用不同的資料展現方式將資訊傳達給各個應用系統。

3 大資料下的製造業關鍵技術

3.1 大資料集成技術

資料集成技術就是把不同來源、格式、特點、性質的資料在邏輯上或者物理上有機地集中,為系統存儲一系列面向主題的、相對穩定的、反映歷史變化的資料集合,從而為系統提供全面的資料共用[14]。大資料的集成技術是解決製造企業各系統間的資料沉餘和“資訊孤島”的重要工具。按照資料集成點不同,可以將其分為源端和應用端資料集成。

(1)源端資料集成。在製造企業中,資料來源十分廣泛,資料格式複雜,不僅有傳統的內部生產資料,還有市場資料、客戶關係資料、價值鏈資料等。面對重多的資料來源和格式,如果直接將其進行大資料分析,不但會導致分析速度的下降,而且還會影響資料分析的品質[15],因此在資料分析前將資料集成為統一格式是製造業大資料分析的重要步驟。源端資料集成如圖3所示。

(2)應用端的資料集成。製造業內部存在許多應用系統,例如生產應用、供應鏈應用、定制應用等,不同的應用系統間往往有不同的資料庫和資料形式,且各個應用系統之間的資料一般只能供自己使用,而這樣就很容易產生資訊孤島。對應用端資料進行集成將會利於各個部門與系統間的資訊共用,避免企業資訊孤島的產生。應用端資料集成如圖4所示。

3.2 大資料存儲技術

大資料下的製造業對資料存儲將面臨著以下挑戰:(1)存儲資料量大,製造業大資料量將達到PB級別甚至更高;(2)製造業大資料來源廣,資料形式和資料結構都比較複雜;(3)滿足資料的完整性;(4)資料讀取和寫入速度應達到業務的需求;(5)具備可擴展性。顯然,傳統的資料庫明顯有點力不從心,製造業大資料的存儲還要尋求新的方法。分散式檔案系統是大資料時代資料存儲最好的工具,比較有代表性的分散式檔案系統當屬Hadoop的HDFS[16]。HDFS是受到Google檔案系統(GFS)的啟發而構建的,有著支援超大檔、低延遲資料訪問、高錯容性、可擴展、可運行在普通機器上等優點[17],HDFS的工作原理如圖5所示[10][18]。

3.3 大資料處理技術

製造業的大資料處理技術主要包含了批次處理、流處理和記憶體計算[19],分別滿足製造業大資料處理的不同需求。

3.3.1 批次處理技術

目前最主流的批次處理技術當屬Google公司在2004年提出的MapReduce分散式運算模式,基於該框架寫出來的應用程式可以在普通機器群集上運行,能夠輕鬆地處理TB級別以上的資料集,且有良好的錯容性。

在MapReduce中,一個計算流程分為map和reduce兩個階段。在map階段,其輸入檔(Input file)往往會被劃分為固定大小的輸入塊(split)。每個塊都會對應著一個map任務,該map任務中的map函數會作用於split中的每一個記錄(record),一個記錄就是一個鍵值對。map任務完成後,其結果(鍵值對)會被進行分區(partition),然後暫時寫入到磁片中,為reduce階段做準備。在reduce階段,map階段的每個partition都會被分配至某個reduce任務,等到reduce階段處理完成後,其結果將會被存入到分散式檔案系統(HDFS)中。MapReduce整個處理流程如圖6所示[12]。

3.3.2 流處理技術

批次處理技術對大批量靜態的資料處理是有效的,然而在製造企業中,不光要處理大批量的靜態資料,而且還要處理像生產監控資料、故障警報資料等動態和大批量小資料。

流處理(Stream Computing)技術對這種資料的處理往往是非常有效的[20]。當有資料到來時,流處理工具就應該立刻回應,然後把處理後得到的資訊馬上呈送給使用者或系統,這種資料處理無須資料準備時間,從而有很好的即時性。目前,流處理計算框架主要有:Apache S4、Storm、Scribe、Kafka等,下面用比較主流的S4進行介紹。

S4(Simple Scalable Streaming System)[21-22]是一個分散式流計算模型,S4有著良好的通用性、可擴展性、錯容性等優點。S4在對資料處理時,將資料流程看成是事件(Event)的序列流。每個Event是一個(K,A)元素,通過EventType來標示其類型。K、A分別表示這種類型的 Event的若干個關鍵字和若干個屬性。在這種抽象的基礎上,設計者將Processing Elements(PE)定義為S4中的最小資料計算單元。每個PE只負責處理Event type、屬性Key和屬性Value都匹配的事件,並最終輸出結果或新的(K,A)元素。每個S4都包含有若干個這樣的PE,當資料到來時,便立刻共同作業,完成資料流程的處理。

3.3.3 記憶體計算

記憶體計算技術,就是指CPU直接從記憶體上讀取資料,並進行計算、分析。記憶體計算大大減少了從硬碟讀取資料的時間,是對傳統資料處理模式的一種速度提升。比較有代表性的記憶體計算系統有SAP HANA、Oracle Exadata和IBM pureData。

較批次處理與流處理來說,記憶體計算的最大優勢就在於其處理資料的速度,從而決定了記憶體計算非常適合需要即時獲得結果的資料,是製造業大資料分析和資料處理中的關鍵應用技術之一。 記憶體計算的原理非常簡單,如圖7所示[20]。

3.4 大資料分析技術

大資料技術的根本驅動力是將信號轉化為資料,將資料分析為消息,將消息提煉為知識,以知識促成決策和應用[24]。經過資料的集成與處理後,所得的資料便成為資料分析的原始資料,根據業務的需求與應用,再對資料進一步的分析,最後得到所需要的知識。

傳統意義上的資料分析技術是先將資料進行存儲,然後對資料進行篩選,建立資料中心,在此基礎上建立資料倉庫,再根據業務需求來進行連線分析處理(OLAP)[11]。這種方法對於結構複雜、即時性要求高,分析程度較深的製造業大資料來說是無能為力的。根據製造業大資料的資料特點與業務要求,製造業大資料的資料分析主要面臨的困難是大量非結構化複雜資料分析和即時預測分析。因此可以利用以下思想去解決製造業大資料的分析難題:(1)對資料進行處理。在面臨結構複雜的大資料時,利用粒化思想,將大資料進行粒分,變大資料為小資料後再進行分析;(2)加強對新一代資料分析工具的利用與研究。例如EMC的GreenPlum資料分析工作臺、Teradata的Aster Data平臺等;(3)通過人工智慧和機器學習等技術分析大資料[24]。

3.5 大資料展現技術

製造業的大資料展現技術可以分為製造過程資料展現技術、歷史資料展現技術及視覺化技術。

製造過程資料展現技術是製造業大資料展現技術的關鍵部分。隨著制造物聯的快速發展,製造企業會產生大量生產現場即時資料,如果將這些即時資料即時展現出來,那麼就可以清晰地瞭解到生產現場的即時變化情況,這樣不僅提高了企業的生產效率,而且能完善企業的資源配置,是實現智慧生產的重要步驟。

歷史資料展現技術主要體現在製造業對歷史資料的管理和展示上,這裡的歷史資料一般指對即時性要求不是太強的資料,例如企業生產歷史資料、客戶關係資料、競爭對手資料等。企業對歷史資料分析展現,可以繪製出資料的發展趨勢並預測出未來的資料走勢,可以類比歷史重大事件發生與演變,挖掘歷史事件潛在的知識與規律。

資料視覺化技術是指運用電腦圖形學和影像處理技術,將資料轉換為圖形或圖像在螢幕上顯示出來,並進行交互處理的方法和技術[25]。製造業的複雜性、多系統性決定了資料的分析結果會呈現出多維的特點。資料視覺化技術正是解決這一系列問題的,它以一種簡單易懂的方式將複雜的資料呈現給我們,不僅讓我們更容易去理解資料,而且對發現資料中新的資訊也起到非常關鍵的作用。目前常見的視覺化技術有Tag cloud、History flow、Spatial information flow等。

4 結語

“中國製造2025”和德國“工業4.0”紛紛指出智慧製造是製造業未來的發展趨勢,而大資料技術則是助力實現智慧製造不可缺失的一把利劍。將來,製造技術不光是指傳統的機械加工等技術,而是一種集製造業與互聯網、物聯網、移動互聯、大資料、雲計算等資訊技術為一體的新局面,這是製造業智慧化、綠色化的必要前提。大資料技術已廣泛使用在互聯網、電商、金融等行業,並創造了較大的商業價值,然而對於製造業來說,乃處在起步甚至是研究階段。因此,大力發展製造業大資料技術,挖掘製造業大資料的最大價值,促進製造業的轉型升級將是製造企業下一階段的重要任務與課題。

參考文獻

[1] 迪莉婭.我國大資料產業發展研究[J].科技進步與對策,2014,31(4):56-60.

[2] MANYIKA J,CHUI M,BROWN B,et al.Big data:the next frontier for innovation,competition,and productivity[M].New York:Mc Kinse & Company,2011.

[3] EKBLA H,MATTLOLL M,KOUPER I.Big Data,Bigger Dilemmas:A Critical Review[J].Journal of the Association for Information Science and Technology,2015(8).

[4] 王冰.大型流程工業集團級生產資料平臺的應用探討[J].科技與企業,2014(1):129-130.

[5] 邵景鋒,賀興時,王進富,等.大資料環境下的紡織製造執行系統設計[J].機械工程學報,2015(5):160-170.

[6] 中國電機工程學會資訊化專委會.中國電力大資料發展白皮書[M].北京:中國電力出版社,2013(11).

[7] Bello-Orgaz G,JUNG J J,CAMACHO D.Social big data:Recent achievements and new challenges[J].Information Fusion,2015(8).

[8] 楊水利,梁永康.製造企業服務化轉型影響因素紮根研究[J].科技進步與對策,2016,33(8):101-105.

[9] KRUMEICH J,SCHIMMELPFENNIG J,JACOBI S.Advanced planning and control of manufacturing processes in steel industy though Big Data analytics[J].2014 IEEE International Conference on Big Data:2014.

[10] 趙剛.大資料技術與實踐指南[M].北京:電子工業出版社,2013.

[11] 王淑芬.基於大資料的製造運行監測與分析平臺研究[D].廣州:廣東工業大學,2014.

[12] 楊正益.制造物聯海量即時資料處理方法研究[D].重慶:重慶大學,2012.

[13] 郭偉.大資料及其在供應鏈中的應用.供應鏈管理[J].2015(5):200-220.

[14] 彭小聖,鄧迪元,程時傑,等.面向智慧電網應用的電力大資料關鍵技術[J].中國電機工程學報,2015(2):503-511.

[15] 樓巍.面向大資料的高維資料採擷技術研究[D].上海:上海大學,2013.

[16] Apache.HDFS Architecture.http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/Hdfs Design.html#Introduction.

[17] 蔡斌,陳湘萍.Hadoop技術內幕:深入解析Hadoop Common和HDFS架構設計與實現原理[M].北京:機械工業出版社,2013.

[18] WHITE T.Hadoop:The Definitive Guide[M].O’Reilly Media,Inc,1005 Gravenstein Highway North,Sebastopol,CA95472,2009(7).

[19] KUMAR R.Two computational paradigm for big data[EB/OL].2012,http://kdd2012.sigkdd.org/sites/images/summerschool/Ravi-Kumar.pdf.

[20] 徐飛.大資料流程的即時處理研究[D].無錫:江南大學,2014.

[21] 崔星燦,禹曉輝,劉洋,等.分散式流處理技術綜述[J].電腦研究與發展,2015,52(2):318-332.

[22] Aga.J.Yahoo!S4分散式流處理引擎分析總結[EB/OL].http://www.cnblogs.com/aga-j/archive/2012/02/03/233-7151.html.2012(2).

[23] 孫柏林.“大資料”技術及其在電力行業中的應用[J].電氣時代,2013(8):18-23.

[24] 工業和資訊化部電信研究院.大資料白皮書(2014年)[R].工業和資訊化部電信研究院,2014(5).

[25] 唐澤聖,陳莉,鄧俊輝.三維數據場視覺化[M].北京:清華大學出版社,1999:1-6.