您的位置:首頁>科技>正文

常用資料採擷演算法從入門到精通 第一章資料預處理(3)資料集成

資料集成的概念

將多個資料來源中的資料結合起來存放在一個一致的資料存儲(如資料倉庫)中

資料來源包括:多個資料庫、資料立方體和一般的檔

資料集成也是資料倉庫建設中的一個重要問題

資料集成的內容

模式集成和物件匹配

利用資料庫和資料倉庫的中繼資料資訊

主要工作是識別現實世界中的實體定義

冗餘數據的處理

數值衝突的檢測和解決

對於現實世界中的同一實體, 來自於不同資料來源的屬性值可能不同

主要原因:不同的資料表示、度量單位、編碼方式以及語義的不同

模式集成和物件匹配

來自多個資訊源的現實世界的等價實體的匹配, 涉及實體識別問題。

比如, 如何判斷一個資料庫中的User_ID和另一個資料庫中的User_NO是否是相同的屬性

冗餘數據的處理

冗餘數據的處理

數值衝突的檢測和解決

資料類型衝突

性別:string(Male、Female)、Char(M、F)、Interger(0、1)

日期:Date、DateTime、String

資料標籤衝突:解決同名異義、異名同義

學生成績、分數

度量單位衝突

學生成績

百分制:100 ~ 0

五分制: A 、B、C、D、E

字元表示:優、良、及格、不及格

概念不清

最近交易額:前一個小時、昨天、本周、本月?

聚集衝突:根源在於表結構的設計

Next Article
喜欢就按个赞吧!!!
点击关闭提示