將多個資料來源中的資料結合起來存放在一個一致的資料存儲(如資料倉庫)中
資料來源包括:多個資料庫、資料立方體和一般的檔
資料集成也是資料倉庫建設中的一個重要問題
資料集成的內容模式集成和物件匹配
利用資料庫和資料倉庫的中繼資料資訊
主要工作是識別現實世界中的實體定義
冗餘數據的處理
數值衝突的檢測和解決
對於現實世界中的同一實體, 來自於不同資料來源的屬性值可能不同
主要原因:不同的資料表示、度量單位、編碼方式以及語義的不同
來自多個資訊源的現實世界的等價實體的匹配,
涉及實體識別問題。
比如, 如何判斷一個資料庫中的User_ID和另一個資料庫中的User_NO是否是相同的屬性
冗餘數據的處理
冗餘數據的處理
數值衝突的檢測和解決資料類型衝突
性別:string(Male、Female)、Char(M、F)、Interger(0、1)
日期:Date、DateTime、String
資料標籤衝突:解決同名異義、異名同義
學生成績、分數
度量單位衝突
學生成績
百分制:100 ~ 0
五分制: A 、B、C、D、E
字元表示:優、良、及格、不及格
概念不清
最近交易額:前一個小時、昨天、本周、本月?
聚集衝突:根源在於表結構的設計