在大資料時代,如何做元資料管理、資料整合、資料治理和資料質量管控?

在大資料時代,如何做元資料管理、資料整合、資料治理和資料質量管控?資料社DataClub2020-05-09 23:37:24

資料質量監控背景

當我們把資料匯入資料倉庫時,ETL中的每個步驟中都可能會遇到資料質量錯誤。比如與源系統的連線錯誤,抽取資料可能會失敗。由於記錄型別衝突,資料轉換可能會失敗。即使的ETL任務成功,提取的記錄中也會出現異常值,導致後續過程報錯。

那麼如何主動捕獲這些錯誤,並確保資料倉庫中的資料質量?

接下來,我們來總結5條規則,在做ETL的過程中,使用這些規則來確保資料倉庫中的資料質量。

資料質量監控方法

1、校驗每天的記錄數

分析師遇到的最常見資料異常是其報告的輸出突然降至0。

我們通常會發現最後的罪魁禍首是當天沒有將新記錄新增到相應的表中。

一種簡單的檢查方法是確保每天一個表中的新記錄數>0。

2、NULL和0值校驗

分析師常遇到的第二個問題是NULL或0值。我們要保證每天增量資料中的NULL或0值不能超過新增資料的99%。要檢查這一點,只需將一個迴圈指令碼設定為每天用NULL或0計數一個表中的新記錄數。如果看到記錄數急劇增加,則可能存在轉換錯誤或源業務系統就存在異常。

3、每天新增的記錄數波動範圍

某一天你發現數據量出現大幅增長或下降,而規則1和2都已校驗透過。這種波動可能是正常的,比如電商行業某天的大促活動,或者社交軟體的營銷活動。但是也可能這就是異常的,是因為從源系統抽取了重複的記錄。所以針對此種情況,我們也要制定資料質量規則,檢查這些波動何時發生,並主動進行診斷。比如自動執行的一個簡單的SQL過程,每天檢查COUNT個新記錄是否在7天跟蹤平均值的誤差範圍內。閾值和誤差範圍可能因公司和產品而異,經驗值一般是加減25%。當然,你可也可以直接和前一天的資料對比,增量不超過前一天的1倍。

4、重複記錄資料校驗

不管是電商系統或者是社交系統或者是物聯網裝置上報的資料,正常情況下都不會出現兩條完全一樣的記錄(包括ID,時間,值都一樣)。筆者曾遇到一個終端上報的兩條資料完全一樣的場景,導致我在做時間分段時候,劃分不正確。所以,對資料值唯一性校驗是有必要的。

5、資料時間校驗

一般我們業務系統的資料都是帶有時間戳的,這個時間戳肯定比當前的時間要小。但是由於採集資料裝置異常(業務系統異常),我們會碰到“未來時間”的資料,那如果我們以時間作為分割槽,後期可能就會出現異常的分析結果。當然,如果你的公司業務是跨國的,你需要考慮時差因素。

總結

這些只是我們維護資料倉庫時遇到的最常見的5個錯誤。可以將上述規則作一個checklist,做成任務每天例行檢查。出現以上問題是對ETL任務進行告警,並人工干預。每週或者沒有彙總質量報告,和團隊小夥伴或者業務側一起制定解決方案,不斷完善監控體系,只有這樣才能保證我們的業務分析結果是準確的,才能指導公司做出正確的決策。

當然,對於企業級資料質量監控系統,這些事遠遠不夠的,不同公司面臨的困難不一樣,方法也不一樣,可以參考業務的一些建議,制定自己的一套資料質量監控方案,這樣才能更好的落地實施。

歡迎關注我的公眾號:資料社

在大資料時代,如何做元資料管理、資料整合、資料治理和資料質量管控?數通暢聯2019-06-20 11:06:38

隨著時代的發展,企業的不斷壯大,在資料量井噴、各個應用口漸深入的背景下,越來越多的領域開始應用大資料來創造價值,為了合理有效的挖掘資料所帶來的價值,首先需要進行全面的資料治理,具體內容包括:元資料管理、資料整合、資料治理和資料質量管控等一系列手段,從而保證資料的一致性,完整性,準確性。

從資料治理定義角度來看,為對資料資產管理行使權力和控制的活動集合,是從元資料、主資料、資料標準、資料質量再到資料處理、資料交換和資料許可權,為企業提供一站式解決方案,打通資料治理全流程。其中元資料管理、資料整合、質量管控佔有重要的作用。

1。元資料管理主要為元資料的整合、控制以及提供元資料,透過採集彙總企業系統資料屬性的資訊,幫助各行各業使用者獲得更好的資料洞察力,透過元資料之間的關係和影響挖掘隱藏在資源中的價值。

2。資料整合是將企業各個業務系統的資料進行統一整合,企業資料來源是各個業務系統或手工資料,這些資料的格式、內容等都有可能不同,透過ESB資料服務匯流排進行資料抽取轉換,資料整合對接和同步分發等操作,遮蔽系統間的資料異構性,保證各個業務系統之間資料的有效傳輸。

3。資料質量管理是進行定義、監控和提高資料質量。通常會使用MDM主資料管理平臺進行資料清洗,資料巡檢,資料監控等手段來進行資料質量的把控與提升,幫助企業獲得統一的、規範的高質量資料,以便於後續在此基礎上進行資料探勘、資料分析等建設。

綜上,企業內的資料種類繁多、形式各異,如何集中管理,如何提供便捷的使用方式,成為發揮企業資訊資產價值的關鍵,也是目前大多數企業提升核心價值的必要手段,而過程中一定會需要元資料管理、資料整合、資料質量管理等手段幫助企業治理、展現繁雜的資料資訊,有效挖掘企業資訊的潛在價值。

在大資料時代,如何做元資料管理、資料整合、資料治理和資料質量管控?手機使用者770509914662018-11-02 15:40:03

你可以看看SaCa DataQuality,輔助發現問題,並提供改進指導這點上做的不錯,具體網站有介紹:https://platform。neusoft。com/,是東軟的一個產品。