• <p id="qu43u"><strong id="qu43u"></strong></p>

  • <p id="qu43u"><strong id="qu43u"></strong></p>
  • <track id="qu43u"></track>

  • 一文了解數據治理全知識體系!

    0
    2022-04-27 來源:CDO之家
    在業界,大家都為如何做好數據治理而感到困惑。數據治理工作一定要先摸清楚數據的家底,規劃好路線圖,再進行決策。
    本文從數據治理的誤區、元數據管理、數據質量管理、數據資產管理等4個方面整理出數據治理的一套經驗總結,給予數據治理相關工作的同仁們一些借鑒參考。
     
    01 數據治理有哪些誤區?
     
    大數據時代,數據成為社會和組織的寶貴資產,像工業時代的石油和電力一樣驅動萬物,然而如果石油的雜質太多,電流的電壓不穩,數據的價值豈不是大打折扣,甚至根本不可用,不敢用,因此,數據治理是大數據時代我們用好海量數據的必然選擇。
    但大家都知道,數據治理是一項長期而繁雜的工作,可以說是大數據領域中的臟活累活,很多時候數據治理廠商做了很多工作,但客戶卻認為沒有看到什么成果。大部分數據治理咨詢項目都能交上一份讓客戶足夠滿意的答卷,但是當把咨詢成果落地到實處的時候,因為種種原因,很可能是另一番截然不同的風景。如何避免這種情況發生,是每一個做數據治理的企業都值得深思的問題。
    可以說在業界,大家都為如何做好數據治理而感到困惑。
    筆者涉獵大數據治理領域有6年多的時間,負責過政府、軍工、航空、大中型制造企業的數據治理項目。在實踐當中有過成功的經驗,當然也經歷過很多失敗的教訓,在這些過程中,筆者一直在思考大數據治理究竟是在治理什么?要達到什么樣的合理目標?中間應該怎么避免走一些彎路?下面是筆者曾經趟過的坑,希望對大家有一些借鑒意義。

    誤區一:客戶需求不明確
    客戶既然請廠商來幫助自己做數據治理,必定是看到了自己的數據存在種種問題。但是做什么,怎么做,做多大的范圍,先做什么后做什么,達到什么樣的目標,業務部門、技術部門、廠商之間如何配合做……很多客戶其實并沒有想清楚自已真正想解決的問題。數據治理,難在找到一個切入點。
    以筆者的經驗來看,如果客戶暫時想不清楚需求,建議先請廠商幫助自己做一個小型的咨詢項目,通過專業的團隊,大家一起找到切入點。這個咨詢項目工作的重點應該是數據現狀的調研。通過調研數據架構、現有的數據標準和執行情況,數據質量的現狀和痛點,客戶目前已經具有的數據治理能力現狀等,來摸清楚數據的家底。
    在摸清家底的基礎上,由專業的數據治理團隊幫助客戶設計切實可行的數據治理路線圖,雙方取得一致的基礎上,按照路線圖來執行數據治理工作。
    其實客戶很多時候并不是沒需求,只是需求相對比較籠統,模糊不清晰,雙方可以花費一定的時間和精力找到真正目標,磨刀不誤砍柴工,這樣才不致于后續花更多的錢來交學費。
    總結:數據治理工作,一定要先摸清楚數據的家底,規劃好路線圖,切忌一上來就搭平臺。

    誤區二:數據治理是技術部門的事
    在大數據時代,很多組織認識到了數據的價值,也成立了專門的團隊來負責管理數據,有的叫數據管理處,有的叫大數據中心,有的叫數據應用處,名稱不一而足。這些機構往往由技術人員組成,本身的定位也屬于技術部門,它們的共同點是:強技術,弱業務。當數據治理項目需要實施的時候,往往就是由這些技術部門來牽頭。技術部門大多是以數據中心或者大數據平臺為出發點,受限于組織范圍,不希望擴大到業務系統,只希望把自已負責的范圍管好。
    數據問題產生的原因,往往是業務>技術??梢哉f大部分的數據質量問題,都是來自于業務,如:數據來源渠道多,責任不明確,導致同一份數據在不同的信息系統有不同的表述;業務需求不清晰,數據填報不規范或缺失,等等。很多表面上的技術問題,如ETL過程中某代號變更導致數據加工出錯,影響報表中的數據正確性等,在本質上其實還是業務管理的不規范。
    筆者在與很多客戶做數據治理交流的時候,發現大部分客戶認識不到數據質量問題發生的根本原因,只想從技術維度單方面來解決數據問題,這樣的思維方式導致客戶在規劃數據治理的時候,根本沒有考慮到建立一個涵蓋技術組、業務組的強有力的組織架構,能有效執行的制度流程,導致效果大打折扣。
    總結:數據治理既是技術部門的事,更是業務部門的事,一定要建立多方共同參與的組織架構和制度流程,數據治理的工作才能真正落實到人,不至于浮在表面。

    誤區三:大而全的數據治理
    出于投資回報的考慮,客戶往往傾向于做一個覆蓋全業務和技術域的,大而全的數據治理項目。從數據的產生,到數據的加工,應用,銷毀,數據的整個生命周期他們希望都能管到。從業務系統,到數據中心,到數據應用,里面的每個數據他們希望都能被納入到數據治理的范圍中來。
    但殊不知廣義上的數據治理是一個很大的概念,包括很多內容,想在一個項目里就做完通常是不可能的,而是需要分期分批地實施,所以廠商如果屈從于客戶的這種想法,很容易導致最后哪個也做不好,用不起來。所以,我們需要引導客戶,從最核心的系統,最重要的數據開始做數據治理。
    怎么引導客戶呢?這里要引入一個眾所周知的概念:二八原則。實際上,二八原則在數據治理中同樣適用:80%的數據業務,其實是靠20%的數據在支撐;同樣的,80%的數據質量問題,其實是由那20%的系統和人產生的。在數據治理的過程中,如果能找出這20%的數據,和這20%的系統和人,毫無疑問,將會起到事半功倍的效果。
    但如何說服客戶,從最重要的數據開始做起呢?這就是我們在誤區一中談到的:在沒有摸清楚數據的家底之前,切忌貿然動手開始做。通過調研,分析,找出那20%的數據和20%的系統和人,提供真實可靠的分析報告,才有可能打動客戶,讓客戶接受先從核心系統,核心數據開始做起,再漸漸覆蓋到其他領域。
    總結:做數據治理,不要貪大求全,而要從核心系統,重要的數據開始做起。

    誤區四:工具是萬能的
    很多客戶都認為,數據治理就是花一些錢,買一些工具,認為工具就是一個過濾器,過濾器做好了,數據從中間一過,就沒問題了。結果是:一方面功能越做越多,另一方面實際上線后,功能復雜,用戶不愿意用。
    其實上面的想法是一種簡單化的思維,數據治理本身包含很多的內容,組織架構、制度流程、成熟工具、現場實施和運維,這四項缺一不可,工具只是其中一部分內容。大家在做數據治理最容易忽視的就是組織架構和人員配置,但實際上所有的活動流程、制度規范都需要人來執行、落實和推動,沒有對人員的安排,后續工作很難得到保障。
    一方面治理推廣工作沒人做,流程能否堅持執行得不到保障。另一方面沒有相關的數據治理培訓,導致大家對數據治理的工作不重視,認為與我無關,從而導致整個數據治理項目注定會失敗。建議大家在做數據治理的時候將組織架構放在第一位,有組織的存在,就會有人去思考這方面的工作,怎么去推動,持續把事情做好,以人為中心的數據治理工作,才更容易推廣落地。
    有一位國外的數據治理專家說得好,Data Governance is governance of people; Data behaves what people behave。翻譯過來就是:數據治理是對人的行為的治理。對于組織而言,無論是企業還是政府,數據治理實質上是一項覆蓋全員的、有關數據的“變革管理”,會涉及到組織架構,管理流程的變革。
    當然,這是一種理想的狀態。話說回來,我們看看國內的情況,在金融業和一些大的企業,可能會建立專門的組織來負責數據治理工作,但是某些政府和中小型企業,他們出于成本的考慮,往往沒有這方面的預算。這種時候就需要折衷考慮,讓已有崗位上的人,兼職負責數據治理的某個流程或功能。這樣會加大現有崗位人員的工作負擔,但是不失為一種折衷的方式,重點是要責任到人。
    現場的實施和運維也非常重要,盡管數據治理有向自動化的方向發展的趨勢,但是到目前為止,數據治理更多還是一種服務工作,而不僅僅是一套產品。因此,配置足夠強的實施顧問和實施人員,幫助客戶逐步打造自身的數據治理能力,是一項非常重要的工作。
    總結:記住,做數據治理不是去逛逛shopping mall,選幾樣稱心應手的工具回來就萬事大吉了。開展好數據治理不能迷信工具,組織架構、制度流程、現場的實施和運維也非常重要,缺一不可。

    誤區五:數據標準難落地
    很多客戶一說到數據治理,馬上就說我們有很多數據標準,但是這些標準卻統統沒有落地,因此,我們要先做數據標準的落地。數據標準真正落地了,數據質量自然就好了。
    但這種說法其實混淆了數據標準和數據標準化。首先要明白一個道理:數據標準是一定要做的,但是數據標準化,也就是數據標準的落地,則需要分情況實施。
    要做數據標準,我們首先需要全面梳理數據標準。而數據標準的全面梳理,范圍很大,包括國家標準,行業標準,組織內部的標準等等,需要花費很大的精力,甚至都可以單獨立一個項目來做。所以,首先需要讓客戶看到梳理數據標準的廣度和難度。
    其次,就算是花很大精力梳理,也很難看到效果,結果往往是客戶只看到了一堆Word和Excel文檔,時間一長,誰也不會再去關心這些陳舊的文檔。這是最普遍的問題。
    在金融業,或者像國家安全等一些特殊行業,數據標準的執行力度較好,而在普通企業,數據標準基本上就是一種擺設。
    造成這種問題的原因有兩個:
    一是大家對數據標準工作的不重視。
    二是國內的企業做數據標準,動機往往不是為了做好數據治理,而是應付上級檢查,很多都是請咨詢公司,借鑒同行業企業的標準本地化修改而成,一旦咨詢公司撤離,企業本身是沒有數據標準落地的能力的。
    但數據標準的落地,也就是數據標準化,其實一定要注意分情況進行,至少要分兩種情形:
    一類是已經上線運行的系統,對于這部分信息系統,由于歷史原因,很難進行數據標準的落地。因為改造已有系統,除了成本以外,往往還會帶來不可知的巨大風險。
    第二類是對于新上線的系統,是完全可以要求其數據項嚴格按照數據標準落地的。
    當然,數據標準是否能順利落地,還與負責數據治理的部門所獲得的權限直接相關,倘若沒有領導的授權和強力支持,你是無論如何無法推動“書同文車同軌”的,要做到這一點,請先確認你背后站著說一不二的秦始皇,或者你本身就是秦始皇。別抱怨,這就是每個做數據治理的團隊面臨的現狀。
    總結:數據標準落地難是數據治理中的普遍性問題,實施過程中需要區要分遺留系統和新建系統,分別來執行不同的落地策略。

    誤區六:數據質量問題找出來了,然后呢?
    辛辛苦苦建立起來平臺,業務和技術人員通力合作,配置好了數據質量的檢核規則,也找出來了一大堆的數據質量問題,然后呢?半年之后,一年之后,同樣的數據質量問題依舊存在。
    發生這種問題的根源在于沒有形成數據質量問責的閉環。要做到數據質量問題的問責,首先需要做到數據質量問題的定責。定責的基本原則是:誰生產,誰負責。數據是從誰那里出來的,誰負責處理數據質量問題。
    這種閉環不一定非要走線上流程,但是一定要做到每一個問題都有人負責,每一個問題都必須反饋處理方案,處理的效果最好是能夠形成績效評估,如通過排名的方式,來督促各責任人和責任部門處理數據質量問題。
     
    這其實還是要追溯到我們在誤區二里談到的:要建立組織架構和制度流程,否則數據治理工作中的種種事情,沒有人負責,沒有人去做。
    總結:數據質量問題的解決,要形成每一個環節都有確定責任人的閉環機制和反饋機制。

    誤區七:你們好像什么也沒做?
    很多數據治理的項目難驗收,客戶往往有疑問:你們做數據治理究竟干了些啥?看你們匯報說干了一大堆事情,我們怎么什么都看不到?發生這種情況,原因往往有前面誤區一所說的客戶需求不明確,誤區三所說的做了大而全的數據治理而難以收尾等,但還有一個原因不容忽視,那就是沒有讓客戶感知到數據治理的成果。用戶缺乏對數據治理成果的感知,導致數據治理缺乏存在感,特別是用戶方的領導決策層,自然不會痛快地對項目進行驗收。
    遇到這種情況,一句“寶寶心里苦,但寶寶不說”是無濟于事的。一個項目從銷售、售前、到組織團隊實施,多少人付出了辛勤的汗水。重要的是讓客戶認識到項目的重要價值,最終為所有人的付出買單啊。
    在我看來,在數據治理的項目需求階段,就應該堅持業務價值導向,把數據治理的目的定位在有效地對數據資產進行管理,確保其準確、可信、可感知、可理解、易獲取,為大數據應用和領導決策提供數據支撐。并且在這個過程中,一定要重視并設計數據治理的可視化呈現效果,諸如:
    管理了多少元數據,是否應該用數據資產地圖漂亮地展示出來。
    管理了多少數據資產,哪些來源,哪些主題,來自于什么數據源,是否應該用數據資產門戶的方式展示出來。
    數據資產用什么方式對上層應用提供服務,這些對外服務是如何管控的,誰使用了數據,用了多少數據,是否應該用圖形化的方式進行統計和展現。
    建立了多少條清洗數據的規則,清洗了多少類數據,是否應該用圖表展示出來。
    發現了多少條問題數據,處理了多少條問題數據,是否應該有一個不斷更新的統計數字來表示。
    數據質量問題逐月減少的趨勢,是否應該用趨勢圖展現出來。
    數據質量問題根據部門、系統的排名,是否應該加在數據質量報告中,提供給決策層,幫助客戶進行績效考核。
    數據分析、報表等應用,因為數據問題而必須回溯來源和加工過程的次數,是否應該統計逐月下降的趨勢;之前的回溯方式,和現在通過血緣管理更清楚地定位問題數據產生的環節,這兩者之間進行對比,節省了客戶多少時間和精力,是否應該有一個公平的評估,并提交給客戶。
    用戶之前找數據平均使用的時間,現在找數據平均需要的時間,是否能通過訪談的方式得到公平的結論,提交給客戶。
    ……
    以上這些都是提升數據治理存在感的手段。除了這些之外,時常組織交流和培訓,引導客戶認識到數據治理的重要性,讓客戶真正認識到數據治理工作對他們業務的促進作用,逐步轉移數據治理的能力給客戶等,這些都是平時需要注意的工作。
    總結:傳統的數據治理工作不重視效果的呈現,我們做數據治理工作,一定要從需求開始,就想辦法讓客戶直觀地看到成果。
    在激烈的市場競爭下,大數據廠商提出來數據治理的各種理念,有的提出覆蓋數據全生命周期的數據治理,有的提出以用戶為中心的自服務化數據治理,有的提出減少人工干預、節省成本的基于人工智能的自動化數據治理,在面對這些概念的時候,我們一方面要對數據現狀有清晰的認識,對數據治理的目標有明確的訴求,另一方面還要知道數據治理中各種常見的誤區,跨越這些陷阱,才能把數據治理工作真正落到實處,項目取得成效,做到數據更準確,數據更好取,數據更好用,真正地用數據提升業務水平。
     
    02 數據治理之元數據管理
     
    從關于元數據的三個概念談起,講到元數據的分布范圍和如何獲取元數據,最后從幾個常見的應用出發,談談元數據的一些實際應用場景。

    一、元數據到底是個啥?
    元數據是一個相當抽象、不易理解的概念,所以第一個章節,我們先把元數據是什么搞懂。這一章節共提出三個概念。
    1、元數據(Meta Data)是描述數據的數據。
    這是元數據的標準定義,但這么說有些抽象,技術同學能聽懂,倘若聽眾缺乏相應的技術背景,可能當場就懵逼了。產生這個問題的根源其實是一個知識的詛咒:我們知道某件事情,向不了解的人描述時卻很難講清楚。
     
    要破解這個詛咒,我們不妨借用一個比喻來描述元數據:元數據是數據的戶口本。讓我們想想一個人的戶口本是什么,是這個人的信息登記冊:上面有這個人的姓名,年齡,性別、身份證號碼,住址、原籍、何時從何地遷入等等,除了這些基本的描述信息之外,還有這個人和家人的血緣關系,比如說父子,兄妹等等。所有的這些信息加起來,構成對這個人的全面描述。那么所有的這些信息,我們都可以稱之為這個人的元數據。
    同樣的,如果我們要描述清楚一個實際的數據,以某張表為例,我們需要知道表名、表別名、表的所有者、數據存儲的物理位置、主鍵、索引、表中有哪些字段、這張表與其他表之間的關系等等。所有的這些信息加起來,就是這張表的元數據。
    這么一類比,我們對元數據的概念可能就清楚很多了:元數據是數據的戶口本。
    2、元數據管理,是數據治理的核心和基礎。
    為什么我們說元數據管理是數據治理的核心和基礎?為什么在做數據治理的時候要先做元數據管理?它的地位為何如此特殊?
    讓我們想象一下,一位將軍要去打仗,他必不可少,必須要掌握的信息是什么?對,是戰場的地圖。很難相信手里沒有軍事地圖的一位將軍能打勝仗。而元數據就相當于是所有數據的一張地圖。
    在這張關于數據的地圖中,我們可以知道:
    我們有哪些數據?
    數據分布在哪里?
    這些數據分別是什么類型?
    數據之間有什么關系?
    哪些數據經常被引用?哪些數據無人光顧?
    ……
    所有的這些信息,都可以從元數據中找到。如果我們要做數據治理,但是手里卻沒有掌握這張地圖,做數據治理就猶如是瞎子摸象。后續的文章中我們要講到的數據資產管理,知識圖譜,其實它們大部分也是建立在元數據之上的。所以我們說:元數據是一個組織內的數據地圖,它是數據治理的核心和基礎。
    3、元數據是描述數據的數據,那么有沒有描述元數據的數據?
    有。描述元數據的數據叫元模型(Meta Model)。元模型、元數據、數據之間的關系,可以用下面這張圖來描述。
     
    對于元模型的概念,我們不做深入的討論。我們只需要知道下面這些:
    元數據本身的數據結構也是需要被定義和規范的,定義和規范元數據的就是元模型,國際上元模型的標準是CWM(Common Warehouse Metamodel,公共倉庫元模型),一個成熟的元數據管理工具,需要支持CWM標準。

    二、元數據是從哪里來的?
    在大數據平臺中,元數據貫穿大數據平臺數據流動的全過程,主要包括數據源元數據、數據加工處理過程元數據、數據主題庫專題庫元數據、服務層元數據、應用層元數據等。下圖以一個數據中心為例,展示了元數據的分布范圍:
     
    業內通常把元數據分為以下類型:
    技術元數據:庫表結構、字段約束、數據模型、ETL程序、SQL程序等。
    業務元數據:業務指標、業務代碼、業務術語等。
    管理元數據:數據所有者、數據質量定責、數據安全等級等。
    元數據采集是指獲取數據生命周期中的元數據,對元數據進行組織,然后將元數據寫入數據庫中的過程。
    要獲取到元數據,需要采取多種方式,在采集方式上,使用包括數據庫直連、接口、日志文件等技術手段,對結構化數據的數據字典、非結構化數據的元數據信息、業務指標、代碼、數據加工過程等元數據信息進行自動化和手動采集。
    元數據采集完成后,被組織成符合CWM模型的結構,存儲在關系型數據庫中。

    三、有了元數據,我們能做些什么?
    這一章節我們主要講元數據的幾個典型的應用。
    先看一張元數據管理的整體功能架構圖,有了元數據,我們能做些什么,從這張圖里一目了然:
     
    1.元數據查看
    一般是以樹形結構組織元數據,按不同類型對元數據進行瀏覽和檢索。如我們可以瀏覽表的結構、字段信息、數據模型、指標信息等。通過合理的權限分配,元數據查看可以大大提升信息在組織內的共享。
    2.數據血緣和影響性分析
    數據血緣和影響性分析主要解決“數據之間有什么關系”的問題。因其重要價值,有的廠商會從元數據管理中單獨提取出來,作為一個獨立的重要功能。但是筆者考慮到數據血緣和影響性分析其實是來自于元數據信息,所以還是放在元數據管理中來描述。
    血緣分析指的是取到數據的血緣關系,以歷史事實的方式記錄數據的來源,處理過程等。
    以某張表的血緣關系為例,血緣分析展示如下信息:
     
    數據血緣分析對于用戶具有重要的價值,如:當在數據分析中發現問題數據的時候,可以依賴血緣關系,追根溯源,快速地定位到問題數據的來源和加工流程,減少分析的時間和難度。
    數據血緣分析的典型應用場景:某業務人員發現“月度營銷分析”報表數據存在質量問題,于是向IT部門提出異議,技術人員通過元數據血緣分析發現“月度營銷分析”報表受到上游FDM層四張不同的數據表的影響,從而快速定位問題的源頭,低成本地解決問題。
    除了血緣分析之外,還有一種影響性分析,它能分析出數據的下游流向。當系統進行升級改造的時候,如果修改了數據結構、ETL程序等元數據信息,依賴數據的影響性分析,可以快速定位出元數據修改會影響到哪些下游系統,從而減少系統升級改造帶來的風險。從上面的描述可以知道:數據影響性分析和血緣分析正好相反,血緣分析指向數據的上游來源,影響性分析指向數據的下游。
    影響性分析的典型應用場景:某機構因業務系統升級,在“FINAL_ZENT ”表中修改了字段:TRADE_ACCORD長度由8修改為64,需要分析本次升級對后續相關系統的影響。對元數據“FINAL_ZENT”進行影響性分析,發現對下游DW層相關的表和ETL程序都有影響,IT部門定位到影響之后,及時修改下游的相應程序和表結構,避免了問題的發生。由此可見,數據的影響性分析有利于快速鎖定元數據變更帶來的影響,將可能發生的問題提前消滅在萌芽之中。
    3.數據冷熱度分析
    冷熱度分析主要是對數據表的被使用情況進行統計,如:表與ETL程序、表與分析應用、表與其他表的關系情況等,從訪問頻次和業務需求角度出發,進行數據冷熱度分析,用圖表的方式,展現表的重要性指數。
    數據的冷熱度分析對于用戶有巨大的價值,典型應用場景:我們觀察到某些數據資源處于長期閑置,沒有被任何應用調用,也沒有別的程序去使用的狀態,這時候,用戶就可以參考數據的冷熱度報告,結合人工分析,對冷熱度不同的數據做分層存儲,以更好地利用HDFS資源,或者評估是否對失去價值的這部分數據做下線處理,以節省數據存儲空間。
    4.數據資產地圖
    通過對元數據的加工,可以形成數據資產地圖等應用。數據資產地圖一般用于在宏觀層面組織信息,以全局視角對信息進行歸并、整理,展現數據量、數據變化情況、數據存儲情況、整體數據質量等信息,為數據管理部門和決策者提供參考。
    5.元數據管理的其他應用
    元數據管理中還有其他一些重要功能,如:
    元數據變更管理。對元數據的變更歷史進行查詢,對變更前后的版本進行比對等等。
    元數據對比分析。對相似的元數據進行比對。
    元數據統計分析。用于統計各類元數據的數量,如各類數據的種類,數量等,方便用戶掌握元數據的匯總信息。
    諸如此類的應用,限于篇幅,不一一列舉。

    四、總結
    元數據就相當于是數據的戶口本和地圖,是數據治理的核心和基礎。
    元數據產生于從數據生產、數據接入、數據加工、數據服務到數據應用的各個環節,整體上可以分為三類:技術元數據、業務元數據和管理元數據。
    元數據采集入庫后,可以產生冷熱度分析、血緣關系分析、影響性分析,數據資產地圖等應用。元數據管理可以讓數據被描述得更加清晰,更容易被理解,被追溯,更容易評估其價值和影響力。元數據管理還可以大大促進信息在組織內外的共享。
     
    03 數據治理之數據質量管理
     
    數據治理的理論和實踐不斷向前發展,但數據質量管理始終是數據治理的初衷,也是最重要的目的。下面從數據質量管理的目標,質量問題產生的根源,質量評估標準,質量管理流程,質量管理的取與舍幾個方面進行闡述。

    一、數據質量管理的目標
    數據質量管理主要解決“數據質量現狀如何,誰來改進,如何提高,怎樣考核”的問題。
    最開始的關系型數據庫時代,做數據治理最主要的目的,就是為了提升數據質量,讓報表、分析、應用更加準確。時至今日,雖然數據治理的范疇擴大了很多,我們開始講數據資產管理、知識圖譜、自動化的數據治理等等概念,但是提升數據的質量,依然是數據治理最重要的目標之一。
    為什么數據質量問題如此重要?
    因為數據要能發揮其價值,關鍵在于其數據的質量的高低,高質量的數據是一切數據應用的基礎。
    如果一個組織根據劣質的數據分析業務、進行決策,那還不如沒有數據,因為通過錯誤的數據分析出的結果往往會帶來“精確的誤導”,對于任何組織來說,這種“精確誤導”都無異于一場災難。
    根據統計,數據科學家和數據分析員每天有30%的時間浪費在了辨別數據是否是“壞數據”上,在數據質量不高的環境下,做數據分析可謂是戰戰兢兢??梢姅祿|量問題已經嚴重影響了組織業務的正常運營。通過科學的數據質量管理,持續地提升數據質量,已經成為組織內刻不容緩的優先任務。

    二、數據質量問題產生的根源
    做數據質量管理,首先要搞清楚數據質量問題產生的原因。原因有多方面,比如在技術、管理、流程方面都會碰到。但從根本上來時,數據質量問題產生的大部分原因在于業務上,也就是管理不善。許多表面上的技術問題,深究下去,其實還是業務問題。
    筆者在給客戶做數據治理咨詢的時候,發現很多客戶認識不到數據質量問題產生的根本原因,局限于只想從技術角度來解決問題,希望通過購買某個工具就能解決質量問題,這當然達不到理想的效果。經過和客戶交流以及雙方共同分析之后,大部分組織都能認識到數據質量問題產生的真正根源,從而開始從業務著手解決數據質量問題了。
    從業務角度著手解決數據質量問題,重要的是建立一套科學、可行的數據質量評估標準和管理流程。

    三、數據質量評估的標準
    當我們談到數據質量管理的時候,我們必須要有一個數據質量評估的標準,有了這個標準,我們才能知道如何評估數據的質量,才能把數據質量量化,并知道改進的方向,比較改進后的效果。
    目前業內認可的數據質量的標準有:
    準確性: 描述數據是否與其對應的客觀實體的特征相一致。
    完整性: 描述數據是否存在缺失記錄或缺失字段。
    一致性: 描述同一實體的同一屬性的值在不同的系統是否一致。
    有效性: 描述數據是否滿足用戶定義的條件或在一定的域值范圍內。
    唯一性: 描述數據是否存在重復記錄。
    及時性: 描述數據的產生和供應是否及時。
    穩定性: 描述數據的波動是否是穩定的,是否在其有效范圍內。
    以上數據質量標準只是一些通用的規則,這些標準是可以根據數據的實際情況和業務要求進行擴展的,如交叉表校驗等。

    四、數據質量管理的流程
    要提升數據質量,需要以問題數據為切入點,注重問題的分析、解決、跟蹤、持續優化、知識積累,形成數據質量持續提升的閉環。
    首先需要梳理和分析數據質量問題,摸清楚數據質量的現狀;然后針對不同的質量問題選擇適合的解決辦法,制定出詳細的解決方案;接著是問題的認責,追蹤方案執行的效果,監督檢查,持續優化;最后形成數據質量問題解決的知識庫,以供后來者參考。上述步驟不斷迭代,形成數據質量管理的閉環。
    很顯然,要管理好數據質量,僅有工具支撐是遠遠不夠的,必須要組織架構、制度流程參與進來,做到數據的認責,數據的追責。

    五、數據質量管理的取與舍
    企業也好,政府也好,從來不是生活在真空之中,而是被社會緊緊地包裹。解決任何棘手的問題,都必須考慮到社會因素的影響,做適當的取舍。
    第一個取舍:數據質量管理流程。前面講到的數據質量管理流程,是一個相對理想的狀態,但是不同的組織內部,其實施的力度都是不同的,以數據追責為例:在企業內部推行還具有一定的可行性,但是在政府就很難適用。因為政府部門的大數據項目,牽頭單位無論是誰,很可能沒有相關的權限。
    遇到這種問題,我們只能迂回地做些事情,盡量彌補某個環節缺失帶來的不利影響,比如和數據提供方一起建立起數據清洗的規則,對來源數據做清洗,盡量達到可用的標準。
    第二個取舍:不同時間維度上的數據采取不同的處理方式。從時間維度上劃分,數據主要有三類:未來數據、當前數據、歷史數據。在解決不同種類的數據質量問題時,需要考慮取舍之道,采取不同的處理方式。
    1.歷史數據
    當你拿著一堆歷史問題數據,找信息系統的負責人給你整改,對方通常不會給你好臉色看,可能會以“當前的數據問題都處理不過來,哪有時間給你處理歷史數據的問題”為理由,拒你以千里之外。這時候你即便是找領導協調,一般也起不到太大的作用,因為這確實是現實情況:一個組織的歷史數據通常是經年累月的積累,已經是海量的規模,很難一一處理。
    那么難道就沒有更好的辦法了嗎?——對于歷史數據問題的處理,我們可以發揮技術人員的優勢,用數據清洗的辦法來解決,對于實在清洗不了的,我們要讓決策者判斷投入和產出的效益比,結果往往是需要接受這種現狀。
    從另一個角度來看:數據的新鮮度不同,其價值往往也有所區分。一般來說,歷史數據的時間越久遠,其價值越低。所以,我們不應該把最重要的資源放在歷史數據質量的提升上,而是應該更多地著眼于當前產生和未來即將產生的數據。
    2.當前數據
    當前數據的問題,需要從我們通過前面第四個章節講過的梳理和發現問題,分析問題,解決問題,問題認責、跟蹤和評估等幾個流程環節來解決,管理過程中必須嚴格遵循流程,避免臟數據繼續流到數據分析和應用環節。
    3.未來數據
    管理未來的數據,一定要從數據規劃開始,從整個組織信息化的角度出發,規劃組織統一的數據架構,制定出統一的數據標準。借業務系統新建、改造或重建的時機,在創建物理模型、建表、ETL開發、數據服務、數據使用等各個環節遵循統一的數據標準,從根本上提升數據質量。這也是最理想、效果最好的數據質量管理模式。
    這樣,通過對不同時期數據的不同處理方式,能做到事前預防、事中監控、事后改善,從根本上解決數據質量問題。
    總結
    提升數據質量,是數據治理最重要的目標之一。做數據質量管理,首先要弄清楚數據質量問題產生的根源大部分在于業務管理出了問題。
    其次,我們要根據組織架構,建立一套數據質量評估的標準和數據質量管理的流程。
    最后,在做數據質量管理過程中,我們要充分考慮到現狀,對歷史數據、當前數據、未來數據分別制定不同的處理策略。
     
    04 數據治理之數據標準管理

    一、大數據標準體系
    根據全國信息技術標準化技術委員會大數據標準工作組制定的大數據標準體系,大數據的標準體系框架共由七個類別的標準組成,分別為:基礎標準、數據標準、技術標準、平臺和工具標準、管理標準、安全和隱私標準、行業應用標準。本文主要闡述其中的第二個類別:數據標準。

    二、關于數據標準認識的幾個誤區
    數據標準這個詞,最早是在金融行業,特別是銀行業的數據治理中開始使用的。數據標準工作一直是數據治理中的基礎性重要內容。但是對于數據標準,不同的人卻有不同的看法:
    有人認為數據標準極其重要,只要制定好了數據標準,所有數據相關的工作依標進行,數據治理大部分目標就水到渠成了。
    也有人認為數據標準幾乎沒什么用,做了大量的梳理,建設了一整套全面的標準,最后還不是被束之高閣,被人遺忘,幾乎沒有發揮任何作用。
    首先亮明作者的觀點:這兩種看法都是不對的,至少是片面的。實際上,數據標準工作是一項復雜的,涉及面廣的,系統性的,長期性的工作。它既不能快速地發揮作用,迅速解決掉數據治理中的大部分問題,同時也肯定不是完全沒有作用,最后只剩下一堆文檔——如果數據標準工作的結局真是如此,那只能說明這項工作沒有做好,沒有落到實處。本文主要的目的,就是分析為什么會出現這種情況,以及如何應對。而首先需要做的是厘清數據標準的定義。

    三、數據標準的定義
    何為數據標準,各相關組織并沒有統一的,各方都認可的定義。結合各家對數據標準的闡述,從數據治理的角度出發,我嘗試著給數據標準做一個定義:數據標準是對數據的表達、格式及定義的一致約定,包含數據業務屬性、技術屬性和管理屬性的統一定義;數據標準的目的,是為了使組織內外部使用和交換的數據是一致的,準確的。

    四、如何制定數據標準
    一般來說,對于政府,會有國家或地方政府發文的數據標準管理辦法,其中會詳細規定相關的數據標準。所以在此主要講企業如何制定數據標準。
    企業的數據標準來源非常豐富,有外部的監管要求,行業的通用標準,同時也必須考慮到企業內部數據的實際情況,梳理其中的業務指標、數據項、代碼等,將以上的所有的來源都納入數據標準是沒有必要的,數據標準的范圍應該主要集中在企業業務最核心的數據部分,有的企業也稱作關鍵業務數據或核心數據,只要制定出這些核心數據的標準,就能夠支撐企業數據質量、主數據管理、數據分析等需要。
     


    五、數據標準化的難題
    數據標準好制定,但是數據標準落地相對就困難多了。國內的數據標準化工作發展了那么多年,各個行業,各個組織都在建設自己的數據標準,但是你很少聽到哪個組織大張旗鼓地宣傳自己的數據標準工作多么出色,換句話說,做數據標準取得顯著效果的案例并不多。為什么會出現這種情況,主要有兩個原因:
    一是制定的數據標準本身有問題。有些標準一味地追求先進,向行業領先看齊,標準大而全,脫離實際的數據情況,導致很難落地。
    第二個原因,是標準化推進過程中出了問題。這是我們重點闡述的原因,主要有以下幾種情況:
    對建設數據標準的目的不明確。某些組織建設數據標準,其目的不是為了指導信息系統建設,提高數據質量,更容易地處理和交換數據,而是應付監管機構檢查,因此需要的就是一堆標準文件和制度文件,根本就沒有執行的計劃。
    過分依賴咨詢公司。一些組織沒有建設數據標準的能力,因此請咨詢公司來幫忙規劃和執行。一旦咨詢公司撤離,組織依然缺乏將這些標準落地的能力和條件。
    對數據標準化的難度估計不足。很多公司上來就說要做數據標準,卻不知道數據標準的范圍很大,很難以一個項目的方式都做完,而是一個持續化推進的長期過程,結果是客戶越做遇到的阻力越大,困難越多,最后自己都沒有信心了,轉而把前期梳理的一堆成果束之高閣,這是最普遍的問題。
    缺乏落地的制度和流程規劃。數據標準的落地,需要多個系統、部門的配合才能完成。如果只梳理出數據標準,但是沒有規劃如何落地的具體方案,缺乏技術、業務部門、系統開發商的支持,尤其是缺乏領導層的支持,是無論如何也不可能落地的。
    組織管理水平的不足:數據標準落地的長期性、復雜性、系統性的特點,決定了推動落地的組織機構的管理能力必須保持在很高的水平線上,且架構必須持續穩定,才能有序地不斷推進。以上這些原因,導致數據標準化工作很難開展,更難取得較好的成效。數據標準化難落地,是數據治理行業的現狀,不容回避。

    六、如何應對這些難題
    應對以上這些難題,最經濟、最理想的模式當然是:做大數據建設,首先做標準,再做大數據平臺,數據倉庫等。但一般的不大可能有這樣的認識,很多時候大家都是先建設再治理。先把信息系統、數據中心建好,然后標準有問題,質量不高,再建數據標準,但實際上這時候已經是回過頭來做一些亡羊補牢的事情,客戶的投資肯定有一部分是浪費。
    正因為其太過理想化,所以這種模式幾乎是見不到的。在實踐中,我們往往還是需要更多地考慮如何把數據標準落地到已有的系統和大數據平臺中。
    數據標準落地有三種形式:
    源系統改造:對源系統的改造是數據標準落地最直接的方式,有助于控制未來數據的質量,但工作量與難度都較高,現實中往往不會選擇這種方式,例如有客戶編號這個字段,涉及多個系統,范圍廣、重要程度高、影響大,一旦修改該字段,會涉及到相關的系統都需要修改。但是也不是完全不可行,可以借系統改造,重新上線的機會,對相關源系統的數據進行部分的對標落地。
    數據中心落地:根據數據標準要求建設數據中心(或數據倉庫),源系統數據與數據中心做好映射,保證傳輸到數據中心的數據為標準化后的數據。這種方式的可行性較高,是絕大多數組織的選擇。
    數據接口標準化:對已有的系統間的數據傳輸接口進行改造,讓數據在系統間進行傳輸的時候,全部遵循數據標準。這也是一種可行的方法。
    在數據標準落地的過程中,需要做好6件事情,如下圖所示:
     
    事先確定好落地的范圍:哪些數據標準需要落地,涉及到哪些IT系統,都是需要事先考慮好的。
    事先做好差異分析:現有的數據和數據標準之間,究竟存在哪些差異,這些差異有多大,做好差異性分析。
    事先做好影響性分析:如果這些數據標準落地了,會對哪些相關下游戲廳產生什么樣的影響,這些影響是否可控。元數據管理中的影響性分析可以幫助用戶確定影響的范圍。
    制定落地的執行方案:執行方案要側重于可落地性。不能落地的方案,最終只能被廢棄。一個可落地的方案,要有組織架構和人員分工,每個人負責什么,如何考核,怎么監管,都是必須納入執行方案中的內容。
    具體地執行落地方案:根據執行方案,進行數據標準落地執行。
    事后評估:事后需要跟蹤、評估數據落地的效果如何,做對了哪些事,哪些做得不足,如何改進。

    七、總結
    數據標準的建設大致可以分成兩個階段:
    1、梳理和制定數據標準。
    2、數據標準的落地和實施。
    其中后者是公認的難題。本文分析了其中的原因,提供了一些如何讓數據標準更快更好落地的方法。
     
    05 數據治理之數據資產管理

    一、數據資產與數據資產管理的定義
    隨著大數據時代的到來,人們已經認識到數據是一種無形的寶貴資產,谷歌、Facebook、阿里巴巴、騰訊等企業市值高達數千億美元,不僅在于其獨特的商業模式和市場壟斷地位,更多的估值是給予了其擁有的海量用戶數據里所蘊含的巨大價值。對于數據的擁有者和管理者來說,通過對數據的合理管理和有效應用,能盤活并充分釋放數據的巨大價值。
    但如果數據的擁有者和管理者缺乏對數據的有效管理,數據就用不起來,或者即便用起來也用不好,在這種情況下,堆積如山的無序數據給企業帶來的是高額的成本,數據成為一項棘手的“負債”。從這個角度來說,數據資產的管理能力,已經成為衡量一家企業能否成功的重要因素。
    在講數據資產管理之前,首先需要厘清數據資產和數據資產管理的概念,區分數據和數據資產的區別。
    中國信通院聯合多家企業于2019年6月發布了《數據資產管理實踐白皮書4.0》,其中將數據資產定義為:由企業擁有或控制的、能夠為企業帶來未來經濟利益的、以物理或者電子方式記錄的數據資源,如文件資料、電子數據等。
    從這個定義可以看出,數據資產的三個特征為:
    1)“企業擁有或控制”。這個特征指明了數據是有其主體的,同時也說明了數據資源可能來源于企業內部的信息系統或者日常經營活動的沉淀,同時也有可能是企業通過外部的交換、購買等手段獲取到的。
    2)“能帶來未來經濟利益”。這個特征清楚地表明了在企業中,并非所有的數據都構成數據資產,數據資產是能夠為企業產生價值的數據資源。
    3)“數據資源”。這個特征表明了數據資產的存在形態,是以物理或者電子方式記錄下來的數據。
    《數據資產管理實踐白皮書4.0》中對數據資產管理的定義為:規劃、控制和提供數據及信息資產的一組業務職能,包括開發、執行和監督有關數據的計劃、政策、方案、項目、流程、方法和程序,從而控制、保護、交付和提高數據資產的價值。
    從這個定義可以看出,數據資產管理的目的是通過一系列手段,以控制、保護、交付和提高數據資產的價值。 

    二、數據資產管理的現狀和挑戰
    在過去,國內大部分領先企業都陸續建設了ERP系統、人力資源系統、供應鏈管理系統、物流系統、電子商務系統、集成門戶、協同辦公、決策支持系統等各類信息化系統,這些系統在支撐企業經營活動的同時,也帶來了數據量的高速膨脹。隨著數據積累逐漸增多,大部分企業在數據管理方面遇到了諸多挑戰:
    缺乏統一的數據視圖:數據資源分布在企業的多個業務系統中,分布在線上線下,甚至企業的內外部,由于缺乏統一的數據視圖,數據的管理人員和使用人員無法準確快速地找到自己需要的數據。數據管理人員也無法從宏觀層面掌握自己擁有哪些數據資產,擁有多少數據資產,這些數據資產分布在哪里,變化情況怎么樣。
    數據基礎薄弱:大部分企業的數據基礎還很薄弱,存在數據標準混亂、數據質量參差不齊、各業務系統之間數據孤島化嚴重、沒有進行數據資產的萃取等現象,阻礙了數據的有效應用。
    數據應用不足:受限于數據基礎薄弱和應用能力不足,多數企業的數據應用剛剛起步,主要在精準營銷、輿情感知和風險控制等有限場景中進行了一些探索,數據應用的深度不夠,應用空間亟待開拓。
    數據價值難估:企業難以對數據給業務的貢獻進行評估,從而難以像運營有形資產一樣運營數據。產生這個問題的原因有兩個:一是沒有建立起合理的數據價值評估模型;二是數據價值跟企業的商業模式密不可分,在不同應用場景下,同一項數據資產的價值可能截然不同。
    缺乏安全的數據環境:隨著數據的價值越來越得到全社會的廣泛認可,針對數據的犯罪活動日漸猖獗,數據泄露、個人隱私受到傷害等現象層出不窮。很多數據犯罪是因為安全管理制度不完善、缺乏相應的數據安全管控措施導致的。
    數據管理浮于表面:沒有建立一套符合數據驅動的組織管理制度和流程,沒有建設先進的數據管理平臺工具,導致數據管理工作很難落地。
    這些問題已經嚴重影響到數據價值的發揮,導致企業的數據越積越多,卻逐漸成為企業的負擔,大數據管理部門也成為企業的成本中心,而不是創新中心和利潤部門。

    三、數據資產管理的四個目標
    數據資產管理是數據中臺面向企業提供數據能力的一個窗口,數據資產中心將企業的數據資產統一管理起來,實現數據資產的可見、可懂、可用、可運營。
    可見:通過對數據資產的全面盤點,形成數據資產地圖。從數據生產者、管理者、使用者等不同的角度,用數據資產目錄的方式共享數據資產,用戶可以快速、精確地查找到自己關心的數據資產。
    可懂:通過元數據管理,完善對數據資產的描述。同時在數據資產的建設過程中,注重數據資產業務含義的提煉,將數據加工和組織成人人可懂的、無歧義的數據資產。具體來說,在數據中臺之上,需要將數據資產進行標簽化,標簽是面向業務視角的數據組織方式。
    可用:通過統一數據標準、提升數據質量和數據安全性等措施,增強數據的可信度,讓數據科學家和數據分析人員沒有后顧之憂,放心地使用數據資產,降低因為數據不可用、不可信而導致的溝通成本和管理成本。
    可運營:數據資產運營的最終目的是讓數據價值越滾越大,因此數據資產運營要始終圍繞資產價值來開展。通過建立一套符合數據驅動的組織管理制度流程和價值評估體系,促進數據資產建設過程的不斷改進,提升數據資產管理的水平,提升數據資產的價值。

    四、數據資產管理與數據治理的關系
    DAMA和DCMM對數據治理的定義都是:數據治理(Data Governance,DG)是指對數據資產管理行使權力和控制的活動集合(規劃、監督和執行)。傳統的數據治理內容通常包含:數據標準管理、元數據管理、數據質量管理、數據安全管理、數據生命周期管理等內容。
    本文沿用的中國信通院對數據資產管理的定義是:規劃、控制和提供數據及信息資產的一組業務職能,包括開發、執行和監督有關數據的計劃、政策、方案、項目、流程、方法和程序,從而控制、保護、交付和提高數據資產的價值。
    從上面兩段描述看出,數據治理和數據資產管理的定義有異曲同工之處,它們圍繞的對象都是數據資產。而中國信通院在《數據資產管理實踐白皮書4.0》中闡述的數據資產管理八大職能中,諸如數據標準管理、元數據管理、數據質量管理、數據安全管理等,同時也屬于傳統數據治理的必要工作內容。數據資產管理在傳統數據治理的基礎上,加入了數據價值管理、數據共享管理等內容。
    近些年的發展來看,數據治理的目標正從“以質量管理為主”,過渡到“質量管理與服務并重”?;谏厦娴恼撌?,作者認為,數據資產管理就是傳統的數據治理的升級版,可以認為是數據治理2.0。數據資產管理與數據治理之間的關系可以用下圖來表示。
     
    在本文中,不再另外闡述數據治理的內容。

    五、數據資產門戶
    1、數據資產地圖
    數據資產地圖為用戶提供多層次、多視角的數據資產圖形化呈現形式。數據資產地圖讓用戶用最直觀的方式,掌握數據資產的概況,如數據總量、每日數據增量、數據資產質量的整體狀況、數據資產的分類情況、數據資產的分布情況、數據資產的冷熱度排名、各個業務域及系統之間的數據流動關系等。
    2、數據資產目錄
    數據資產目錄通過對數據資產良好地組織,為用戶帶來直觀的體驗,可以使用戶花較少的時間查找到自己關心的數據資產。
    數據資產目錄的組織方式靈活多樣,常見的有按業務域組織、按數據來源組織、按數據類型組織。
    根據用戶角色的不同,數據資產目錄有多種展現視角,概括來講,有這三類用戶角色:數據資產開發者、數據資產管理者、數據資產使用者。
    數據資產開發者關注當前開發的數據資產是否有重復,是否有準確的定義,通過數據資產目錄,數據資產開發者可以將自己負責開發的數據資產發布到合理的資產目錄下。
    數據資產管理者必須掌握數據資產的全局情況,包括擁有哪些數據資產、數據資產分布在哪里、數據資產的質量情況、數據資產的使用情況等。數據資產管理者通過對數據資產的合理授權,控制數據資產的使用。
    數據資產使用者關心數據是什么、數據在哪里、如何獲取到數據。通過數據資產目錄和獲取到的合理授權,數據資產使用者能快速定位到自己需要的數據資產,掌握數據資產的存在形式是什么(結構化還是半結構化),如何獲取到自己想要的數據,評估現有的數據資產能否滿足所建應用的需要。
    3、數據資產檢索
    數據資產檢索服務為用戶提供一鍵式資產檢索服務,通過對關鍵字的匹配,數據資產門戶檢索出相關的數據資產集,用戶可以根據所需,找到相關數據資產,可以查看數據資產的名稱、創建者、業務語義、加工過程等詳情,幫助其理解和使用數據。

      

    相關新聞

    版權聲明

    1、凡本網注明“來源:中國輕工業網” 的作品,版權均屬于中國輕工業網,未經本網授權,任何單位及個人不得轉載、摘編或以其它方式使用。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:中國輕工業網”。違反上述聲明者,本網將追究其相關法律責任。
    2、凡本網注明 “來源:XXX(非中國輕工業網)” 的作品,均轉載自其它媒體,轉載目的在于信息之傳播,并不代表本網贊同其觀點和對其真實性負責。
    3、如因作品內容、版權和其它問題需要同本網聯系的,請于轉載之日起30日內進行。
    4、免責聲明:本站信息及數據均為非營利用途,轉載文章版權歸信息來源網站或原作者所有。

    返回頂部
    少妇人妻综合久久中文字幕
  • <p id="qu43u"><strong id="qu43u"></strong></p>

  • <p id="qu43u"><strong id="qu43u"></strong></p>
  • <track id="qu43u"></track>