其中因需求、概要設計和詳細設計為執(zhí)行過程中的核心流程節(jié)點,將針對此三部分進行詳細講解。
1. 需求調研
數據類項目總體調研流程如下:
數據調研是整個項目的基礎,既要詳細掌握現有業(yè)務現狀及數據情況又要準確獲取客戶需求,明確項目建設目標。如上圖所示總體分成三個大的時間節(jié)點:包括需求調研準備、需求調研實施及需求調研后期的梳理確認。
需求調研準備包括:調研計劃確定、調研前準備,具備條件的盡量開一次調研需求見面會(項目啟動會介紹過的可以不需要再組織)。其中調研前準備需針對客戶的組織架構及業(yè)務情況進行充分的了解,以便在后續(xù)的調研實施階段有的放矢,調研內容更為詳實,客戶需求把控更為準確。
調研實施階段一般組織兩輪調研,第一論主要是了解業(yè)務運轉現狀、對接業(yè)務數據以及客戶需求。第二輪針對具體的業(yè)務和數據的細節(jié)問題進行確認,及分析后的客戶需求與客戶確認。對于部分系統的細節(jié)問題以線下方式對接,不再做第三輪整體調研。
需求調研后期主要是針對客戶需求及客戶業(yè)務及數據現狀進行內外部評審并確認簽字,以《需求規(guī)格說明書》形式明確本期項目建設目錄。
上表描述了需求調研過程關鍵節(jié)點的客戶方及項目組工作內容內容及輸入輸出,并說明了需求調研階段的總體原則、調研方式及相關要求。
(1)需求收集
(2)需求驗證
(3)需求管理
(4)需求確認
2. 概要設計
數據治理項目概要設計主要涵蓋網絡架構、數據流架構、標準庫建設、數據倉庫建設四部分內容。總體目標是明確數據如何進出數據治理平臺(明確網絡情況)、數據在平臺內部如何組織及流動(數據流架構及數據倉庫模型)以及數據在平臺內部應遵循哪些標準及規(guī)范(標準庫)。針對每部分具體工作事項及輸入、輸出如下所示:
2.1 網絡架構示意圖
網絡架構要明確硬件部署方案、待接入系統網絡情況及后續(xù)使用人群及訪問系統方式,以便滿足數據接入及數據服務需求。
2.2 數據流示意圖
數據流架構要明確各類數據的處理方式及流向,以便確認后續(xù)數據加工及存儲方式。
2.3 數據標準內容示意圖
標準庫建設要明確平臺所遵循的各類標準及規(guī)范,以保證平臺建設過程的統一規(guī)范,為后續(xù)業(yè)務賦能打下堅實基礎。
2.4 數據倉庫主題域及核心實體示意圖
數據倉庫建設要明確主題域及關鍵實體,明確后續(xù)數據拉通整合的實體對象,以更好地支撐繁雜多變的數據需求。
詳細設計針對項目實際落地的工作模塊分別進行設計,明確每部分實現的設計,具體模塊、工作內容、輸入、輸出如下所示:
二、數據治理自動化
在將數據治理項目流程化以后整個工作內容及具體工作產出已經比較明確了,但是會發(fā)現流程中會涉及到大量的開發(fā)工作,同時發(fā)現很多工作具有較高的重復性或相似性,開發(fā)使用的流程及技術都是一樣的只是配置不同,因此針對流程化以后各節(jié)點的自動化開發(fā)應運而生。通過配置任務的個性化部分,然后統一生成對應的開發(fā)任務或腳本即可完成開發(fā)。
自動化處理一般有兩種實現路徑,其一是采購成熟數據治理軟件,其二是自研開發(fā)相應工具。其中數據治理過程中可實現自動化處理的流程節(jié)點如“工序”標藍色部分:
注:對于需求調研、模型設計等流程節(jié)點因為涉及到線下的訪談、業(yè)務的理解更多的是與人的溝通交流,進而獲取相應的業(yè)務知識及需求,并非單純的計算機語言同時“因人而異”的情況也比較常見,所以此部分相關工作暫時還以人工為主。
因數據接入、腳本開發(fā)及數據質量稽核在日常工作中占用時間較長,下面將詳細講解此三部分內容。
1. 批量數據接入
數據接入是所有數據治理平臺的第一步,批量數據接入占數據接入工作量的70-90%之間。自動化處理即將任務個性化部分進行抽象化形成配置項,通過配置任務的抽象化配置項,進而生成對應的任務。批量數據接入抽象以后的配置項如下:
示例配置如上,不管使用sqoop、datax等方式都可以批量生成對應命令或配置文件,實現批量生成接入作業(yè),實現自動化數據接入工作,數據接入效率提升75%以上,后續(xù)只需驗證數據接入正確性即可。
資源庫、主題庫的加工腳本占整體開發(fā)工作工作的50%-80%,同時經過對此部分數據加工方式進行特定分析后,數據常用的處理方式如下一般有以下幾種類型:
將以上加工方式進行總結后可沉淀出以下幾種數據處理方式:
結合Mapping文檔選定以上數據處理方式的一種即可自動生成資源庫或主題庫對應腳本,開發(fā)效率得到大幅度提升,整體效率提升60%以上(模型及Mapping設計尚需人工處理)。
3. DQC
數據質量是PDCA實施總體指導思想的關鍵一步,是發(fā)現數據問題以及檢查數據標準規(guī)范落地的必須環(huán)節(jié)。針對具體的規(guī)則都可以通過產品和自助開發(fā)來實現,只需進行相應配置即可實現自動化檢查,具體檢查事項如下:
三、數據治理智能化
經過自動化階段以后數據治理流程中數據倉庫模型設計、Mapping映射等階段依舊有非常多人工處理工作,這些工作大部分跟業(yè)務領域知識及實際數據情況強相關,依賴專業(yè)的業(yè)務知識和行業(yè)經驗才可進行合理地規(guī)劃和設計。如何快速精通行業(yè)知識和提升行業(yè)經驗是數據治理過程中新的“攔路虎”。如何更好地沉淀和積累行業(yè)知識,自動地提供設計和處理的建議是數據治理“深水區(qū)”面臨的一個新的挑戰(zhàn)。數據治理智能化將為我們的數據治理工作開辟一個 “新天地”。
在整個數據治理流程中智能化可以發(fā)揮作用的的節(jié)點如“工序”標紅色部分:
實現智能化的第一步是如何積累業(yè)務知識及行業(yè)經驗,形成知識庫。數據治理知識庫應包括:標準文件、模型(數據元)、DQC規(guī)則及數據清洗方案、腳本數據處理算法、指標庫、業(yè)務知識問答庫等,具體涵蓋內容及總體流程如下圖所示:
1. 標準文件
在2B和2G行業(yè)尤其是2G行業(yè),國家、行業(yè)、地方都發(fā)布了大量的標準文件,在業(yè)務和技術層面都進行了相關約束,并且指導新建業(yè)務系統的開發(fā)。標準文件知識庫涵蓋幾個方面:a.國標、行標、地標等標準的在線查看 b.相關標準的在線全文檢索 c.標準具體內容的結構化解析。
2. 數據元(模型)
對于不同行業(yè)來說技術標準中的命名以及模型是目前大家都比較關注的,也是在做數據中臺類項目以及數據治理項目比較耗時的地方,在金融領域已經比較穩(wěn)定的主題模型在其他行業(yè)尚未形成統一,所以對于做2B和2G市場的企業(yè)如何能沉淀出特定行業(yè)的數據元標準甚至是主題模型,對于行業(yè)理解及后續(xù)同類項目交付就至關重要。具體包括:實體分類、實體名稱名稱、中文名稱、英文名稱、數據類型、引用標準等。
3. DQC(數據質量稽核)&數據清洗方案
數據治理的關鍵點是提升數據治理,所以不同行業(yè)及各個行業(yè)通用的數據質量清洗方案及數據質量稽核的沉淀就尤為重要,比如通用規(guī)則校驗身份證號18位校驗(15轉18)、手機號為11位(如有國際電話需加國家代碼)、日期格式、郵箱格式等。
4. 腳本開發(fā)
在數據類項目中,數據mapping確認以后就是具體的開發(fā)了,由于數據處理方式的共性,可以高度提煉成特定類型的數據處理,比如交易流水一般采用追加的方式,每日新增數據append進來即可。狀態(tài)類的歷史拉鏈表形式等。此過程中的步驟都可以通過自動化程序來實現,同時借助于上面沉淀的具體標準內容,進一步規(guī)范化腳本開發(fā)。
5. 指標庫
對于一個行業(yè)的理解一定程度上體現在行業(yè)指標體系的建立,行業(yè)常用指標是否覆蓋全,指標加工規(guī)則是否有歧義是非常重要的兩個考核項,行業(yè)指標庫的建立對于業(yè)務知識的積累至關重要。
6. 業(yè)務知識問答庫
行業(yè)知識積累的最直觀體現是業(yè)務知識問答庫的建立,各類業(yè)務知識都可以逐步沉淀到問答庫中,并以問答等多種交互方式更便利的服務于各類使用人員。比如生態(tài)環(huán)境領域AQI的計算規(guī)則,空氣常見污染因子、各類污染指標的排放限值等,都可以以問答對形式進行沉淀。
基于以上知識的不斷沉淀積累,在數據治理開展過程中即可進行智能化推薦。如上圖所示,在做實體及屬性認定時結合NLP技術和知識庫規(guī)則即可進行相似度認定推薦。
并且隨著行業(yè)知識的不斷積累和完善后期可以直接推薦行業(yè)主題模型及主數據模型,以及針對實體及屬性的數據標準、數據質量檢查規(guī)則的推薦。
總結
流程化是數據治理工作開展第一步,是自動化和智能化的基礎,將數據治理各節(jié)點開展過程中用到的內容進行梳理并規(guī)范,包括:業(yè)務流程圖、網絡架構圖、業(yè)務系統臺賬等,行業(yè)知識梳理完善以后形成行業(yè)版知識(抽離通用版),如標準文件梳理:1.代碼表整理,2.數據元標準整理(數據倉庫行業(yè)模型對應標準梳理)。
自動化是將流程化標準后的工作進行自動化開發(fā),涉及倉庫模型設計、標準化、腳本開發(fā)、DQC、指標體系自動化構建,包括:自動化程序生成和自動化檢查。自動程序生成一是解放生產力,提高效率而是提升開發(fā)的規(guī)范化。自動化檢查包括:1.發(fā)現數據問題,出具質量報告(唯一性、空值等通用問題),2.行業(yè)知識檢查(行業(yè)版內置,不同行業(yè)關注的重要數據問題,并且會不斷完善知識庫)。
智能化是在流程化、自動化基礎之上針對數據拉通整合、主題模型、數據加工檢查給出智能化建議,減少人工分析的工作。
總體思路先解決項目上標準化執(zhí)行問題,然后提升建設效率及處理規(guī)范化問題(自動化處理),最后基于業(yè)務知識的沉淀最終實現全流程智能化構建。