導(dǎo)語:
隨著越來越多的企業(yè)認(rèn)識到數(shù)據(jù)作為生產(chǎn)要素的價(jià)值,加快了企業(yè)數(shù)字化轉(zhuǎn)型,把完善企業(yè)級的數(shù)據(jù)治理體系作為企業(yè)數(shù)字化轉(zhuǎn)型的一個(gè)目標(biāo)。長亮科技在大數(shù)據(jù)領(lǐng)域始終保持足夠的技術(shù)敏銳度,并積累了豐富的經(jīng)驗(yàn)與資產(chǎn)。為此,我們組織了一個(gè)系列專文,分期發(fā)表,與您一起探索更適合當(dāng)下行業(yè)發(fā)展的數(shù)據(jù)觀,歡迎大家持續(xù)關(guān)注。
作者|長亮科技大數(shù)據(jù)研究院 內(nèi)容|本篇共3960字,預(yù)計(jì)閱讀時(shí)間18分鐘
數(shù)據(jù)是組織的戰(zhàn)略資產(chǎn),組織應(yīng)該清楚地了解“數(shù)據(jù)的戰(zhàn)略價(jià)值”以及如何釋放和利用數(shù)據(jù)來產(chǎn)生積極的業(yè)務(wù)影響。定義數(shù)據(jù)戰(zhàn)略的起點(diǎn)首先是了解如何以一種經(jīng)過深思熟慮、可重復(fù)、敏捷的方式使用數(shù)據(jù)來滿足企業(yè)內(nèi)外各種需求,從集成主數(shù)據(jù)開始,部署可重用的高質(zhì)量數(shù)據(jù),最終實(shí)現(xiàn)企業(yè)級的集成語義層。
01 需求驅(qū)動(dòng)與業(yè)務(wù)驅(qū)動(dòng) 許多組織習(xí)慣性地將需求驅(qū)動(dòng)軟件開發(fā)的傳統(tǒng)方法應(yīng)用于數(shù)據(jù)平臺類系統(tǒng)建設(shè)中,數(shù)據(jù)服務(wù)部門按照業(yè)務(wù)部門的需求進(jìn)行設(shè)計(jì)、開發(fā)提供數(shù)據(jù)服務(wù)。數(shù)據(jù)服務(wù)部門日常窮于應(yīng)付業(yè)務(wù)部門用戶需求,還要面對需求部門的抱怨,同時(shí)承受用戶對數(shù)據(jù)的正確性、一致性以及時(shí)效性不滿意。由于需求的分析結(jié)果不能交互共享,難以在組織內(nèi)獲得并充分利用數(shù)據(jù)的全部價(jià)值,不能消除企業(yè)層面的內(nèi)部障礙。他們?nèi)諒?fù)一日重復(fù)開發(fā)了數(shù)以萬計(jì)的表,知道自己一直在重復(fù)設(shè)計(jì)和分發(fā)相似的可能不正確或沖突的數(shù)據(jù),服務(wù)于特定目的需求功能,而很少關(guān)注數(shù)據(jù)本身,持續(xù)創(chuàng)建孤島。 基于孤立的、局部的數(shù)據(jù),只能產(chǎn)生業(yè)務(wù)特定的狹隘認(rèn)知,缺乏支撐業(yè)務(wù)快速行動(dòng)所需的黏合力、統(tǒng)一性與敏捷性,很難洞察出更多的業(yè)務(wù)價(jià)值,難以滿足業(yè)務(wù)發(fā)展與競爭需要。局部范圍的數(shù)據(jù)質(zhì)量問題往往也難以及時(shí)發(fā)現(xiàn),可能產(chǎn)生不良后果,如誤導(dǎo)客戶營銷,增加風(fēng)險(xiǎn),導(dǎo)致合規(guī)成本飆升等等,投入巨資重復(fù)建設(shè)而獲得的價(jià)值很小。 設(shè)計(jì)良好的軟件解決方案可以利用封裝的可重用功能組件,獲得可靠的質(zhì)量保證,同時(shí)避免了重復(fù)開發(fā)帶來的各種成本與不確定性。 數(shù)據(jù)價(jià)值不在于預(yù)定義的處理功能,而在于數(shù)據(jù)本身。以數(shù)據(jù)為中心是一種靈活的企業(yè)數(shù)據(jù)架構(gòu),在數(shù)據(jù)分析生態(tài)環(huán)境中部署可重用的高質(zhì)量數(shù)據(jù):采集最廣泛來源的數(shù)據(jù),按照統(tǒng)一的規(guī)范清洗與轉(zhuǎn)換數(shù)據(jù),清理冗余數(shù)據(jù),提升數(shù)據(jù)的準(zhǔn)確性、一致性與完整性等內(nèi)在價(jià)值,形成反映企業(yè)完整的數(shù)據(jù)單一視圖。然后基于統(tǒng)一的數(shù)據(jù)創(chuàng)建不同視圖重用于多種目的,并確保需要它的每個(gè)人都可以訪問它,將分析轉(zhuǎn)移到數(shù)據(jù)中,而不是相反地——為每個(gè)需求復(fù)制數(shù)據(jù)。 在數(shù)據(jù)驅(qū)動(dòng)的背景下,可以有效管理數(shù)據(jù)需求,新需求首先考慮如何從已搭建的集成數(shù)據(jù)環(huán)境中尋找是否有可重用的數(shù)據(jù)資產(chǎn)——獲得 “免費(fèi)午餐”,不需要從頭開始,因而可以顯著降低開發(fā)和維護(hù)成本,減少尋找數(shù)據(jù)的時(shí)間,快速部署響應(yīng)市場變化和各種需求。 數(shù)據(jù)能夠回答多少業(yè)務(wù)問題,取決于數(shù)據(jù)能產(chǎn)生多少有意義的組合。冗余數(shù)據(jù)與垃圾數(shù)據(jù)將使可能的組合發(fā)散,有價(jià)值的數(shù)據(jù)被淹沒在垃圾海洋中,不能產(chǎn)生更多的有價(jià)值的信息,使數(shù)據(jù)問題擴(kuò)散,使用戶迷惑。數(shù)據(jù)集市的需求是確定的,因而數(shù)據(jù)是確定的,所能產(chǎn)生的組合也是確定的。 與分散的數(shù)據(jù)集市環(huán)境存在顯著不同,在企業(yè)集成數(shù)據(jù)環(huán)境中可以回答的跨領(lǐng)域的業(yè)務(wù)問題,隨著集成數(shù)據(jù)領(lǐng)域的增加,能回答的問題呈指數(shù)級增長,這是回答新問題、產(chǎn)生新價(jià)值的來源。 圖1:數(shù)據(jù)能夠回答多少業(yè)務(wù)問題,取決于數(shù)據(jù)能產(chǎn)生多少有效組合 比爾·恩門認(rèn)為數(shù)據(jù)的集成是數(shù)據(jù)倉庫的第一真相。公司越大,這一點(diǎn)就越真實(shí)。數(shù)據(jù)集成是數(shù)據(jù)倉庫建設(shè)的核心內(nèi)容,需要深入調(diào)研數(shù)據(jù)現(xiàn)狀,排除垃圾與冗余數(shù)據(jù),定義與分類數(shù)據(jù),建立數(shù)據(jù)之間關(guān)系。這些工作需要具備專業(yè)能力與持久韌性,一些供應(yīng)商和顧問們忽視甚至排斥集成,但是在數(shù)據(jù)倉庫之外沒有其他方法可以進(jìn)行集成,也沒有捷徑。 DAMA 等專業(yè)組織把數(shù)據(jù)集成與數(shù)據(jù)架構(gòu)分別作為獨(dú)立的職能。如果把數(shù)據(jù)集成作為數(shù)據(jù)架構(gòu)的一部分,表面上似乎降低了對數(shù)據(jù)管理相關(guān)領(lǐng)域的理解難度與復(fù)雜度,但也降低了數(shù)據(jù)集成的重要性,忽視了數(shù)據(jù)架構(gòu)、數(shù)據(jù)集成、應(yīng)用架構(gòu)之間的關(guān)系。
02
來自于高度的數(shù)據(jù)集成 彼得·德魯克說過,效率致力于正確地做事,效果則是做正確的事。 在數(shù)據(jù)倉庫20多年的發(fā)展過程中,不同供應(yīng)商與用戶角色專業(yè)人員對數(shù)據(jù)集成的理解與認(rèn)識存在很大差異,大多停留在表面的粗淺理解中,或故意忽略或回避“數(shù)據(jù)集成”的本質(zhì),既不能正確地做事,也不能做正確的事,數(shù)據(jù)集成的成熟度沒有得到質(zhì)的提升。 代表高質(zhì)量數(shù)據(jù)的完整性來自數(shù)據(jù)的高度集成。中文語境下的“整合”概念,并不能覆蓋英文語境“集成”概念的豐富內(nèi)涵。英文語境中集成與完整性詞根相同,可以說數(shù)據(jù)集成的本質(zhì)目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)的完整性,有清晰的標(biāo)準(zhǔn)要求。把多個(gè)數(shù)據(jù)源以通用格式存儲到數(shù)據(jù)湖中,然后轉(zhuǎn)換為目標(biāo)物理模型結(jié)構(gòu)的數(shù)據(jù),存儲在相同的數(shù)據(jù)模型中,還不是完整的數(shù)據(jù)集成。 數(shù)據(jù)集成在邏輯數(shù)據(jù)建模過程中需要開展以下設(shè)計(jì)工作: 圖2:業(yè)務(wù)價(jià)值隨持續(xù)集成的數(shù)據(jù)增長
03
確定集成路線圖的初始數(shù)據(jù)范圍很重要,以確保承諾的價(jià)值交付時(shí)間表。數(shù)據(jù)部門人員通常會(huì)注意到:不同的應(yīng)用需求,經(jīng)常需要一些相同的數(shù)據(jù),如客戶、機(jī)構(gòu)、利率、匯率等主數(shù)據(jù)以及參考數(shù)據(jù)幾乎被所有應(yīng)用所需。某些跨職能應(yīng)用問題具有廣泛的業(yè)務(wù)影響,需要多個(gè)主題域來回答,提供前瞻性洞察。應(yīng)采用務(wù)實(shí)的策略,盡快滿足業(yè)務(wù)的迫切需求,優(yōu)先考慮公共需要的數(shù)據(jù)以及那些直接支持業(yè)務(wù)目標(biāo)的已知業(yè)務(wù)問題并為后續(xù)新項(xiàng)目增加附加價(jià)值的數(shù)據(jù),如風(fēng)險(xiǎn)合規(guī)和財(cái)務(wù)會(huì)計(jì)以及客戶、產(chǎn)品主數(shù)據(jù)等,杠桿撬動(dòng)作用大,見效快。 以客戶數(shù)據(jù)為例,客戶數(shù)據(jù)是企業(yè)的戰(zhàn)略數(shù)據(jù),企業(yè)價(jià)值的實(shí)現(xiàn)來自客戶。作為關(guān)鍵主數(shù)據(jù)的客戶數(shù)據(jù),可能分布在組織內(nèi)部不同業(yè)務(wù)系統(tǒng)中,來自不同數(shù)據(jù)源表達(dá)的信息要素各有側(cè)重,客戶的結(jié)構(gòu)屬性可能有交叉、互補(bǔ)與差異,屬性的格式與值有差異,客戶記錄數(shù)也可能有差異,需要集成形成完整一致的集合。不同行業(yè)組織之間的客戶數(shù)據(jù)也存在以上這些差異。比如保險(xiǎn)業(yè)、銀行業(yè)、電信業(yè)關(guān)注的信息要素可能有許多不同,包括客戶的定義信息、客戶購買產(chǎn)品歷史、行為偏好等,如何從客戶數(shù)據(jù)中獲取價(jià)值,都將成為獲得競爭優(yōu)勢的關(guān)鍵途徑。 通過持續(xù)集成來自組織內(nèi)外不同數(shù)據(jù),可以形成客戶信息360° 視圖,了解產(chǎn)品與服務(wù)組合的變化對客戶的影響, 更快地識別客戶需求、問題、機(jī)會(huì),擴(kuò)大客戶群,給不同客戶提供不同服務(wù),更有效地向客戶交叉銷售,提升客戶給企業(yè)帶來的價(jià)值。而在應(yīng)用需求驅(qū)動(dòng)的背景之下,如同盲人摸象,每個(gè)人得到的僅是局部片面的信息。 類似還有市場數(shù)據(jù)、產(chǎn)品數(shù)據(jù)的集成,特別是市場數(shù)據(jù)的集成,如基金市場的產(chǎn)品數(shù)據(jù),銀行既可以代銷,也可以使用自有資金投資,本是同一產(chǎn)品概念,在通過不同的渠道接入不同的業(yè)務(wù)系統(tǒng)時(shí)設(shè)計(jì)了不一致的結(jié)構(gòu),維護(hù)了不同的數(shù)據(jù)集合,在進(jìn)行整合時(shí)往往不被識別出來而設(shè)計(jì)成不同的概念,如代銷基金產(chǎn)品、共同基金產(chǎn)品。
04 結(jié)合最新技術(shù)與實(shí)踐 構(gòu)建企業(yè)集成語義層 需要注意的是,盡管傳統(tǒng)的ETL或ELT數(shù)據(jù)集成流程已經(jīng)存在了很多年,但數(shù)據(jù)的集成并不意味著一定伴隨數(shù)據(jù)的移動(dòng)與復(fù)制,可以與數(shù)據(jù)的位置無關(guān),基于云的數(shù)據(jù)集成平臺越來越普遍。復(fù)制需要時(shí)間與資源,復(fù)制過程可能導(dǎo)致數(shù)據(jù)泄漏、丟失或變形失真。在許多數(shù)據(jù)平臺與數(shù)據(jù)應(yīng)用項(xiàng)目中,不斷復(fù)制數(shù)據(jù),把數(shù)據(jù)從業(yè)務(wù)源系統(tǒng)復(fù)制到數(shù)據(jù)湖,再加工復(fù)制到數(shù)據(jù)倉庫,從數(shù)據(jù)倉庫遷移到各種集市,野蠻生長之后再進(jìn)行治理。不同業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)價(jià)值差異懸殊,一些非核心業(yè)務(wù)系統(tǒng)中有價(jià)值的數(shù)據(jù)很少,都復(fù)制到數(shù)據(jù)湖中是不明智的。ChatGPT 推動(dòng)的生成式 AI 興起,點(diǎn)燃了對高質(zhì)量數(shù)據(jù)的需求(質(zhì)量、時(shí)效性與覆蓋范圍),傳統(tǒng)ETL或ELT方法不可能滿足這些要求。 結(jié)合應(yīng)用數(shù)據(jù)架構(gòu)、分類法、本體模型、業(yè)務(wù)詞匯表、元數(shù)據(jù)和知識圖譜的關(guān)鍵元素,表示組織知識和領(lǐng)域含義,聚合和統(tǒng)一非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù),定義數(shù)據(jù)之間的關(guān)系,通過持續(xù)的數(shù)據(jù)探索,集成和編目,構(gòu)建集成的業(yè)務(wù)語義層,提供來自任何領(lǐng)域的一致信息視圖,而無需將所有內(nèi)容都復(fù)制移動(dòng)到一個(gè)系統(tǒng)中。借助集成語義層,可以使用單一框架來訪問、理解和集成知識資產(chǎn),這也是實(shí)現(xiàn)人工智能的基礎(chǔ)。 2016年 Noel Yuhanna(Forrester)首次提出了大數(shù)據(jù)編織概念,在Gartner推動(dòng)下,數(shù)據(jù)編織已成為現(xiàn)代數(shù)據(jù)管理的重要趨勢。數(shù)據(jù)編織不強(qiáng)制數(shù)據(jù)物理遷移,通過主動(dòng)元數(shù)據(jù)、知識圖譜、人工智能(AI)和機(jī)器學(xué)習(xí)(ML)等技術(shù),動(dòng)態(tài)整合跨平臺、跨環(huán)境的數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)化探索、集成、治理和交付。數(shù)據(jù)編織已從“創(chuàng)新萌芽期”進(jìn)入“期望膨脹期”,雖沒有全面成熟,數(shù)據(jù)虛擬化、主動(dòng)元數(shù)據(jù)管理、AI驅(qū)動(dòng)的數(shù)據(jù)集成等技術(shù)已相對成熟,可用于實(shí)現(xiàn)邏輯數(shù)據(jù)集成和動(dòng)態(tài)編排。 結(jié)語: