什么是數(shù)據(jù)完整性?數(shù)據(jù)溯源對于數(shù)據(jù)完整性的重要性
作者: 數(shù)環(huán)通發(fā)布時間: 2024-08-29 15:15:30
您是否曾與客戶服務代表交談以更正個人詳細信息——例如姓名拼寫錯誤(例如:Michelle而不是Michael)、轉(zhuǎn)置街道號碼(例如:1/34單元,而不是34/1單元)或其他缺失或不正確的細節(jié)?這些是數(shù)據(jù)完整性失敗的情況。
與數(shù)據(jù)完整性失敗相關(guān)的其他現(xiàn)實后果包括:
由于帳號錯誤,難以從金融交易中收回資金。
由于嵌入笑臉表情符號,移動支付失敗。
由于地址錯誤,從未收到過包裹,例如,在不同州為同一郊區(qū)名稱使用了錯誤的郵政編碼。
事實上,旨在保護正確數(shù)據(jù)的業(yè)務政策使修復數(shù)據(jù)錯誤變得痛苦。雖然保護個人身份信息(PII)的政府法規(guī)使注冊后更改PII數(shù)據(jù)對客戶來說變得困難和勞動密集型。為了避免像這些例子中那樣影響客戶體驗,我們需要強大的數(shù)據(jù)完整性。
數(shù)據(jù)完整性是一個必要的業(yè)務績效流程,對于應對數(shù)據(jù)在注冊、復制和以其他方式從現(xiàn)實世界的事實和事件中轉(zhuǎn)錄時所經(jīng)歷的錯誤至關(guān)重要。
隨著組織越來越多地使用的數(shù)字流程變得數(shù)據(jù)驅(qū)動,特別是通過使用機器學習,有效做出數(shù)據(jù)驅(qū)動的業(yè)務決策的能力越來越受到組織運營和分析數(shù)據(jù)的完整性的影響。
以下將探討數(shù)據(jù)完整性在您組織中的作用。
什么是數(shù)據(jù)完整性?
完整性意味著數(shù)據(jù)是可信和依賴的。在會計學中,財務業(yè)績的報告標準意味著財務報表中報告的數(shù)字必須準確、完整和一致。
數(shù)據(jù)完整性也適用同樣的標準。這些因素可以應用于數(shù)據(jù)來測試其完整性:
它是完整的,沒有缺失的數(shù)據(jù)元素
它是準確的,沒有來自源的數(shù)據(jù)錯誤
它在不同背景下是一致的
它是及時和最新的
當這四個條件不滿足時,數(shù)據(jù)可能會通過完整性措施。其中許多并不明顯,這些問題有時只能通過業(yè)務流程失敗或全面的數(shù)據(jù)分析工作來發(fā)現(xiàn)。
數(shù)據(jù)不完整
由于信息系統(tǒng)的歷史限制,由于字段不足,可能無法捕獲所有數(shù)據(jù)。由于數(shù)據(jù)模式的可擴展性,這在今天不太常見,然而,它可能會導致數(shù)據(jù)在錯誤的字段中捕獲(錯誤分類)或在需要更多時濃縮到一個字段中。這引入了噪音,降低了可用性。
雖然許多系統(tǒng)都有必填字段,但過多的必填字段將減慢客戶注冊流程。這種商業(yè)選擇也可能導致數(shù)據(jù)不完整。
數(shù)據(jù)不準確
許多類型的數(shù)據(jù),如SSN和駕駛執(zhí)照號碼,由一長串容易發(fā)生人為錯誤的數(shù)字組成。此外,拼寫錯誤或使用在下游數(shù)據(jù)處理工作中需要清除的奇數(shù)字符會影響數(shù)據(jù)的可用性。
其他錯誤,如虛榮的出生年份(故意讓自己看起來更年輕或更老)更難被發(fā)現(xiàn)。存在業(yè)務邏輯錯誤的派生或推斷字段也會影響準確性。僅支持男性/女性性別的舊系統(tǒng)也有問題。
數(shù)據(jù)不準確(和不完整)偶爾可以通過與權(quán)威來源進行回顧性數(shù)據(jù)匹配來修復。有了大型數(shù)據(jù)集,這種方法可能無效或受到監(jiān)管限制的禁止。
數(shù)據(jù)不一致
另一類數(shù)據(jù)完整性問題是自然事實與數(shù)據(jù)之間的不一致性。
業(yè)務流程將真實事實記錄在企業(yè)數(shù)據(jù)倉庫和內(nèi)部及跨組織的注冊表中。或者,記錄系統(tǒng)和具有數(shù)據(jù)副本的輔助系統(tǒng)之間存在不一致,這本身成為事實來源,導致兩個權(quán)威來源不一致。
這發(fā)生在一個主要銀行,一個新的“VP”CRM系統(tǒng)與單獨的零售客戶CRM一起建立起來,新的VIP CRM中捕獲的更豐富的數(shù)據(jù)從未反饋給零售CRM,即使它們共享相同的客戶記錄。
數(shù)據(jù)不及時
即使數(shù)據(jù)完整、準確且一致,也可能存在完整性問題。
這可能是因為數(shù)據(jù)過時(由于批量/ETL處理);有效載荷的時間戳計算錯誤(系統(tǒng)時間而非事件時間);或用于計算有效日期的標準與實際日期不同?;蛘邇H僅是因為數(shù)據(jù)陳舊,需要刷新。
這可能發(fā)生在使用發(fā)票發(fā)出日期而非采購訂單日期(即合同日期)時。這也是客戶聯(lián)系流程需要不斷重新確認客戶關(guān)鍵主數(shù)據(jù)的原因。
數(shù)據(jù)不真實
雖然這不一定與會計數(shù)據(jù)相關(guān),但對于PII(個人可識別信息)數(shù)據(jù),我們尤其需要警惕客戶的身份是否真實,尤其是在注冊時。隨著網(wǎng)絡釣魚和欺騙手段的日益猖獗,公司必須竭盡全力確??蛻舻纳矸輸?shù)據(jù)首次輸入時就是準確和完整的。
生產(chǎn)系統(tǒng)中存在的一種不真實數(shù)據(jù)是測試數(shù)據(jù)。雖然最佳實踐表明生產(chǎn)系統(tǒng)中不應包含測試數(shù)據(jù),但這種情況很少見,因為操作員不得不在生產(chǎn)系統(tǒng)中進行測試以進行業(yè)務常規(guī)(BAU)更改。
數(shù)據(jù)溯源對于數(shù)據(jù)完整性的重要性
執(zhí)行或降低數(shù)據(jù)溯源的業(yè)務流程與促進收入增長或降低成本的業(yè)務流程同樣重要。
數(shù)據(jù)溯源對于確保數(shù)據(jù)的來源(事實)以及數(shù)據(jù)在復制和其他變化過程中發(fā)生的情況(譜系)未被破壞或損壞至關(guān)重要。同時,不僅數(shù)據(jù)本身,數(shù)據(jù)的定義(元數(shù)據(jù))也必須盡可能保持一致。
許多組織都有嚴格的事實登記制度。在銀行中,這被稱為KYC(了解你的客戶)。在醫(yī)療領(lǐng)域,F(xiàn)HIR和HL7對病人和藥品數(shù)據(jù)進行了高度標準化。在其他監(jiān)管較少的行業(yè)中,這一流程則存在于他們的客戶360系統(tǒng)中。
監(jiān)管較少的行業(yè)可能會選擇優(yōu)先提高登記速度,而不是捕獲詳盡的客戶詳細信息(這會影響完整性)。缺失或不一致的數(shù)據(jù)對下游流程的影響是,限制了最大限度地發(fā)揮這種關(guān)系價值的能力,例如通過高度個性化的營銷活動,并且由于數(shù)據(jù)缺失導致客戶粘性不足,轉(zhuǎn)化率仍然很低。
為了在任何業(yè)務數(shù)據(jù)中實現(xiàn)業(yè)務流程之間價值交換的最大效益,關(guān)鍵數(shù)據(jù)必須完整、準確,并與真實(或自然)的事實和事件以及組織業(yè)務邊界內(nèi)相關(guān)數(shù)據(jù)存儲中的情況保持一致。同時,出于監(jiān)管和合規(guī)目的,向外部世界提供這些事實和事件的數(shù)據(jù)完整性也至關(guān)重要。