データ品質は「突然崩れる」のではない
「いつの間にか数字がおかしくなっていた」と感じることはありませんか。しかしデータ品質は、ある日突然崩れるわけではありません。日々の業務の中で少しずつ、気づかないまま積み重なっていくものです。入力の手間を省いた一行、担当者が変わって引き継がれなかったルール、システム改修のついでに変わった項目定義——そうした小さな変化が、数ヶ月後に「数字が合わない」という問題として表面化します。
つまり、データ品質の劣化は業務プロセスに埋め込まれた構造的な問題です。「誰かが悪い」「システムが古い」といった個別の原因論では解決できません。まず「どの段階で・なぜ劣化するのか」というメカニズムを理解することが、有効な対策の出発点です。
データライフサイクルの5段階
DMBOKはデータの一生を「生成→収集→保存→活用→廃棄」という5段階のライフサイクルで捉えます。生成フェーズでは業務システムや現場のフォームからデータが作られます。収集フェーズでは複数のソースからデータが集められ、ETL(抽出・変換・ロード)処理が行われます。保存フェーズでは倉庫(データウェアハウス)に蓄積され、活用フェーズでBIや分析ツールによって参照されます。そして廃棄フェーズで不要になったデータが整理されます。品質の問題はこれら各フェーズの「つなぎ目」で起きやすいのです。
品質が劣化する5つのポイント
ライフサイクルの各段階には、典型的な品質劣化の原因があります。まず「生成」段階での入力ミスや未入力。次に「収集」段階での変換エラーや文字コード・日付形式の不一致。「保存」段階では複数システム間での定義の不統一(「売上」の計上タイミングが部門ごとに違う、など)が起きます。「活用」段階では更新遅延により古いデータが参照される問題が生じます。そして「廃棄」段階では、削除されるべきデータが残り続けることで重複や矛盾が生まれます。これらは「入力する人が悪い」のではなく、各段階にルールと仕組みが整備されていないことが本質的な原因です。
根本原因は3つに分類される
DMBOKはデータ品質問題の根本原因を「人・プロセス・システム」の3つに分類します。人の問題とは、スキル不足・担当者交代による知識断絶・ルールの周知不足です。プロセスの問題とは、承認フローの欠如・更新タイミングの未定義・例外処理の属人化です。システムの問題とは、入力バリデーション(入力値チェック)の不備・システム間連携の仕様差異・マスタ管理機能の欠如です。重要なのは、どれか一つだけを修正しても再発するという点です。たとえばシステムに入力チェックを追加しても、プロセスが変わらなければ担当者は迂回路を使います。3つの要因を同時に改善する設計が必要です。
次回予告
第3回では「マスタデータ管理」をテーマにします。「うちの顧客数は何社?」という問いに複数の部門が異なる答えを返す——この問題の構造と解決策を解説します。
BFT Insight データ品質診断
御社のデータがどの段階でどのように劣化しているかを、2週間で診断しスコア化します。「どこから手をつければよいか」を根拠ある数字でご提示します。まずは資料でサービス内容をご確認ください。