なぜデータは汚れるのか——劣化のメカニズムを知れば対策が見える | データ品質改善サービス

データ品質は「突然崩れる」のではない

「いつの間にか数字がおかしくなっていた」と感じることはありませんか。しかしデータ品質は、ある日突然崩れるわけではありません。日々の業務の中で少しずつ、気づかないまま積み重なっていくものです。入力の手間を省いた一行、担当者が変わって引き継がれなかったルール、システム改修のついでに変わった項目定義——そうした小さな変化が、数ヶ月後に「数字が合わない」という問題として表面化します。

つまり、データ品質の劣化は業務プロセスに埋め込まれた構造的な問題です。「誰かが悪い」「システムが古い」といった個別の原因論では解決できません。まず「どの段階で・なぜ劣化するのか」というメカニズムを理解することが、有効な対策の出発点です。

データライフサイクルの5段階

データが生まれてから活用されるまでの5段階

DMBOKはデータの一生を「生成→収集→保存→活用→廃棄」という5段階のライフサイクルで捉えます。生成フェーズでは業務システムや現場のフォームからデータが作られます。収集フェーズでは複数のソースからデータが集められ、ETL（抽出・変換・ロード）処理が行われます。保存フェーズでは倉庫（データウェアハウス）に蓄積され、活用フェーズでBIや分析ツールによって参照されます。そして廃棄フェーズで不要になったデータが整理されます。品質の問題はこれら各フェーズの「つなぎ目」で起きやすいのです。

品質が劣化する5つのポイント

各遷移ポイントで起きやすい品質劣化の原因

ライフサイクルの各段階には、典型的な品質劣化の原因があります。まず「生成」段階での入力ミスや未入力。次に「収集」段階での変換エラーや文字コード・日付形式の不一致。「保存」段階では複数システム間での定義の不統一（「売上」の計上タイミングが部門ごとに違う、など）が起きます。「活用」段階では更新遅延により古いデータが参照される問題が生じます。そして「廃棄」段階では、削除されるべきデータが残り続けることで重複や矛盾が生まれます。これらは「入力する人が悪い」のではなく、各段階にルールと仕組みが整備されていないことが本質的な原因です。

根本原因は3つに分類される

データ品質問題の根本原因は「人・プロセス・システム」の3つに分類される

DMBOKはデータ品質問題の根本原因を「人・プロセス・システム」の3つに分類します。人の問題とは、スキル不足・担当者交代による知識断絶・ルールの周知不足です。プロセスの問題とは、承認フローの欠如・更新タイミングの未定義・例外処理の属人化です。システムの問題とは、入力バリデーション（入力値チェック）の不備・システム間連携の仕様差異・マスタ管理機能の欠如です。重要なのは、どれか一つだけを修正しても再発するという点です。たとえばシステムに入力チェックを追加しても、プロセスが変わらなければ担当者は迂回路を使います。3つの要因を同時に改善する設計が必要です。

次回予告

第3回では「マスタデータ管理」をテーマにします。「うちの顧客数は何社？」という問いに複数の部門が異なる答えを返す——この問題の構造と解決策を解説します。

BFT Insight データ品質診断

御社のデータがどの段階でどのように劣化しているかを、2週間で診断しスコア化します。「どこから手をつければよいか」を根拠ある数字でご提示します。まずは資料でサービス内容をご確認ください。