データ品質とは、業務やシステムで使われるデータが、その目的に対して適切な状態にあるかどうかを示す概念です。「データが正しい」「使えるデータがある」というだけでなく、目的に応じた精度・鮮度・網羅性があるかまでを含めて評価します。
BI(ビジネスインテリジェンス)やAI・機械学習の活用が広がるなか、データ品質への注目が急速に高まっています。ツールがいくら優れていても、入力するデータの品質が低ければ正確な分析は行えません。「Garbage in, garbage out」という原則が、あらゆるデータ活用プロジェクトの前提として改めて問われています。
本記事はデータ品質の評価指標を「業務担当者向けに5次元で」解説します。DMBOKフレームワークに基づく体系的な解説はデータ品質を「診断」する——DMBOKが示す全体地図をご参照ください。
なぜ今、データ品質が重要なのか
DX推進の文脈で「データドリブン経営」「データ活用」という言葉が多くの企業で使われています。しかし実際には、BI導入後に「数字が合わない」「レポートが信頼されない」「毎月手作業で修正が必要」という問題が多くの組織で起きています。
こうした問題の大半は、ツール側の設定ではなく、そのツールが読み込むデータ自体の品質に起因しています。つまりデータ品質を改善しない限り、BI・AI・分析ツールのいずれを導入しても同じ問題が繰り返されることになります。
生成AIや機械学習モデルの学習データに品質の低いデータを使った場合、予測精度の低下・バイアスの埋め込み・モデルの過学習といった問題が発生します。データ品質の確保は、AI活用を本当に機能させるための前提条件です。
データ品質を評価する5つの指標
データ品質を客観的に評価するフレームワークとして、国際的に広く参照されているのがDAMA(データ管理協会)が定めるDMBOKのモデルです。BFT Insightでは、DMBOKが定める6次元を現場担当者が直感的に扱えるよう5次元に集約し、以下の指標でデータ品質を評価しています。
- 完全性(Completeness):必要なデータが欠けずに揃っているか
- 正確性(Accuracy):データが実際の事実を正しく反映しているか
- 一意性(Uniqueness):重複や矛盾なく1件のデータが一意に存在しているか
- 整合性(Consistency):複数のシステム・テーブル間でデータが一致しているか
- 最新性(Timeliness):データが現在の状態を適切な鮮度で反映しているか
データ品質を評価する5つの指標
指標①:完全性(Completeness)
完全性とは、分析や業務に必要なデータが欠損なく揃っているかを評価する指標です。例えば顧客マスタに「電話番号」や「メールアドレス」のNULL値が大量にある場合、マーケティング施策の到達率が下がり、実際のキャンペーン効果が正確に測れなくなります。
完全性が低くなる原因としては、入力フォームでの必須チェック未設定、システム移行時のデータロスト、複数部門からのデータ連携における欠損などが挙げられます。完全性を高めるには、発生源での入力ルール設計が最も根本的な対策です。
指標②:正確性(Accuracy)
正確性とは、データが現実の事実を正しく反映しているかを示す指標です。入力ミス・表記ゆれ・コード体系の不統一などが正確性を損なう主な原因です。
典型的な例が、同一の顧客や取引先が異なる表記(「株式会社○○」「(株)○○」「○○株式会社」など)で登録されているケースです。集計・レポートの信頼性に直接影響し、名寄せも困難になります。正確性の問題は多くの場合、プルダウン化やコードマスタの参照など入力設計の改善によって根本から解消できます。
指標③:一意性(Uniqueness)
一意性とは、データに重複がなく、1つの事象が1レコードとして一意に存在しているかを示す指標です。CRMの顧客データに同一人物が複数登録されていたり、受注データが重複登録されていたりする状態は、一意性が損なわれた典型例です。
重複データは集計結果の誤りに直結します。例えば顧客数を集計したとき、実際は1,000社なのに重複登録で1,200件として見えてしまう場合があります。一意性を確保するには、重複の検出・統合の判断基準の設定・入力時の重複チェック機能が必要です。
指標④:整合性(Consistency)
整合性とは、複数のシステムやデータソースにまたがるデータが矛盾なく一致しているかを示す指標です。例えば、CRMに登録されている顧客住所と基幹システムの住所が異なる、SFAの商談金額と会計システムの受注金額が一致しないといったケースが典型的です。
整合性が低くなる主な原因は、システム間の連携設計の不備、マスタデータの管理ルール不在、部門ごとの独自運用です。特にシステム統合やリプレイス後に顕在化しやすく、BFTの診断においても整合性の問題が発見されることが非常に多い領域です。
指標⑤:最新性(Timeliness)
最新性とは、データが現在の状況を適切な鮮度で反映しているかを示す指標です。いくら正確で完全なデータでも、それが1年前の状態であれば、現時点の意思決定には使えません。
最新性が低くなる原因としては、更新フロー・更新担当者の不在、手動更新に頼った運用の限界、定期的なデータ棚卸しプロセスの欠如などが挙げられます。「このデータはいつ時点のものか」を把握できる体制を整えることが、最新性確保の第一歩です。
5つの指標を組み合わせてデータ品質を数値化する
5つの評価指標はそれぞれ独立したものではなく、組み合わせて初めてデータの総合的な品質を把握できます。BFT Insightでは、この5次元を軸に現状のデータ品質をスコアリングし、どの領域に最も深刻な問題があるかを定量的に把握するアプローチをとっています。
例えば「完全性は高いが整合性が低い」「正確性に問題はないが最新性が劣化している」という形でプロファイリングすることで、打ち手の優先順位が明確になります。感覚的な「データが汚い」から、数値に基づく「どこが・どれだけ悪いか」への転換が、データ品質改善の本当の出発点です。
5次元スコアで現状を把握——「感覚」から「数値」へ
整備前(イメージ)
整備後(イメージ)
※スコアはイメージです。診断により実際の数値を可視化します
BFT Insight 診断レポート
BFT Insightでは5次元のスコアリングに基づくデータ品質診断レポートを提供しています。約2週間のQuick診断で、どの指標が低く、どのデータが問題の根本かを定量的に把握できます。
データ品質が低いと何が起きるか
- BIレポートの数字が信頼されず、現場が独自集計を続ける(二重管理の発生)
- AIや機械学習モデルの精度が向上しない(学習データの品質問題)
- マーケティング施策の到達率が低下し、費用対効果が計測できない
- 経営報告に誤った数値が混入するリスクが発生する
- システム移行・DXプロジェクトの手戻りが大量に発生する
- 担当者が毎月データ修正に数時間を費やすという非効率な運用が続く
データ品質低下が現場に引き起こす問題
品質問題
まず何から始めるべきか
データ品質の改善は、すべてを一度に完璧にしようとすると必ず失敗します。まず現状のデータ品質を「見える化」することが出発点です。5つの評価指標のうちどこに問題があるかを把握せずに改善に取り組んでも、効果が測定できず優先順位も決まりません。
現状把握の手段として最も確実なのは、専門家による診断です。社内にエンジニアやデータ担当者がいる場合でも、客観的な第三者の視点でスコアリングすることで、「見えていなかった問題」が浮かび上がることが多くあります。
BFT Insightでは、約2週間のQuick診断から始められます。まずデータの現状を数値で把握し、改善ロードマップの設計へとつなげていきます。「データ品質が気になっているが、どこから手をつければよいかわからない」という段階でのご相談も歓迎しています。