「売上予測にAIを使いたい」「需要予測を自動化したい」「チャーン(解約)を予測してリテンションに活かしたい」——このような要望が増える一方、「モデルを構築したのに精度が上がらない」「学習データを準備しようとしたら品質が悪すぎて使えなかった」という問題も頻発しています。
予測AIが「データ品質に非常に敏感」な理由は、その仕組みにあります。予測AIはルールを人間が書くのではなく、「過去データからパターンを学習」します。学習データに欠損・異常値・古い情報が混在していると、そのパターン自体が歪んだものになり、どれだけ高性能なモデルを使っても精度は上がりません。
本記事は売上予測・需要予測・チャーン予測のような「機械学習ベースの予測モデル」に絞った内容です。
なぜ予測AIはデータ品質に「特に」敏感なのか
ルールベースのシステムは人間がルールを定義します。欠損データは「その行を飛ばす」設計にできます。一方、機械学習モデルは過去データからパターンを見つけ、そのパターンで未来を予測します。「欠損・外れ値・古いデータ」が学習データに含まれると、見つけ出すパターンそのものが歪むため、精度が構造的に出なくなります。「ゴミを入れたらゴミが出る(Garbage In, Garbage Out)」という原則は、予測AIに対して特に強く当てはまります。
精度を左右する3つの品質条件
条件1:欠損率(Missing Rate)——NULLが多いと学習が壊れる
学習データの中にNULL(未入力・欠損)が多いと、モデルはそのフィールドのパターンを正しく学習できません。欠損率は10〜15%を超えると予測精度への悪影響が出やすくなります。ただし影響度はフィールドによって異なります。「予測に直接使われる特徴量(feature)」の欠損は致命的で、補助的な情報フィールドの欠損は相対的に影響が小さい。まず「どのフィールドを特徴量として使うか」を定義し、そのフィールドの欠損率を確認する順序が実務的です。
条件2:外れ値・異常値(Outliers)——まれな値が学習にバイアスをかける
特需・入力ミス・システムバグによる異常値が含まれると、モデルがその値のパターンを「正常な傾向」として学習します。重要なのは、外れ値を「すべて除外すればよい」わけではないことです。チャーン予測では、解約率が高かった時期のデータは重要な学習情報です。「外れ値がなぜ発生したか」を業務的に理解し、本当に異常なもの(入力ミス・バグ)のみを除外することが求められます。
条件3:データの鮮度(Recency)——古い傾向で未来は予測できない
過去10年間のデータをそのまま学習に使うと、現在とは異なる時期のパターンが強く反映されます。特に2020〜2022年(コロナ禍)のような特殊期間のデータは、それ以前・以降の傾向とは異質なため、含め方に注意が必要です。ただし「最新データだけを使えばよい」という単純な話でもありません。季節性のある予測や複数年にわたる成長トレンドを捉えるためには、ある程度の期間のデータが必要です。鮮度と網羅性のバランスを取るため、「時系列の重み付け」や「特定期間の除外判断」が必要になります。
ユースケース別:どの品質条件が特に重要か
- 【売上予測】最も影響が大きいのは「外れ値」と「鮮度」。大型一時受注・特需・コロナ禍などの特殊期間が学習を歪めやすい。特徴量となる過去受注データ・商談ステージの欠損率管理も重要。
- 【需要予測(在庫最適化)】「鮮度」が最重要。消費トレンドは変わりやすく、2〜3年前の購買パターンが現在に当てはまらないことが多い。在庫データの「欠品時の0件」と「実需要が0件」の区別も精度に影響する。
- 【チャーン予測(解約予測)】「欠損率」が特に問題になる。解約予兆として重要な「サービス利用頻度・ログイン回数・問い合わせ回数」などの行動ログが、システム設計によっては記録されていないケースがある。「データが取れているか」の確認が先決。
整備の入口:何を確認すれば動き出せるか
データ整備を始める前に確認すべきことは、(1)学習に使う予定のフィールドが実際に存在しているか、(2)そのフィールドの欠損率が許容範囲内か、(3)外れ値と思われるレコードの発生原因が業務的に説明できるか、の3点です。これらが把握できれば、整備の優先順位と必要工数の見積もりができます。多くの場合「AIプロジェクト開始後にデータを見てから問題に気づく」という順序になっています。データ品質確認をプロジェクト計画の最初に位置づけることが、予測AI導入を成功させる最短ルートです。
予測AI導入前のデータ品質診断
「売上予測・需要予測のためのデータを準備したいが、現状のデータが使えるか不安」というご相談をよくいただきます。予定する予測ユースケースに対して必要なデータが揃っているか・欠損率・外れ値の状況を2週間程度で診断し、整備すべき項目を優先順位付きでご提示します。
よくある質問
生成AI(ChatGPTなど)とも品質要件は同じですか?
いいえ、異なります。生成AIはテキスト・画像などの非構造化データを扱い、RAG(検索拡張生成)やファインチューニングで品質を改善する手法が中心です。一方、本記事で扱う予測AI(機械学習)は構造化データ(表形式のCSV・データベース)を学習データとして使います。どちらも「データ品質が重要」という点は共通ですが、品質要件の内容と整備方法は異なります。
欠損データは統計的補完で解決できますか?
統計的補完(平均値埋め・前後の値の補間など)は軽微な欠損には有効です。ただし欠損率が高い場合や、欠損が特定パターンを持つ場合(例:小規模顧客のみデータが欠けている)は補完より「欠損が発生する業務プロセスを修正する」ことが根本解決です。補完はあくまで「ない情報を推定で埋める」行為であり、本来のデータではありません。
どの程度のデータ量があれば予測モデルを作れますか?
一般的には予測したいパターンに対して数百〜数千件以上のサンプルが必要とされます。ただし「データ量」より「データの質と代表性」のほうが重要なケースが多く、1万件の欠損だらけのデータより1,000件の品質の良いデータのほうが良いモデルを作れることもあります。データ量の問題より品質の問題を先に解決することをお勧めします。