クレンジングしても元に戻るのはなぜか：発生源の特定と修正ルール設計の実践 | データ品質改善サービス

「クレンジングをしたのに、数カ月後にはまた同じ状態に戻っていた」——現場でよく聞く声です。この問題の原因は、データの「汚れ」を修正しただけで、「なぜ汚れたか」という発生源が残ったままになっているためです。

医療機器を製造・販売する企業の支援では、取引先ごとにCSVやExcelの形式がバラバラで、表記ゆれ・欠損・重複が毎日のように発生していました。クレンジング作業そのものより先に必要だったのは、「なぜそれが発生するのか」を業務プロセスの中から特定することでした。発生源が分かって初めて、修正ルールの設計と自動化が意味を持ちます。

なぜ「また汚れる」のか——発生源を潰さないと繰り返す

クレンジングが「一時的なきれい状態」で終わる主な理由は3つです。

入力する人やシステムが変わっていないため、同じパターンで汚れが再発し続ける
データがどこで・なぜ汚れるかを特定しないまま修正しているため、発生源がそのまま残っている
修正の判断基準（ルール）が担当者の頭の中だけにあり、文書化・共有されていない

クレンジング作業に入る前に確認すべき問いは「このデータはなぜ汚れたか」です。入力フォームに制約がないから？複数のシステムが統合されたから？担当者が変わったから？発生源ごとに対処方法が異なるため、ここを特定しないと作業が終わりなき修正ループに入ります。

汚れの種類・発生源・対処のポイント

実践①「表記ゆれ」——変換辞書と命名規則で再発を防ぐ

表記ゆれの厄介さは、目視だけでは同一のものと判断できない記録が大量に混在していることです。「㈱山田商事」「山田商事株式会社」「ヤマダ商事」が同一企業だと機械が判断するには、明示的なルールが必要です。

修正のアプローチは2段階です。まず「何が正しい表記か」を定めた変換辞書を作成します。次に、その変換辞書をもとにSQLやPythonで一括変換し、以降の入力も変換辞書を参照するよう自動化します。医療機器を製造・販売する企業の支援では、取引先コードの変換表と命名規則を整備したことで、バラバラだった形式が統一され、日次集計が自動で回る状態になりました。

注意点として、変換辞書の作成は「どちらの表記に統一するか」という判断を含みます。「正式名称はどちらか」「システム間でどのコードを基準にするか」という問いに答えられるのは業務をよく知る現場の担当者です。IT担当者だけで進めると、技術的には動いても業務的に正しくない変換が発生しやすくなります。

実践②「重複データ」——名寄せより先に「統合基準」を決める

重複データの処理で多くの現場が陥るのは「どちらを残すか」という判断に迷い、作業が止まってしまうことです。これを防ぐには、作業の前に「統合基準キー」を定義する必要があります。

統合基準キーとは、「このフィールドが一致すれば同一とみなす」という判断の軸です。顧客データなら「登録番号」「電話番号」「メールアドレス」のどれを優先するかを先に決めます。自動車部品を製造する企業の在庫管理支援では、品目コードの表記ゆれと重複が原因で適正在庫の計算が正確に行えない状態でした。品目マスタを一本化し、統合基準キーを整理してからはじめて、データ駆動型の適正発注が実現できました。

名寄せの精度（完全一致・部分一致・ファジーマッチング）はデータの状況によって使い分けます。コードや番号が整備されている場合は完全一致で十分ですが、自由入力の会社名や住所が混在している場合はファジーマッチングが必要になります。ファジーマッチングは誤統合のリスクもあるため、候補を自動抽出して人が最終確認するハイブリッド方式が現実的です。

実践③「欠損・NULL」——「補完」か「廃棄」か、ユースケースで判断する

欠損値の処理は「すべて補完すればいい」わけではありません。ユースケースによって最適な対処が変わります。

集計・レポート用途：欠損を0や「不明」に置換することが多い。ただし0埋めが集計結果を歪める場合があるため注意が必要
AI・機械学習の学習データ：欠損率が高い列や行は除外を検討。補完するなら平均・中央値・直前値など、データの特性に合わせた方法を選ぶ
業務トランザクション：必須項目の欠損は原則として「補完しない・発生源を断つ」が基本。過去データは廃棄または「データなし」として記録し直す

精密金属加工を手がける企業の受発注業務支援では、FAX注文の手入力による転記ミスと欠損が常態化していました。過去の欠損データを補完するより先に必要だったのは「なぜ欠損が生まれるか」の特定で、転記という入力プロセス自体をAI-OCRに置き換えることで、発生源ごと解消しました。

IT担当者だけでは進められない理由——修正ルールの決定は業務知識が必要

クレンジング作業でよくある失敗は、IT担当者が技術的な処理だけを進めて、業務的な判断が抜け落ちることです。「変換辞書のどちらが正しい表記か」「重複した場合にどちらの値を残すか」「この欠損は補完してよいか廃棄すべきか」——これらの判断には業務の知識が必要で、SQLやPythonが書けることとは全く別の問題です。

現場でうまくいっているクレンジング体制には共通した役割分担があります。IT担当者が「技術的に可能なことと不可能なこと」を業務担当者に提示し、業務担当者が「業務的に正しいルール」を決定し、それをIT担当者が実装・自動化する——この流れが機能しています。逆に、この役割分担が崩れると「とりあえず直した」だけで終わり、次の担当者が同じ問題に直面することになります。

品質診断から始めることで、クレンジングの範囲と優先順位が明確になります

現在提供中のサービス「BFT Insight」では、データ品質の診断から、クレンジング作業の支援、定着化まで一貫してサポートします。「何から手をつけるか」が分からない段階からご相談ください。

サービス資料を無料ダウンロード →

よくある質問

名寄せはどのくらいのデータ量からツールが必要になりますか？

Excel関数（VLOOKUP・重複チェック）で対処できるのはおおよそ数千〜数万件程度が目安です。件数よりも「ゆらぎのパターン数」が多い場合や、コードではなく自由入力の氏名・会社名が対象になる場合は、Pythonや専用ツールの活用を検討してください。誤統合のリスクがあるケースは、ツールで候補を出して人が確認するハイブリッド方式が現実的です。

クレンジングを外注する場合、社内に残しておくべきものは何ですか？

「修正ルール（変換辞書・統合基準・補完方針）」を必ず社内ドキュメントとして残してください。ツールや実装は外注できますが、「なぜそのルールにしたか」という業務的な判断の根拠は社内資産です。これが残っていないと、次回以降も外注依存になり、ルールのメンテナンスもできなくなります。

表記ゆれの変換辞書はどうやって作り始めればよいですか？

まずSQLやExcelで「同一とみなせる可能性のある表記パターン」を抽出します（例：会社名リストをソートして目視確認、電話番号のハイフン有無でグループ化など）。最初から完璧な辞書を作ろうとせず、業務への影響が大きい上位パターンから順に対応するのが現実的です。BFTでは診断フェーズでこのパターン抽出と優先度付けを支援しています。