社内データを活用していきたいが、膨大なデータに対して何をすればいいかわからない。
データクレンジングの具体例や効率的なプロセスが知りたい。

そのような方に向けて、本記事ではデータを効率的に活用していく上で必要な「データクレンジング」について解説します。

  • データクレンジングの意味や具体例
  • データクレンジングが必要な理由
  • データクレンジングの進め方

これから自社でもデータ活用を始めたいとお考えの企業の方は、ぜひ参考にしてください。

 

西潤史郎(監修)/データ分析基盤.com編集部

uruos.net/Submarine LLC

データエンジニア/Editor Team

データクレンジングとは?

データクレンジングはデータ分析基盤などで行われるデータ処理プロセスの一部で、データクリーニングともよばれるプロセスです。

データベースやデータセットから誤記、欠損、重複、無関係な内容などの誤った情報を含むデータ(ダーティデータ)を検出し、削除または修正を行います。

日頃収集する膨大なデータには、表記ゆれや重複、情報の欠如・誤りがあり、そのままの形ではデータが正しく認識されなかったり、分析結果に矛盾が生じることがあります。

データクレンジングを行い、データの精度と品質を向上させることで、BI(ビジネスインテリジェンス)ツールでの分析や可視化が容易になり、データドリブンな意思決定をすることが可能です。

また、今回のデータクレンジングの範囲には「名寄せ」も含めています。名寄せとは、類似または同一の情報を統合し、重複を排除する作業です。

データクレンジングの具体例

データクレンジングで修正するものの具体的な例としては、以下の通りです。

  • 月日の表記揺れ:西暦と元号の混在。日付の表示方法のずれなど
  • 法人格について:株式会社と(株)など表記方法のずれ
  • 電話番号:ハイフンの有無や、市外局番の有無
  • 半角や全角のずれ
  • 記号:中黒(・)やスペースの有無や配置
  • 測定単位:mとcmなど
  • 入力ミス
  • 重複したデータ

データクレンジングが必要な理由

データ分析の世界では”Garbage in, Garbage out(ゴミからはゴミしか生まれない)”という格言があります。データクレンジングが必要な理由はまさにこれです。もう少し掘り下げると大まかに以下4つの理由が挙げられます。

  • データの品質向上
  • 効率的なデータ分析
  • 正確な意思決定
  • コストの削減

データの品質向上

データクレンジングを定期的に行うことで、データが正確な状態になり、品質が向上します。

データに欠損や不備、表記ゆれなどがあると、蓄積したデータを使って正しい分析やデータ活用をすることができません。

例えば、顧客情報を検索する際に、名前や住所などの表記ゆれがあると、正しい顧客情報が見つけられないことがあります。また、同じ顧客のデータが重複して登録されていると、どの情報が正しいのか判断しにくくなり、データ管理が複雑化してしまいます。

効率的なデータ分析

データクレンジングされたデータセットは、データ分析をより迅速かつ効率的に行うのに役立ちます。

例えば、営業担当者が顧客情報を探す際に、データクレンジングがされていると、住所や顧客名など一部のデータを検索して、正しいデータを見つけることが可能です。

データの不備が修正されることで、分析ツールやアルゴリズムがスムーズに機能します。

データ分析では、大量のビッグデータを扱うため、データクレンジングができていない場合、不正確になるだけではなく、処理時間にも影響を与えてしまいます。

正確な意思決定

組織が正確でデータドリブンな意思決定の基盤を作るため、データクレンジングは欠かせません。

データクレンジングをしっかり行うことで、重複やデータの不備が取り除かれ、正確で信頼性の高い分析が可能になります。これにより、データに基づいた経営判断や戦略立案をより的確に実行でき、ビジ ネスの成功につながるでしょう。

コストの削減

データベースのクレンジング作業により、コスト削減にもつながります。データクレンジングで必要なデータを素早く見つけられる、または効果的なデータ分析によって、社内の業務効率化に役立つ情報をいち早く発見できるためです。

不要なデータや目視などでの管理にかかる人件費を最適化することで、サーバー維持コストや、人件費を削減できます。

データクレンジングのプロセス

ここでは、データクレンジングの基本的な進め方について解説します。

1.データの理解と評価

最初のステップは収集されたデータを理解し、その品質を評価することです。データの理解の内容としては、データの形式、内容、データソース、データフィールドなどの把握や、識別などが含まれます。次にデータの品質を評価します。具体的には、以下の問題点を特定します

  • データセット内の欠損値
  • 不正確なデータ
  • 重複データ
  • 一貫性の欠如

データを適切に理解、評価することで、クレンジング作業の方向性が定まり、より適切なクレンジングが可能となります。

2.データの取り込みと統合

異なるソース、例えばデータベース、スプレッドシート、API、テキストファイルなどからのデータを取り込むプロセスです。一貫性のある構造のデータに統合します。

3.データの前処理

データの前処理として、日付の形式を統一する、テキストデータの大文字小文字を揃えるなどの作業を行います。テキストやラベルで表現されたカテゴリ(分類)情報を、データ分析や機械学習で扱いやすいように数値データに置き換えることもこの段階で行います。

データの「名寄せ」を行う場合も、ここで決めたルールに従って統合していくことになります。

4.欠損値の処理

データセット内の欠損値を確認し、修正を行うプロセスです。具体的な方法としては以下の方法があります。

  • 欠損値を削除する
  • 平均値や中央値で埋める
  • 特定の値で補完する

状況にあわせより、正確なデータとなるよう処理を行います。

5.重複データの処理

データセット内で重複データを検出し、不要な重複を削除する作業を行います。

また、データの重複を整理したあとは、データ処理のルールについて、全体で共有しておくと、今後データ重複が発生することを予防できます。

6.不正データの修正

不正データ(外れ値)を検出し、適切な値に修正するプロセスです。

具体的には誤った入力や、数字としてありえないデータ、データフォーマットのエラーなどがあります。

不正データはデータ分析の結果を歪める大きな要因となるため、慎重に対処することが大切です。

7.データの一貫性チェック

データセット全体が適切にクレンジングされ、データとして扱いやすいものとして生成されているか、確認します。

データが定義された基準や、ビジネスルールに従っているか、データ間の関連性があるかを確認する作業です。データ入力についてルールが定められると、データ管理の負担が少なくなります。

8.データの検証

クレンジングが完了したデータに対して、再度品質チェックを行い、データクレンジングの各ステップが正しく実行されたことを確認します。

9.データの保存と文書化

クレンジングされたデータは保存され、クレンジングプロセスやデータ作成時のフォーマット・ルールについて文書にまとめる工程です。

将来的にデータを再利用または再評価する際のガイドラインとなります。今後のデータクレンジングの工程を効率化させるためにも欠かせません。

どんなツールが使われているのか?

データクレンジングには、ExcelのVLOOKUPや関数を使うことも可能ですが、より便利なツールもあります。これらのツールをうまく適用することで、データクレンジングやそれ以外の工程まで自動化させることが可能です。

ここでは、どのようなツールが使われているのか、それぞれの特徴と適用範囲をまとめました。

ツール 特徴 適用範囲
OpenRefine オープンソースのデータクレンジングツール。
日本語にも対応しています。
データの整理、重複削除、フォーマット変換などに優れています。
大規模なデータセットのクリーニングに便利です。
データの探索、クリーニング、変換、正規化など。
Trifacta 商用のデータクレンジングツール。
直感的に操作できるUIと強力なデータ変換機能を備えています。
データウェアハウスやデータレイクとの統合も可能です。
データ準備、クリーニング、統合など。
Talend Data Quality/Talend Data Preparation ETLプロセスをサポートするツールで無償試用版と有償版があります
リアルタイムでのデータプロファイリング、クリーニング、マスキングが可能です。
データインテグレーション、プロファイリング、クレンジングなど。
Python(pandas, numpyなど) Pythonは強力なプログラミング言語であり、ライブラリにあるpandasやnumpyなどツールがデータ処理に役立ちます。
データの操作や変換が柔軟に行え、データ分析や機械学習の前処理にも適しています。
データの操作、変換、解析、クレンジングなど。
Power Query(Excel/Power BI) ExcelやPower BIに組み込まれているツールで、データの抽出、変換、読み込み(ETL)を支援します。
直感的なインターフェースで、特にビジネスユーザーにとって使いやすいです。
データの取り込み、変換、クレンジングなど。

まとめ

データクレンジングは、データを最適化し、データ分析の効果を最大限発揮するために欠かせないプロセスの1つです。

適切にデータクレンジングをするためには、どのようなデータが必要なのか、どのようにクレンジングをするのか方向性を定め、集める情報に合わせてデータ形式や内容を決める必要があります。

企業内のデータを適切にクレンジングし、データ分析の運用体制を構築する際の参考にしてください。

この記事を書いた人

西潤史郎(監修)/データ分析基盤.com編集部

uruos.net/Submarine LLC

データエンジニア/Editor Team