データマイニング

データマイニングとは

データマイニングとは、統計学的手法やパターン認識、機械学習などのデータ解析を用いて、大量のデータから知識を取り出す行為のことです。
テキストを対象とするものをテキストマイニング、ウェブページを対象にしたものをウェブマイニングとそれぞれ呼ばれています。
ハードウェアと解析技術の向上に伴い、2010年代頃から盛んに行われるようになりました。

データマイニングは、少数のデータから主に相関関係や因果関係の仮説検証を目的に行う従来型の統計解析とは異なり、データベースやビッグデータと呼ばれる大規模なデータから有用なデータを掘り起こします(マイニング)。
したがって、発見型(ヒューリスティック)の知識獲得を目的とするニュアンスが含まれています。
消費行動分析や顧客セグメンテーション、競合ブランド分類などビジネスを含むさまざまな活用事例が知られています。

データマイニングに用いられる解析手法としては、教師あり学習と教師なし学習の両方にまたがる、幅広い機械学習の手法が含まれます。

具体的には、

相関ルール抽出などの頻出パターン抽出
ベイズ分類器
ランダムフォレスト
サポートベクターマシンなどのクラス分類、線形回帰
ロジスティック回帰などの回帰分析、ウォード法
k-means法

などのクラスタリングを含み、多岐にわたります。

データマイニングのマーケティング分野への有名な応用に、相関ルール抽出の一手法であるマーケット・バスケット解析があります。
バスケット解析は、POSデータから「どの商品とどの商品が一緒に買われやすいか」を見つけるための購買行動の分析手法です。

実際に行われたバスケット解析の例では、「おむつ」と「ビール」の高い相関が発見されました。
このことから「夕方に子どものおむつを買いに来た父親が、ついでにビールを買う」という可能性が考えられ、この仮説はレコメンデーションに応用が可能です。
この他にも、

ジュースとせき止め薬
化粧品とグリーティングカード
キャンディとグリーティングカード

など30の組み合わせが見つかりましたが、肝心なことにバスケット解析ではこれらの因果関係を推定できません。

この事例から分かるように、データマイニングというキーワードそのものは必ずしも現実世界の因果関係の予測を意味しません。
したがって、データ構造により適した手法で解析したり、他の解析手法と組み合わせることで、現実に即した有意味なデータマイニングにつながるでしょう。