決定木・ランダムフォレスト

決定木・ランダムフォレストとは

決定木(決定木学習)とは、データから「木」構造の予測モデルを作る機械学習の教師あり学習の手法です。
葉が分類を表し、枝がその分類に至るまでの特徴の集まりを表します。判別を行う回帰木と分類を行う分類木の2種類があります。

決定木の有用性は、解析対象のデータの分布を仮定しないノンパラメトリックな手法であることです。
説明変数・目的変数ともに名義尺度から間隔尺度まで用いることができ、外れ値に対しても頑健です。他方、他の機械学習の手法に比べ分類精度は低く、また線形データにはあまり適していません。
過学習を起こしやすく、木構造が複雑になり過ぎないように木の深度を制限したり、木構造を生成後に枝を剪定するなど、いくつかのパラメータの調整も必要です。

ランダムフォレストは複数の決定木を組み合わせ、汎化能力を高めた頑健で実用的なアルゴリズムです。アンサンブル学習のバギングの一種で、2001年に開発された比較的新しい手法です。

学習手順としては、まず学習用データからブートストラップ標本を複数回抽出します。ブートストラップとは復元抽出によってサブデータを作成する手法です。
それぞれのデータ集合に対して、ランダムに選んだいくつかの説明変数を用いて、複数の決定木が作られます(木構造が複数あることからフォレスト(森)と呼ばれています)。
各決定木から、分類問題では多数決、回帰問題では平均値で結果をそれぞれ統合し、学習器を構築します。

ランダムフォレストは、一般的な回帰モデルとは異なり、説明変数の選択に制約が少ないため、過学習を避けやすい利点があります。
また、多数の説明変数に対しても堅牢で学習・評価が高速です。
さらに、クロスバリデーションにより得られた推定誤差から、説明変数すなわち特徴量の重要度(寄与度)を算出できます。予測値ではなく変数重要度から、説明変数が被説明変数に対してどの程度影響するかを探索することができます。

ランダムフォレストは高精度なことから、同じくアンサンブル学習を用いた高性能な勾配ブースティングマシンが登場するまでの2010年代前半によく用いられました。

決定木、及びランダムフォレストを用いたデータマイニングは、データ構造を木構造で可視化し、直観的に解釈しやすいためとても有用です。その汎用性の高さから、顧客セグメンテーションや不良品率の予測などのさまざまなビジネスシーンや、消費動向・雇用動向など公的調査にも用いられています。