ロジスティック回帰

ロジスティック回帰とは

ロジスティック回帰とは、多変量解析の手法のひとつであり、また機械学習手法の教師あり学習のひとつです。
1958年に考案された古典的な手法であり、主に線形分離不可能な分類問題で用いられます。

代表的な多変量解析手法といえば、目的変数(従属変数)が数量データである重回帰分析です。
重回帰分析と異なり、ロジスティック回帰の目的変数は多群のカテゴリデータで、説明変数は数量データになります。
この特徴から、ロジスティック回帰は判別分析と同様、量的変数から質的変数を予測することができます。
出力の確率分布はロジスティック関数(シグモイド関数)で表されます。

学習を行うには、予測値と実際の値との差分である誤差を最小にする必要があります。
ロジスティック回帰の決定境界を求めるには、誤差の関数であるコスト関数の最小値を最急降下法で求めます。
最急降下法より高速な方法としては、

共役勾配法
BFGS法
L-BFGS法

が知られています。

ロジスティック回帰は、モデル的には単純パーセプトロンと同一です。
両者はパラメータを決める最適化問題で区別されます。
すなわち、座標降下法や準ニュートン法などを使用するものは単純パーセプトロン、確率的勾配降下法を使用するものはロジスティック回帰と呼ばれています。

ロジスティック回帰は、端的に言えば、「ある事象の発生率」を判別する分析です。
汎用性が極めて高いため、ビジネスや医療、心理学などさまざまな分野で活用されています。

例えば、マーケティング分野では2値ロジスティック回帰はダイレクトマーケティングでよく使われます。
ダイレクトメールへの返信を事象と定義することで、そのキャンペーンの反応率がわかります。
スパムメールの判別にも用いられます。また、顧客の購買行動を属性データから予測できます。医療現場では、患者の各種検査データから疾患の有無を判定することができます。
さらに、気象観測データからの土砂災害発生を予測したり、病気の発生率を予測するなど、リスク回避にも活用されています。

近年登場した強力な分類器には、サポートベクターマシンがあります。
ロジスティック回帰とサポートベクターマシンの使い分けはデータ構造に依存します。
具体的には、サポートベクターマシンが苦手とする大規模データの場合や、説明変数(特徴量)がデータサンプル数よりも多い場合には、ロジスティック回帰はサポートベクターマシンに比べて依然として有用であるようです。