回帰分析

回帰分析とは

回帰分析とは、ある変数が他の変数とどのような相関関係にあるのかを推定するための統計学的手法の一つで、原因となる変数(説明変数)と、結果となる変数(目的変数)の間に、回帰式y=ax+bと表される関係があるとすると、観測値から最小二乗法という「誤差の二乗の和を最小にする」という方法を用います。これによりa、bが求められるので、この回帰式をもとに将来予測や要因分析を行う手法をいいます。また、これを単回帰、直線回帰などとも言います。

例えば、過去の生産量と製造費用のデータから回帰式を求めることで、将来の生産量に対する製造費用の予測が可能です。
生産量1単位当りの製造費用が、どれ程増加するかを示す傾きが変動費として表され、切片が固定費として表されます。

単回帰が説明変数は1つであることに対し、複数の説明変数を持つ場合は重回帰と呼ばれ、複雑性も上がります。ただし、解決のアプローチは単回帰と同じです。ただし、グラフなどであらわすような可視化はしにくくなります。この場合は、主成分分析などを用いて次元の圧縮を行い、2次元平面でプロットする方法をとることも可能です。
説明変数が増えるということは、説明変数どうしの関連性も複雑化することから、回帰が不安定になってしまったり、解が出ないなどの状態が出てきます。

次に、説明変数の次数が上がったものを多項式回帰といい、y=ax2+bx+cのような形式で表されます。こうすることで直線だけではなく、曲線的な分布にも対応できます。ただし、次数を上げ過ぎると未知のデータに対して大きく外れる結果も出る可能性がありますので、できるだけ次数は低くするように検討する必要があります。

この他、買った、買っていないなどの被説明変数が、0-1になるような場合のものをロジスティック回帰分析といい、確率値を求める場合に利用されます。この際に使用される式は、loge{y/(1-y)}=ax+bのような形になり、通常のyを変換させた形になります。これをロジット変換といいます。これで求められる曲線は最初はゆっくりと推移し、ある点あたりから急激に上昇し、最後に収束に向かうような形となります。

回帰式を求める手法として、最小二乗法が用いられることが多いのですが、外れ値に対して弱いという点があります。外れ値が混ざってくると、その結果に引きずられてしまいやすく、未知のデータに対する予測が甘い状態になります。

この回避策として、外れ値に対してペナルティを与えたり、そのものを除外したりする方策をとる必要があります。

この解決策としては、LOWESS(回帰スムージング法)や、ロバスト平滑化法はで、影響を受けそうな点を無視したり、影響を少なくする方法です。またL2正規化、L1正規化と呼ばれる方法もありますが、こちらは最小二乗法で組み立てる方程式の中にペナルティを与える方法です。

また、ニューラルネットワークを用いた回帰分析も広く使われています。


妥当性の検討

モデルが統計的にどのくらい正しいのかを検討するのに、「決定係数」と「F検定」、「t検定」という3つの値で判断します。

「決定係数」

説明変数が目的変数のどれくらいを説明できるかを表す値で、0~1の間の値を取り、寄与率と呼ばれることもあります。

「F検定(F-test)」

モデル全体の妥当性を検討する際に使う値です。F値の有意確率(p-value)を判断基準として用います。
有意確率の比較は、99%の場合には0.01ですが、95%の確率で検定する場合には、0,05と比較して妥当性を検証します。

「t検定」

モデル全体の妥当性をF検定で判断した後に、それぞれのパラメータ

係数aと定数b)の妥当性を検証します。それぞれの有意確率が0.01より小さければ妥当と判断します。

「より精度の高いモデルの検討する」

直線的な式よりも曲線で表した方がより現実に即した場合もありますので、説明変数の次数を上げたりすることでさらに良い結果が得られるかもしれません。