決定係数(R2値)について

普通の解析でもよく使うので情報のまとめ。

ソースはwikipedia

決定係数 - Wikipedia

決定係数の定義は複数あるが、一般的なものは、以下らしい。


R^{2} = 1-\dfrac{\sum ^{N}_{i=1}\left( y_{i}-f_{i}\right) ^{2}}{\sum ^{n}_{j=1}\left( y_{j}-\overline{y}\right) ^{2}}

式変形して、標本値の標準偏差で表現すると、


R^{2} = 1-\dfrac{(1/n)\sum ^{N}_{i=1}\left( y_{i}-f_{i}\right) ^{2}}{\sigma^{2}}

ここで、非常にざっくりと実測値と回帰式の予測値との差yi-fiを平均的にΔとして、Δについての式を解くと


\Delta =\sigma \sqrt{1-R^{2}}

すなわち概念としては、予測精度が全くない状態(R2=0)は実測値と予測値との差異は標準偏差程度であるのに対して(何もしない、平均値をとるだけの予測)、そこからの差分をどれだけ回帰式で埋めれるのかの割合(と理解しました)。

そこで、およそ標準偏差の値から予測値の差を見積もろうと、上式をもとにしたR2値に応じた計算値は表の通り。

 R^{2} 1-R^{2} \sqrt{1-R^{2}}
0.1 0.9 0.949
0.5 0.5 0.707
0.9 0.1 0.316
0.95 0.05 0.224
0.99 0.01 0.100
0.995 0.005 0.0707
0.999 0.001 0.0316