回帰分析(重回帰)

 単回帰分析は、1変数から1変数を予測する場合に使用されますが、複数の 変数から1つの変数を予測しようとする場合には重回帰分析が使われます。

n個の変数を説明変数とする重回帰式は以下のようになります。

    =β+β++βnα

この式は、基本的には単回帰式と同じもので、に対する回帰を加算的な直線式で解釈するものです。を説明変数、yを目的変数(被説明変数)と呼ぶのも単回帰分析と同様です。

  α、βnは回帰係数と呼ばれ、βnはそれぞれの説明変数にかかる重み(回帰係数)です。

 算出された重回帰式の有意性は、単回帰分析と同様、回帰式で説明されるバラツキと、説明しきれないバラツキ(残差)との比(F値)で検定されます。  また、それぞれの(偏)回帰係数の有意性ついても同様に検定されますが、エクセルの分析ツールではt検定でその有意性が検定されています。

(例題)
 「握力」「身長」「体重」の3変数から、「ソフトボール投げの距離」を予測する重回帰分析を行ってみよう。

      

 重回帰式の求め方にはいくつかのやり方がありますが、その中で「ステップワイズ法」がよく使われるようです。

 エクセルの分析ツールではステップワイズ法は使えませんが、SPSSを使ってステップワイズ法を使うと「体重」しか回帰式に投入されないという結果になりました。これは、後に述べる多重共線性の問題などから3変数を使ってうまく説明変数との関係を推定できないと言うことを意味しています。昔の強制投入法では何となく有意な重回帰式が得られたと思ってしまう危険があるのですが、ステップワイズだとモデルの不適切さが明らかになる場合もあるようです。

(結果の読み方)
 重回帰分析では、まず「重相関係数(R)」とその「説明率(R)」が大切な情報です。Rは重回帰式で予測される値と実際の観測値との相関係数を意味し、絶対値が1に近いほど当てはまりの良い回帰式が得られたということになります。また、Rは回帰式の説明率になります。
 「補正R2」は説明変数の数を調整した場合の重回帰係数です。重回帰分析は、説明変数の個数を多くすればするほど説明率は高くなります。数に関係なくRの高さを比較するにはこの補正R2を使います。
 「分散分析表」は、重回帰式の有意性を確認するもので、回帰式で説明されるバラツキと残差のバラツキとの比(分散比)によって検定されます。その際、自由度は前者が説明変数の数、後者が対の数になります。
 分散分析表の下には回帰係数とその値の信頼区間が表示されています。最初が回帰係数で、次にその回帰係数で説明されるバラツキの標準誤差が示されています。回帰係数と標準誤差の比がt値です。このt値によってそれぞれの回帰係数の有意水準が検定されます(無相関検定と同じ原理)。

問題点
  以上が、これまで使っていた例題でした。ただし、この例題には大きな問題点があります。それは、説明変数間の相関が高過ぎることです。説明変数間の相関(多重共線性)が高い場合、有効な重回帰式は求められません。重回帰分析をする際には、予め説明変数間の相関行列を計算して高いものを省く必要があります。上の例題では、「握力」と「体重」との間が、0.85ととんでもなく大きな値を取っています。ボール投げ能力を身体各部位の特性からどれだけ予測可能かという回帰モデルを考えることは悪くはないと思いますが、もっと独立した特性を投入してその中から大切な身体部位を見つけだすのが研究としてあるべき方向でしょう。


(重回帰分析を行う際の注意点)

 補足

戻る