引き続き、機械学習のまとめ
線形回帰
回帰の代表的な手法として挙げられるのは、線形回帰です。線形回帰は、次の2つに分かれます。
単回帰分析
1つの説明変数から、目的変数を予測する。
説明変数は、「手掛かりとなる変数」、目的変数は、「予測したい変数」です。例えばその日の気温からその日の飲み物の売り上げを予測したい場合は、次のようになります。
・説明変数 ・・・ その日の気温(文脈によっては、特徴量と呼ばれることもある。)
・目的変数 ・・・ その日の飲み物の売り上げ
1次関数により予測を行うので、直線によって目的変数を予測します。
重回帰分析
複数の説明変数から目的変数を予測する。
例えば、駅からの距離、築年数、リビングの広さなどから家賃を予測する場合、「複数の説明変数の1次関数(手がかり)から目的変数(家賃)を予測」するといったことです。
重回帰分析の注意点
重回帰分析を行う際には「多重共線性」に注意しなければいけない。多重共線性の英語「multicollinearity」を略して「マルチコ」と呼ばれる。
多重共線性とは、相関係数が高い(1またはー1に近い)特徴量の組を同時に説明変数に選ぶと、予測がうまくいかなくなる現象のことを指します。よって、特徴量エンジニアリングにおいて、「相関係数が、1またはー1に近い特徴量のペア」を作らないように、各ペアの相関係数を観察し、特徴量をうまく取り除く必要がある。
多重共線性を理解するには、まず、相関係数の理解が必要である。
相関係数とは、特徴量同士の相関の正負と強さを表す指標です。相関係数は常にー1以上1以下の値をとり、1に近いほど、強い正の相関、-1に近いほど、強い負の相関を持ちます。0の時は相関がありません。
その他、注意点
ロジスティック回帰
「回帰」という名前がついているので、一見、回帰問題のようだが、主に分類に用いられる手法
サポートベクター回帰
サポートベクターマシンを回帰問題に応用した回帰分析手法のこと
サポートベクターマシンについては、別途まとめる。
コメント