線形回帰

線形回帰(linear regression)

ここでは前回までに学んだ機械学習のアルゴリズムの使用方法について説明します。

まずその前に、数式の記載について説明しておきます。
訓練セットの数のことを「m」として表します。(機械が学習するためのデータセットのことを訓練セットと言います。) また「x」は入力変数(特徴)、「y」は出力変数(目標変数)を表します。

5 30
10 62
12 70

上記のような訓練セットがあった場合、m=3となります。また、$$( x^{(i)},y^{(i)})$$と訓練セットの各データを表すことができ、「i」の部分が何番目のものを表すかを記載しています。

$$ x^{(1)} = 5, y^{(1)} = 30$$$$ x^{(2)} = 10, y^{(2)} = 62$$$$ x^{(3)} = 12, y^{(3)} = 70$$

訓練セットによって定義されるのは教師あり学習アルゴリズムの仕組みです。

訓練セットを学習アルゴリズムに読み込ませ、ある関数を出力させます。ある関数とは慣習的に「h」(hypothesis)として表します。

この関数がある入力に対して、予測値を算出する関数になります。

この関数hはイメージとして下記の図の赤線のようになります。

2点であれば、一次関数の求め方として中学生の頃に学んだかと思います。しかし、いくつかの点が一直線上に並んでいない場合は、簡単に算出することはできません。

このhを数式で表しますと、

$$h_θ(x)= θ_0+θ_1x$$

これは y = ax + bと同じく一次関数を表しているだけです。点に近い線を作ることを「線形回帰」と言います。「回帰分析(regression analysis)」の一種です。

上図の赤い線を求めるために「最小二乗法」を基本的に用いますので、次回はそちらの説明をします。