教師あり学習

2017年11月4日

 

今回は機械学習アルゴリズムの「教師あり学習」について説明します。

教師あり学習

アルゴリズムに与えたデータセットには「正しい答え」があり、アルゴリズムに入力と出力の関係性を学習させ、正しいと思える結果を予測させることです。

 

教師あり学習は、「回帰」問題と「分類」問題に基本的に分類されます。

回帰問題では連続出力で結果を予測します。
データセットを一次関数や二次関数(何次関数でも可能)のように一定の規則をもった連続値として考え、入力データ(予測するために必要な情報)から、その連続値の中で適切な値にマッピング(予測した結果)することです。

分類問題では離散出力で結果を予測します。
データセットをYes、Noのようにグループ分け(2つ以上のグループでも可能)をし、どのグループに属するかを入力データ(予測するために必要な情報)から、個別のカテゴリにマッピング(予測した結果)することです。

 

これらについて例を挙げて、説明します。

回帰問題

不動産で住宅の大きさと価格のデータがあります。そのとき、大きさと価格には連続的な値の関係があると考えられるため、回帰問題で住宅の価格や大きさを予測することができます。

下記のデータセットがあります。

大きさ 価格
7 25
9 34
15 40
16 46
19 48
22 57

データセットの点を打ち、それらに対して回帰直線を引いたのが点線の直線になります。
回帰直線を作成することができれば、例えば住宅の大きさが「20」(入力データ)だとしたら、価格はおよそ「51」だろうと予測することができ、また逆に住宅の価格が「40」(入力データ)だとしたら、大きさは「14」だろうと予測することができます。

これに土地の場所であったり、部屋の数、何階建てかなど、より多くの情報を与えることによって、より正確なデータを予測することができます。詳しくはまたあとで説明します。

 

分類問題

病院で腫瘍の良性、悪性を判断するためのしこりの大きさのデータがあります。そのとき、大きさと腫瘍の良性、悪性には離散的な値の関係があると考えられるため、分類問題で予測することができます。

下記のデータセットがあります。

しこりの大きさ 腫瘍の良性(0),悪性(1)
2 0
7 0
14 0
23 1
24 1
31 1

データセットの点を打ち、それらに対してどのグループに属していれば腫瘍である可能性が高いか予測することができます。例えばしこりの大きさが「25」(入力データ)だとしたら、腫瘍の悪性であると予測することができ、「5」(入力データ)だとしたら、腫瘍の良性であると予測することができます。

これに年齢や、性別、過去の病気の有無など、より多くの情報を与えることによって、より正確なデータを予測することができます。
また2種類に分けるだけではなく、例えば「グー」「チョキ」「パー」のどれを出すか、「1~10」のどの文字を書いたか判別するなど2つ以上に分類することも可能です。詳しくはまたあとで説明しますが、イメージを直観的に理解したい人はこちらの記事を見ていただくとわかりやすいかもしれせん「無料、手軽で学べるAI「Google Teachable Machine」

 

次は「教師なし学習」について説明します。