AIの機械学習には、大きく分けて教師あり学習と教師なし学習という種類が存在します。それぞれ特徴が異なっていて、AIを作る際には正しく理解していることが大切です。
そこで、この記事では教師あり学習と教師なし学習の違いや種類について紹介していきます。
教師あり学習と教師なし学習の違い
教師あり学習と教師なし学習の違いは、機械学習の際に与えるデータにラベルを付けるかどうかです。
ラベルとは、たとえば犬の画像に対して、この画像は「犬」であると指定することです。
このデータにラベルをつけることを「アノテーション」と呼びますが、アノテーションの方法については下記記事をご覧になってください。
教師あり学習は、データにラベルを付けることを前提とします。そのため、そもそも正解の存在しない問題については教師あり学習を選択できないのです。
例えば、未来予測や傾向分析といった分野については正解は存在しません。
大量のデータが存在していて、そこから傾向や分析を導き出してもらいたいときに教師なし学習は有効です。この場合、得られた結果に対して最終的に人間が正解を求めます。
上記の違いを踏まえた上で、教師あり学習と教師なし学習の特徴を詳しく解説していきます。
「教師あり学習」とは
教師あり学習とは、人間が問題と答えのデータを与えて、AIがそのデータを分析し、問題から正しい答えを導き出せるようにパラメータを自動調整するという仕組みで、「機械学習」と呼ばれるのは教師あり学習のことです。
例えば、画像認識の学習をさせるケースを考えましょう。この場合は、人の顔や車、犬といった画像を入力データとして与えて、なおかつその画像の正しい答え(ラベル)も同時に与えるのです。
そうすれば、AIは入力として与えられた画像のデータを学習して、未知の画像が入ってきた場合にも正しい答えを予測できるようにパラメータを調整します。
教師あり学習の種類
教師あり学習には主に、
- 回帰
- 分類
という手法があります。
①回帰
回帰とは連続した数値を予測することです。
例えば、不動産の住宅規模データを与えられたときに、販売価格を予測することです。
②分類
分類とは、あるデータを与えられたときに、それがどのクラスに属するものかを予測することです。
例えば、送られたきたメールを迷惑メールかそうでないかと分類するといったケースに役立ちます。
「教師なし学習」とは
教師なし学習では正解となるデータは与えません。入力データのみを与えてトレーニングさせるのが特徴です。
データを与えるとAIが構造や特徴を分析して、グループ分けをしたり、データの簡略化を図ったりします。
教師なし学習の場合は、単にデータをグループ分けするだけであり、それぞれのグループの意味付けをAIが行うことはできません。そのため、最終的な結果の解釈については人間がする必要があります。
教師なし学習の種類
教師なし学習にもさまざまな形態が存在しています。
教師なし学習で採用されるアルゴリズムとして、主に下記の3種類があるのです。
- クラスタリング
- 異常検知
- 次元削減
①クラスタリング
クラスタリングとは、データ間にみられる類似度に基づきグループ分けをする方法です。クラスタリングにはさらに、階層的クラスタリングと非階層的クラスタリングといった種類があります。
例えば、マーケティングのための調査結果をクラスター分けして、さまざまな要素に細分化するためにクラスタリングが用いられるのです。
②異常検知
異常検知とは、データの中の異常値を見つける方法です。
異常な値は多岐に渡ることが多いため、異常なパターンをすべて表現することは難しいことがあります。そのため異常検知では、正常なデータだけを学習させて、それ以外を異常と判定できるように学習を行います。
③次元削減
次元削減とは、たくさんの次元のデータをより分かりやすい低次元のデータに要約するというものです。
教師あり学習の前処理として次元を減らすことで、精度を向上させるなどの用途で使用されます。
教師なし学習の事例
教師なし学習はさまざまな場面で用いられています。
例えば、異常検知のためのモデルを作成するのに教師なし学習は最適です。
モデルが正常な場合よりどのくらい逸脱しているのかをデータ分析して異常度の判定ができます。過去に異常が発生した事例が少ない場合は、教師あり学習よりも教師なし学習の方が適しているのです。
画像認識では、ラベルのついていない大量の画像データを学習させることで、特定の画像に強く反応するようなニューロンを作り出すという事例があります。
自動運転の開発においても活用されています。
グループ化の精度を高めることで、膨大な量のラベリングされたデータを与えないでも対象を認識するモデルを構築できるのです。
「半教師あり学習」とは
教師あり学習と教師なし学習の中間に位置する「半教師あり学習」は、少量のラベル付きデータと大量のラベルなしデータを組み合わせて学習を行う手法です。
完全にラベルを付けるのが難しいデータセットを活用できるため、ラベリング作業の負担を軽減しつつ、高い精度を実現することが可能です。
半教師あり学習の仕組み
半教師あり学習では、以下のような流れで学習が進められます。
- ラベル付きデータを用いて基礎的なモデルを学習する。
- モデルが学習した知識をもとに、ラベルなしデータに対して予測を行う。
- ラベルなしデータの予測結果を利用してモデルを再学習し、精度を向上させる。
このプロセスを繰り返すことで、ラベル付きデータが少なくても有用なモデルを構築できます。
半教師あり学習の用途
半教師あり学習は、特に以下のような状況で効果を発揮します。
- ラベル付けが難しい分野(例:医療データや自然画像)
- ラベル付きデータの取得にコストがかかる場合
- ラベルなしデータが豊富に存在する場合
具体的な事例として、医療分野では少量の診断済みデータを用いて、未診断の大量データを活用する方法があります。また、自動運転では、ラベル付けが困難な車載カメラ映像を利用するケースもあります。
半教師あり学習のメリット・デメリット
半教師あり学習は、教師あり学習と教師なし学習の中間的な手法であり、少ないラベル付きデータと大量のラベルなしデータを組み合わせることで、効率的かつ高精度なモデルを構築できます。この手法は、データラベリングのコスト削減に役立つ一方、適用時にはいくつかの課題もあります。
メリット
- ラベル付けのコスト削減
- ラベルなしデータの有効活用
- ラベル付きデータが少なくても精度の高いモデルを構築可能
デメリット
- 初期モデルの精度に依存する
- ラベルなしデータに偏りがある場合、誤学習のリスクがある
半教師あり学習は、ラベル付けの負担が軽減されるだけでなく、データリソースを最大限に活用できる有用な手法です。ただし、初期モデルの設計やデータの品質管理が重要であり、これらを適切に行うことで、より良い成果を得ることができます。
教師あり学習と教師なし学習の使い分け方
機械学習の方法として、教師あり学習と教師なし学習という2つの方法があり、これらはどちらの方が優れているかという問題ではありません。それぞれに一長一短があり、得意とする分野は異なっているのです。
そのため、これからAIに機械学習をさせる際には、解決したい問題について最適な手法を選択しましょう。
実際には、教師あり学習と教師なし学習を組み合わせるという事例もあります。
教師なし学習によって、傾向分析を行い精度の高い結果を正解として採用して、その正解をラベルとしてあらためて教師あり学習をするのです。これによって、より精度の高いモデルを作成できます。
教師あり学習と教師なし学習のメリット・デメリット
それでは、教師あり学習と教師なし学習それぞれのメリットとデメリットを比較していきます。
教師あり学習のメリット
教師あり学習は、多くのデータとそれに対応する答えを与えることで、正しい答えを予測できるようになるという利点があります。
特に、近年のAIブームは画像認識から始まっているのですが、人間がある画像に対して、「この画像は、このあたりの特徴からしてネコが写っている」というように分析を行い、結果を出すためのプログラムを作るのは非常に手間がかかります。
AIを用いると、画像のデータ分析をコンピュータに任せることが可能になり、良質なデータでトレーニングを受けたAIであれば、人間と同じか、それ以上にデータの分類などを行わせることができます。
データを与えられて正確に答えを導き出せるような問題については、教師あり学習はとても有用です。
例えば、工場における機械の故障を予測するといったケースに適しています。過去のデータを分析すれば、どのような条件で機械が故障するのか、ある程度正確なことが分かっているからです。
教師あり学習の中にある、代表的な4つのアルゴリズムの特徴については以下の記事で詳しく解説しています。
教師あり学習のデメリット
教師あり学習のデメリットは、
- 正解データが間違っていると一気に役に立たなくなってしまう
- AIを作る本人が正解を分かっていないと利用できない
という点があります。
教師あり学習はその名の通り教師(正解データ)がいないと使えないので、やむなく教師なし学習しかできない、というパターンもあるでしょう。
教師なし学習のメリット
そして教師なし学習のメリットは、
- 正解のデータを用意しなくて良い
- データの中の特徴や区分を発見できる
というものがあります。
教師なし学習のデメリット
しかし反対に、
- 正解を指示できないので精度が落ちる可能性がある
- 明確に答えが欲しいグループ分けなどには利用できない
- 結果が正しいものかは分からない
というデメリットも存在します。
それぞれ良し悪しが違いますが、どういったAIを作りたいかによって使う学習方法が変わるので、自分がしたいこととメリット・デメリットがピッタリ合っているかを確認すると良いでしょう。
教師あり学習と教師なし学習でも使われる機械学習のメソッドを学びたい方には、ProSkilllのAIエンジニア育成講座がおすすめです。2日間でAIエンジニアに必要な機械学習のスキルをマスターできます。
教師あり学習と教師なし学習についてまとめ
教師あり学習と教師なし学習は、AIに学習させるための手法です。ラベルの付いたデータを与えるかどうかの違いであり、それぞれに長所があります。
これからAIを作る際には目的に合わせて使い分けると良いでしょう。
なおAIエンジニアとして機械学習のスキルを身につけたい方には、ProSkilllのAIエンジニア育成講座の受講を検討されるといいでしょう。