近年、脚光を浴びている「AI」や「ディープラーニング」などのITテクノロジーは、長年「機械学習」と呼ばれる分野で研究されてきたテクノロジーです。
この記事では、機械学習について調べている方に向けて、種類や特徴、仕組みについてわかりやすく紹介していきます。
機械学習の特徴とは
機械学習の特徴を把握するには、AIやディープラーニングとの違いを確認することが大切です。
これらの言葉は混同されがちですが、それぞれに異なる意味を持ちます。
まず、AIは人工知能全般を意味する言葉です。
人に近づけるような知能の研究も含まれるため、脳科学や哲学などにも広がる広い概念です。
機械学習はAIのうち、コンピュータが自律的に学習していく研究の分野で、現在活用されているAIはほとんどが機械学習によって学習されています。
AIやディープラーニングとの違い
そして、ディープラーニングは機械学習の中の1アルゴリズムであるニューラルネットワークを強化した概念で、ブレークスルーを起こしたテクノロジーです。
今までコンピュータが苦手としてきた画像などの曖昧なものの認識ができるようになったことから、注目を集めています。
最初に、AIについて解説していきます。
簡単なものでは、洗濯機についている、「おまかせモード」のような、簡単なプログラミングもAIの一種です。
このモードは自動で洗濯物の体積などを分析し、最適な水量や洗濯時間を割り出します。
しかし、洗濯機のAIは今のところ、新しい物事を学習することはありません。
もし、AIが洗濯物の種類を分析し、最適な洗い方を学習できれば、より優れた成果が得られるはずです。
機械学習は、このような考えのもとで誕生しました。
AIの歴史上、機械学習の登場は革新的なできごとの一つです。
これまでは、例えばAIとチャットで会話する場合、表現のブレや曖昧さに対応するのは不可能でした。
人間だと「速度超過」や「スピードオーバー」、「制限速度違反」はいずれも同じ意味だと解釈できますが、AIにとっては全て別の言葉だったのです。
当時の技術では融通が利かず、予め3つとも教えていないと対応できませんでした。
ところが、機械学習の技術により、ある程度の表記のブレや曖昧さがあっても、AIは相手が何を言いたいのか推測できるようになったのです。
機械学習はデータの蓄積と分析を繰り返すことで、多彩な文章表現を理解することが可能になりました。
これによって現在は、顧客サポートのロボットチャットの応答が正確になるなど、多彩な場面で進歩が見られます。
対応が柔軟になった結果、活躍の幅も広がり、多彩な分野で研究が行われるようになりました。
現在のAIブームの火付け役となったのが、機械学習だと言えるかもしれません。
この機械学習を更に発展させたのが、ディープラーニングです。
機械学習は例えば、データを分析する時に顧客の「年齢」や「世代」など、判断に使う要素を人間が指定します。
Excelの表のようなデータを得意とします。
しかし、ディープラーニングはExcelの表のように扱えない、画像や音声、文章などを渡すと、どこに着目すべきかも自動で判断します。
そして、独自に着目した要素を元に学習を進めるのです。
現在は医師の目では認識困難だった疾患を、患部の画像をAIが解析して発見するなど、多彩な場面で研究が行われています。
まとめると、機械学習とディープラーニングにはそれぞれに長所・短所があるため、ニーズやコスト、導入の容易さなどで使い分けられているのが現在の状況です。
機械学習と統計学の違い
機械学習を理解するためには、統計学との違いを知っておきましょう。
実は、使用する手法ベースで考えると、機械学習と統計学の境目はあいまいです。
機械学習と統計学の違いとは、その目的にあります。
機械学習は「予測精度」が重要で、統計学は「解釈」が重要とされています。
機械学習においては予測精度が高ければ評価されるため、その結論にいたるまでのプロセスは重要ではありませんが、統計学においては結論について説明するためのプロセスが重要です。
予測精度を高められるのが機械学習、妥当性を評価できるのが統計学です。
機械学習の種類は大まかに3つ
機械学習を行うための技法やアルゴリズムは、現在は研究が進んだ結果、大量に存在しています。
しかし、これらの技法・アルゴリズムを分類すると、大まかには3つの種類に整理可能です。
- 教師あり学習
- 教師なし学習
- 強化学習
それぞれに学習における得意・不得意があるため、ケースバイケースで最適な種類を選ぶことが大切です。
教師あり学習は正誤判断が得意
教師あり学習は、コンピュータに正解を教えるのが最大の特徴です。
コンピュータは何をすれば良いのかを教えてもらえるため、判断の精度が高まり、学習速度も向上します。
「コンピュータに正解を教える」というとイメージしづらいかもしれませんが、具体的には「入力データ」とそれに対応する「答えラベル」を与えます。
例えば、画像認識のAIを作るなら、大量のひまわりの画像を「入力データ」として、それがひまわりであるという「答えラベル」をセットにしたデータ(教師データ)を用意し、同様に彼岸花、キクなどというセットを複数用意することで学習をしてくれます。
このタイプは、正誤がはっきりと分別できるシチュエーションにおいて、特に効果的とされます。
具体的には、システムのエラーを検知したり、迷惑メールを判定したりするのが得意です。
近年のAIブームは画像からスタートしているため、現在では、以下のような場面で役立っています。
- 画像認識における画像検索アプリ
- 株価の価格変動シミュレート
- 製造業などにおける不良品検知
教師なし学習では意外な発見が多い
教師なし学習では、コンピュータに対して「答えラベル」にあたる正誤の判断基準を教えず、入力データのみを利用して学習させます。
コンピュータは入力データのみを利用し、どのような傾向や法則があるか、どんなグループに分類できるかなどを判断するわけです。
人間がつけた「答えラベル」を与えていないため、出てきた結果をチェックして分析・判断するのは人間が行います。
そのため、我々にとって意外な学習成果を得られる可能性も高くなります。
例えば、顧客の年齢や性別、これまでの購入履歴と言った情報を与えたとしましょう。
コンピュータは、これらの顧客情報から、「どのような人物が、何を好むのか」などのパターンを割り出していきます。
その結果を見ると、人間が思ってもみなかった傾向が浮かび上がってくることがあるわけです。現在は、下記のような分野で開発が進んでいます。
- マーケティングにおける顧客分析
- 工業デザインの類似チェック
- 教師あり学習に入れるための教師データ作成
強化学習はベストな「行動」を追求するのに有利
コンピュータの処理結果に対して正誤ではなく、点数による評価を利用して、「どう行動するとベストなのか」を学習するのが強化学習の特徴です。
教師なし学習と同じく、コンピュータは正誤による判断基準を用いませんが、代わりに何をすれば高得点を得られるかを学び、成果を最大化していきます。
例えば、道路の信号機の操作をさせたとしましょう。
人や車の流れがスムーズで事故が少ないほど、高得点を与えます。
すると、コンピュータはできるだけ高得点を得られるよう、いつ、どのようなタイミングで信号機を切り替えるのがベストなのかを分析していくわけです。
この特徴を活かして、具体的には以下のような用途があります。
- 自動運転車やロボットの制御プログラム
- 囲碁などのゲーム用AI
機械学習の仕組み
AIに膨大なデータを与えて、アルゴリズムと呼ばれる処理手順に則って分析・学習させるのが機械学習の仕組みです。
ただし、AIは初期段階では、何も理解していません。
このため、例えば画像認識のAIだと、「AIがキクと予測した画像は正解はひまわり」と教えていきます。
AIはこれにより、間違いを正して何が正解なのかを判断していくわけです。
もちろん、機械学習と言う位ですから、人間が手作業で正解を教える必要はありません。
AIは自動でシミュレートを繰り返し、間違えないように判断できる数値パラメータを学習します。
機械学習で大切なのは、データの種類や分析の目的によって、アルゴリズムを使い分けることです。
分析の目的は文章の処理や画像の識別など多彩ですから、それぞれの処理に適した多彩なアルゴリズムが開発されてきました。
具体的には、Excelのような構造化データがが得意なサポートベクターマシンや勾配ブースティング決定木、統計的データ分析に利用されるクラスタリング、自然言語や画像のパターン認識が得意なディープラーニングなどがあります。
機械学習の代表的な手法11選
機械学習にはさまざまな手法が存在しますが、ここでは代表的な11選を紹介します。
- サポートベクターマシン
- ロジスティック回帰
- ランダムフォレスト
- Feed Forward Neural Network
- ナイーブベイズ
- 主成分分析
- k近傍法
- k-means
- Recurrent Neural Network
- Generative Adversarial Networks
- Convolutional Neural Network
1手法ずつ、簡単に説明します。
機械学習の手法①サポートベクターマシン
サポートベクターマシン(SVM)アルゴリズムの目的は、あるクラスのデータ点を、別のクラスのデータ点から、可能な限り分離する超平面を見つけることにあります。
音声および画像認識などの多くの分類と回帰の問題に使用される教師あり学習のアルゴリズムです。
主にテキスト分類・数字認識・顔検出といった分類タスクに用いられます。
機械学習の手法②ロジスティック回帰
ロジスティック回帰分析は、いくつかの要因(説明変数)から「2値の結果(目的変数)」が起こる確率を説明・予測する統計手法です。
2値とは、「ある事象が発生する」「ある事象が発生しない」のように答えが2つしかない値のことをいいます。
マーケティングでよく使用されます。
機械学習の手法③ランダムフォレスト
ランダムフォレストは、バギング+決定木を組み合わせたアンサンブル学習のことで、今でもよく使われる精度の高いモデルです。
機械学習をする上では必修のアルゴリズムとなります。
デジタルマーケティングの分野でよく使用されます。
機械学習の手法④Feed Forward Neural Network
ニューラルネットワークは、生物の神経ネットワークの構造と機能を模倣するという観点から生まれた学習アルゴリズムです。
人工神経を相互接続したもので計算を構造化し、コネクショニズム的計算技法で情報を処理します。
インターネット関連サービス・金融・医療・農業・翻訳・自動車・インフラなど、さまざまな分野で応用されています。
機械学習の手法⑤ナイーブベイズ
ナイーブベイズは、ベイズの定理という、数学(確率)の定理を用いた教師あり学習アルゴリズムです。
単純(実装も簡単)かつ強力で処理が高速、とても大きなデータセットに対しても有効であり、現実世界の複雑な問題にも上手く対処できます。
デメリットは、各特徴量が独立であると仮定しなければならない点です。
リアルタイム予測・テキスト分類・レコメンドシステム・センチメント分析に用いられています。
機械学習の手法⑥主成分分析
「主成分分析」とは、たくさんの量的な説明変数を、より少ない指標や合成変数(複数の変数が合体したもの)に要約する手法です。
データの持つ情報を保持しながら、データを可視化し、誰もが理解しやすい形にできるため、マーケティングや研究開発に用いられます。
機械学習の手法⑦k近傍法
k近傍法はパターン認識でよく使われ、機械学習アルゴリズムの中でも最も単純とされています。
既に答えがわかっている問題を教師あり学習していく手法で、遅延学習として分類されています。
機械学習の手法⑧k-means
k-means法は、データを性質の近い分類同士の塊(クラスタ)に分けた後、クラスタの平均を用いてバランス良くデータが分かれるように調整するアルゴリズムです。
任意の指定のk個のクラスタを作成するアルゴリズムであることから、k-means法と呼ばれています。
機械学習の手法⑨Recurrent Neural Network
RNN(Recurrent Neural Network:再帰型ニューラルネットワーク)とは、ニューラルネットワークのモデルの1つです。
ネットワーク内部に再帰構造を持ち、時系列データの解析や自然言語処理というタスクにおいて効果を発揮します。
機械翻訳・音声認識・画像分析などに活用されています。
機械学習の手法⑩Generative Adversarial Networks
GAN(Generative Adversarial Networks:敵対的生成ネットワーク)は、データから特徴を学習することで、実在しないデータを生成したり、存在するデータの特徴に沿って変換できたりします。
例えば、①高品質の画像を作る②文章から画像を起こす③画像を別の画像に仕上げる④動画を別の動画に仕上げるといったことが可能です。
機械学習の手法⑪Convolutional Neural Network
CNN(Convolutional neural network:畳み込みニューラルネットワーク)は、データから直接学習できるディープラーニングのためのネットワークアーキテクチャです。
物体や顔、シーンを認識するために画像の中からパターンを見つけるのに優れ、音声・時系列・信号データなど、画像以外のデータ分類にも非常に有効な手法とされています。
自動運転車や顔認識アプリケーションなど、物体認識やコンピュータビジョンを必要とするアプリケーションで活用されています。
今後の進化にも要注目
機械学習について紹介してきました。
現代社会においては多彩な場面で活用が進んでいる、有益な情報処理技術の一つです。
先進的な技術と言えるものの、現在はソフトやアプリが増えたことで取り扱いが容易になっており、チャットボットや画像識別プログラムなどの形で目にする機会が増えてきました。
今後は技術の進化によって更に重要度が増す可能性が高く、目が離せません。