すでに機械学習はビジネスや私生活で欠かせない技術であり、さまざまな分野で用いられています。ただ、ひとことで「機械学習」や「アルゴリズム」といっても、多数のカテゴリや分類が存在することをご存知でしょうか。
今回は機械学習の主なカテゴリと機械学習アルゴリズムの分類、選定で確認すべきポイントなどを詳しくご紹介します。
「機械学習の分類」とは?
「機械学習の分類」とは、主に機械学習の処理方法やカテゴリの種類のことを指します。
ひとことで機械学習といっても「とある正解となる情報をもとに学習するもの」や「正解のない膨大なデータから確率論で最適な答えを返すもの」など多種多様です。
また学習のやり方だけでなく、そのロジックを作り出している「アルゴリズム」にもさまざまな種類があります。
機械学習の分類において主要となる3カテゴリ
ここでは機械学習の分類において主要となるカテゴリを、以下のとおりご紹介します。
教師(手本データ)の有無 | できること | 活用事例 | |
①教師あり学習 | 有 | セータの正誤チェックや分類・識別 | 自動運転システムや顔認証システム |
②教師なし学習 | 無 | ユーザー趣味嗜好分類や応答生成 | メルカリやYouTube、Amazonなどのおすすめ機能 |
③強化学習 | 無 | 「利益の最大化」を目指した条件分岐 | 将棋やチェスのコンピューター |
主要カテゴリ①教師あり学習
モデルが「正解となる情報」を使用して学習する方法です。
このプロセスではモデルに大量の正解データを読み込ませ、どのようなものかを学習させます。そうすることで、「対象となるデータが正解か否か」を瞬時に、かつ正確に判断することが可能になるのです。
現代のAIシステムにおける代表的な手法であり、具体例には自動運転や顔認証、指紋認証、不良品検知といったものが挙げられます。
主要カテゴリ②教師なし学習
教師なし学習は前述「教師あり学習」とは対象で、正解データを使わずに学習する手法です。
教師なし学習は大量のデータから有用な情報を抽出して学習を繰り返すことで、徐々に精度の高い回答を提案します。主にWebサービスで用いられており、YouTubeやメルカリ、AmazonやXにおけるおすすめコンテンツは、この手法が用いられています。
主要カテゴリ③強化学習
強化学習は、エージェントが環境と相互作用しながら報酬を最大化する行動を学ぶ機械学習の一種です。エージェントは行動を選択し、その結果得られる報酬に基づいて次の行動を改善します。
強化学習は主に将棋やチェスなどのゲーム、ロボット制御、また自動運転車などでも応用されています。強化学習についてより深く知りたい方は、以下の記事でも詳しく言及していますのでぜひ参考にしてください。
機械学習のアルゴリズムの分類
ここでは、代表的な以下の11個をご紹介します。
- k近傍法
- 決定木
- ランダムフォレスト
- サポート・ベクター・マシン(SVM)
- ロジスティクス回帰
- ナイーブベイズ
- 線形回帰
- ニューラルネットワーク
- k平均法
- 主成分分析
- 敵対的生成ネットワーク(GAN)
アルゴリズムの分類①k近傍法
データの特徴に基づいて分類や回帰を行う手法です。未知のデータを分類する際にその周辺に最も近いk個の既知のデータを参照し、多数決や平均値を用いて分類するといった方法になります。
値や距離の測り方によって結果が変わるため、適切なパラメータ設定が重要です。また計算量が大きくなりやすい欠点がありますが、理論が比較的シンプルであり、直感的で理解しやすい特徴があります。
アルゴリズムの分類②決定木
データの特徴から条件分岐を繰り返し、分類や回帰を行うモデルです。データの各属性や特徴を軸にして、その値によって分岐を作りながら「木構造」を構築していきます。
比較的シンプルなアルゴリズムなので解釈が容易ですが、過学習しやすい欠点もあります。「過学習」については以下の記事で詳しく紹介していますので、ぜひご一読ください。
アルゴリズムの分類③ランダムフォレスト
複数の決定木を組み合わせた学習法です。異なる部分集合のデータを用いて複数の決定木を構築し、それらの多数決や平均をとることで最終的な予測を行います。
この方法によって個々の決定木が過学習してしまうリスクを低減させ、汎化性能を向上させる効果があります。
アルゴリズムの分類④サポート・ベクター・マシン(SVM)
主に分類と回帰のために用いられます。データの特徴量をN次元空間上に配置し、その中で最適な境界(ハイパープレーン)を見つけることで、クラス分類を行う手法です。
このときマージンを最大化するように境界を選択しているため、他のアルゴリズムよりも汎化性能が高く、少量のデータでも容易に正確な処理を実現できるのが特徴です。
アルゴリズムの分類⑤ロジスティクス回帰
主に2値分類問題に使用されます。名前には「回帰」とついていますが、主に使われる用途は「分類」です。
入力変数の線形結合を関数に通して確率を計算し、それに基づいてクラスを予測します。たとえば成功か失敗かの2つの要素を予測する際は、確率が50%以上なら成功クラスに、逆に50%以下であれば失敗クラスに分類するといった具合です。
アルゴリズムの分類⑥ナイーブベイズ
分類問題に使用され、重要な仮定に基づいた処理を行うことから「ナイーブ(単純)」という名称で呼ばれています。
ベイズの定理を適用し、各特徴の条件付き確率を計算して最も確からしいクラスを予測。計算が高速でとくに大規模データセットや高次元データに対してその性能が役立てられています。
アルゴリズムの分類⑦線形回帰
主に回帰問題に使用される手法で、入力変数と出力変数の間の線形関係をモデル化します。
入力データに対して最適な直線(または超平面)をフィッティングし、それに基づいて予測を行うのが一般的です。
アルゴリズムの分類⑧ニューラルネットワーク
現代のAIサービスや製品にも数多く活用されているアルゴリズムで、特に複雑なパターン認識や予測に適しています。人間の脳の神経細胞(ニューロン)の構造を模倣したモデルで、複数の層から構成されるネットワークを形成します。
画像認識や自然言語処理、音声認識など多岐にわたる分野で活用されますが、大量のデータと計算リソースが必要です。
このニューラルネットワーク技術がより進化したものが、「ディープラーニング(深層学習)」です。概要については以下の記事を参考にしてください。
アルゴリズムの分類⑨k平均法
データをk個のクラスタに分割するために用いられるアルゴリズムで、前述の「k近傍法」と名前が似ていますが別物です。
初期の中心点を設定してデータポイントを最も近い中心点に割り当て、そのクラスタの平均を新しい中心点として更新するプロセスを繰り返すものです。計算が比較的高速で実装も簡単ですが、kの値や初期値の選定が結果に大きな影響を与えます。
アルゴリズムの分類⑩主成分分析
データセットの分散を最大化する新しい主成分を見つけ、元のデータをこれに投影することで高次元データを少数かつ重要な成分に圧縮し、情報を損なわずデータの構造を簡潔に表現する手法です。
つまりデータを少量に圧縮できるため、次元削減やデータの可視化に広く使用されます。
アルゴリズムの分類⑪敵対的生成ネットワーク(GAN)
生成モデル(ジェネレータ)と識別モデル(ディスクリミネータ)の二つのニューラルネットワークが競い合うことで機能します。
ジェネレータは本物に似たデータを生成しようとし、ディスクリミネータはそれが本物か偽物かを判別。この競争を繰り返すことにより、ジェネレータはより正確なデータを生成すします。
機械学習の分類を選定する際に確認すること
機械学習のさまざまな手法やアルゴリズムを選定する際、確認すべきことを以下のとおり紹介します。
- 目的およびゴールを実現できそうなものか
- 予測が正確かどうか
- 処理や計算の速度はどのくらいか
目的およびゴールを実現できそうなものか
選定する際には、まずその目的やゴールに適しているかを確認することが重要です。分類問題、回帰問題、クラスタリング、強化学習など、各アルゴリズムには適した用途や強みがあるからです。
目的に応じて最適なアルゴリズムを選ぶためにも、根本的なシステムのゴールも明確にしておくのが好ましいでしょう。
予測が正確かどうか
予測の正確さも、選択時に気を付けて見ておきたいポイントになります。前述で紹介した者の中だと、正確な予測ができる手法は以下の3つです。
- ニューラルネットワーク
- ランダムフォレスト
- サポートベクターマシン(SVM)
なお予測が正確なものであるほど処理に時間がかかることは避けられませんが、誤った回答は機械学習として大きなマイナスポイントになるので、正確さを最重要視するのが賢明です。
処理や計算の速度はどのくらいか
処理および計算の速度で選ぶのもひとつです。正確さが最重要ではあるものの、あまりに処理に時間がかかるようでは使い勝手に影響が出るためです。
速度は主にデータセットのサイズや特徴量の数、モデルの複雑さによって変わります。本記事で紹介しているものの中だと、
- 決定木
- 線形回帰
などが比較的軽く、処理が早いのでおすすめです。
機械学習の分類を知りたい方はAI研究所!
さまざまな分類やアルゴリズム、手法について興味のある方は、AI研究所が運営する「ビジネス向けAI完全攻略セミナー」を受講してみてはいかがでしょうか。
こちらは最短かつ最速で実務ベースの知識を効率的に学習できる1DAYセミナーで、未経験からでも着実なスキルアップを体感できる内容となっています。学習する内容は主に
- AIの基礎知識
- 機械学習
- 人工知能の作成
- AIの応用知識
- 実装課題
といったもので、「AIの応用知識」フェーズは、本記事で紹介したニューラルネットワークや決定木、ランダムフォレストやロジスティクス回帰などに触れ、また「実装課題」フェーズでは実際にモデルの開発・作成を経験できます。
料金も35,200円からと他のセミナーと比べても安く「コスパに優れた学習セミナーで必要最低限のことだけを効率よく手短に学びたい」という方にうってつけです。
ビジネス向けAI完全攻略セミナーのスケジュール/お申し込みはこちら
機械学習の分類まとめ
ここまで、機械学習やアルゴリズムの分類・カテゴリ、選定の際に確認するポイントについて解説してきました。機械学習の主要なカテゴリとして3つ、そして主要なアルゴリズムとして11個ご紹介しましたが、この他にもさまざまな分類が存在します。
さまざまな分類を知ったうえで「どんなサービスにどんな機械学習、そしてどんなアルゴリズムが適用されているのか」を気にしてみましょう。いつもと違った視点からサービスを見ることができるだけでなく、AI技術に関する知見を自然と深めることにもつながります。