【2025】YOLOとは?物体検出の手法を大きく進化させたYOLOを徹底解説

こんにちは、AI研究所の三谷です。

自動車の運転が無人になるのは、かなり近い未来かもしれません。海外では、実際に無人のバスや宅配車などが走っている国は既に存在します。
無人での自動運転に欠かせない技術として挙げられるのは、コンピューターの物体検出能力でしょう。

コンピューターの技術が進化するにつれ、機械が正確に物体を認識できるように、さまざまな技術が開発されてきました。その中でも特に認識能力の向上に大きく貢献したのがYOLOです。

ですがこのYOLOは「どのような働きをして、どのような仕組みを持っているのか」と言うことを知らない方は多くいるでしょう。

この記事では、物体検出手法のことについて知りたい方のために、YOLOの詳細や実例・YOLOを学習する方法を解説していきます!

そもそもYOLOとは何か!?

YOLOで物体検出したときのイメージ

YOLOとは、コンピューターが外部の物体を検出するときに使用される代表的なアルゴリズムのことです。

YOLOという名前の由来は、「You Only Look Once」という英文の頭文字をつなげて作られた造語で、日本語に翻訳すると「一度見るだけで良い」という意味を持っているアルゴリズムです。

YOLOが開発される以前にもさまざまな物体検出手法が存在しましたが、それ以前の方法とは一線を画す優れた物体検出能力を持っていたことが、このアルゴリズムが広く注目されるようになった理由です。

YOLOがより正確に物体を検出できるのは、検出のためのアプローチが従来の手法とは全く異なっているからです。

ここからは、YOLOのアルゴリズムに至るまでの物体検出技術の歴史を振り返り、どのような問題があり、どのようにその問題を乗り越えていったのか解説していきます。

物体検出についてはこちらの記事でも解説しています。

【2024】物体検出とは?5つの代表的なアーキテクチャの特徴まとめ

YOLO以前の物体検出手法のアルゴリズムのデメリット

YOLOのアルゴリズムを説明するうえで、物体検出能力のアルゴリズムはどのような経緯で発展していったか説明しておくとわかりやすいでしょう。
まずは、物体検出手法のアルゴリズムの歴史を見ていきましょう。

従来の物体検出手法の場合、物体を検出する場合は複数の要素に分類してからどのような物体かを判断するという方法が採用されていました。

最初に検出すべき物質の範囲を定めることから始め、どこまでが検出すべき物体がどこからが背景に該当するかを個別に判断する必要があります。

検出すべき物体の範囲が定まったら、その範囲に含まれる画像の特徴を分析することにより、どのような物体が写っている映像なのかさらに詳細に推測する作業が進められます。

最後に抽出された特徴を基にして対象となる画像を分類することにより、物体を検出することができるという流れです。

その一方で、こうした方法による物体の検出は複数のプロセスに分けて検出を行う分、時間がかかるというデメリットがありました。

YOLOのメリット

YOLOのメリット

YOLOは、従来の物体検出手法に比べて多くの利点を持つ革新的なアルゴリズムです。その中でも特に注目すべきは、高速な処理能力、正確な検出精度、汎用性の高さという3つの点です。それぞれの特徴について以下に詳しく説明します。

高速な処理速度

YOLOは、一度の処理で画像全体を解析して物体検出を行う「単一ステージ検出モデル」として設計されています。そのため、従来の複数ステージに分けて解析する手法と比較して、格段に高速です。この特性により、リアルタイムでの物体検出が可能であり、自動運転やセキュリティカメラなど、時間制約のあるシステムに適しています。

物体の全体的な検出能力

YOLOは画像全体を一括して処理するため、複数の物体が存在する場合でも一度に検出可能です。これにより、画像内の広範囲に分布している物体を包括的に捉えることができます。また、検出対象を特定のエリアに限定する必要がないため、シンプルかつ効率的なアルゴリズムとして多くのアプリケーションで利用されています。

正方形リサイズによる汎用性

YOLOでは、入力された画像を正方形にリサイズし、さらに細かく分割したグリッド・セル単位で解析を進めます。この設計により、縦長や横長といった形状の異なる画像でも安定した検出性能を発揮します。また、グリッド分割はニューラルネットワークを活用して効率的に解析が行えるため、さまざまな種類のデータセットや検出対象に柔軟に対応可能です。

YOLOのデメリット

YOLOのデメリット

一方で、YOLOにはいくつかの課題も存在します。その中で特に注目すべきは、小さな物体の検出の難しさ、誤検出のリスク、そして高度な学習が必要な点です。これらのデメリットについて以下で詳しく説明します。

精度の限界

YOLOのアルゴリズムはグリッド・セル単位で物体を解析するため、物体がセルの境界にまたがる場合、検出精度が低下する傾向があります。この問題は特に、小さい物体や複雑な形状の物体を扱う場合に顕著であり、より精密な検出が求められるシナリオでは他のアルゴリズムに劣ることがあります。

背景が複雑な場合の課題

背景が複雑で多くの物体や模様が入り乱れている場合、YOLOは誤検出や検出漏れを起こす可能性があります。また、トレーニング時に十分なデータが用意されていない場合や、多様な背景条件を反映したデータが不足している場合には、モデルの性能が大きく制約されることがあります。

高解像度画像での制約

YOLOは高速処理を最優先に設計されているため、高解像度画像の解析では細部の情報を十分に捉えられないことがあります。これにより、極めて詳細な検出が求められる用途(例:医療画像解析や精密工学)では他のアルゴリズムを選択する方が適している場合があります。

YOLOで物体の範囲を特定する仕組み

YOLOは、物体検出において効率的かつ正確な範囲特定を可能にする技術を提供します。その中心にあるのが、バウンディング・ボックスと呼ばれる物体の位置を表す手法と、グリッド・セルによる解析を統合するアルゴリズムです。

これらの仕組みによって、画像内の物体を正確に検出し、それぞれの物体がどこに存在するのかを素早く特定できます。次に、YOLOがどのようにバウンディング・ボックスを用いて範囲を特定し、高い正確性を実現しているのかを詳しく解説します。

バウンディング・ボックスによる範囲特定

YOLOでは、画像内の物体を特定するためにバウンディング・ボックスという図形を使用します。バウンディング・ボックスは、物体の範囲を示す枠線で、各ボックスには画像内の位置を表す座標軸が設定されています。さらに、このボックス内に含まれるものが物体である可能性を示す数値が計算されます。この数値はコンフィデンス・スコアと呼ばれ、物体か背景かを判断しつつ、物体全体の大きさも推測できます。

高い正確性を実現する推測技術

YOLOによる顔認証
YOLOでは、グリッド・セルとバウンディング・ボックスのデータを統合して、画像内の物体を特定します。グリッド・セルの分析はクラス・プロバビリティを用いて行われ、セル内に写る物体が特定のクラスに属する可能性を示します。このクラス・プロバビリティが高いほど、クラス分けの正確性が向上します。これらのデータを組み合わせることで、どの範囲にどのような物体が写っているかを精度高く推測することが可能です。

YOLOのアルゴリズムに入門するなら、セミナーを活用しよう!

YOLOのアルゴリズムに入門するなら、セミナーを活用しよう!

YOLOのアルゴリズムは、あらゆる場面で役に立ちます。

しかし、問題なのはそのアルゴリズムを理解し実装することが難しい点にあります。

YOLOのアルゴリズムを本格的に学びたい人は、セミナーの利用がおすすめです。YOLOに関する知識が全くない人が勉強を始める場合には、ディープラーニングの基礎事項から学ぶ必要があります。

深層学習の基本的なことから丁寧に教えてくれるようなセミナーも開催されているため、初心者でもしっかりと理解しやすくなっています。わからないことがあったら講師に質問ができるところもセミナーの利用しやすいポイントです。

AI研究所のセミナーなら独学ではつまずきやすい部分も、質問をすることでしっかりと理解しながら勉強を進められるのがメリットです。

おすすめのAIエンジニア講習をご紹介!

YOLOのアルゴリズムを本格的に学びたい方、ディープラーニングの基礎事項から学びたい方におすすめなのが、「AIエンジニア講習」です!

AIエンジニア向け育成講座は、AIプログラミングを3ヶ月で習得できる、AIエンジニアの育成セミナーです。

いつでもどこでも学習できるパソコン、スマホ、タブレット対応のEラーニング学習の為、自分の都合の良いペースで取り組めます。学習期間の目安は3ヶ月、全12回の講座を動画で視聴しながら自分のペースでしっかり学習できます

内容は、実務で使えるAIの実装技術と活用術を習得できるおすすめのセミナーです!もちろん非エンジニアの方でも、ゼロからプログラムの実装方法を学ぶことができます。

YOLOが使用されている実例

YOLOは、さまざまな業界において活用されている物体検出手法です。

サービス業を行っている一部上場の株式会社などでも利用されている技術で、店舗を運営している事業者などが効率的な店舗運営のために利用を進めています。

ここからは、YOLOが使用されている実例を研究していき、実用の可能性を探っていきましょう。

顧客分析に使用されたYOLOの技術

飲食店や販売店などの店舗に来店する顧客を分析する目的でもYOLOの技術は使用されています。

店舗の内部全体を撮影できる位置にカメラを設置して、記録された画像をYOLOを使って分析すればリアルタイムで店内にいる利用客の数を把握できます。

顧客の情報を収集することは、飲食店や販売店を運営していく上で重要になります。分析された利用客の数を各時間帯ごとにデータとして記録しておくことも可能です。

現在では個人の顔認証もスマホなどで実装されています。

顔認証に関して詳しく知りたい方は、こちらの記事を参考にしてください。

高速&高精度な「Laboro.AI顔検出エンジン」とは!?

YOLOはマーケティングのための分析に利用できる

どのような時間帯にどれくらいの数の利用客が訪れているかを情報収集し、細かく把握しておけば、より効率的な店舗運営をするためのヒントが見つけられることもあります。

YOLOの技術がさらに発達すれば、画像を分析するだけでさらに正確に利用客の詳細な情報を確認できるようになる可能性もあります。

男女の区別や日本人と外国人の区別などもできるようになれば、より詳細に個人単位で顧客分析が可能になります。

店内の映像をYOLOで分析することにより、店内に設置されている座席がどれくらいの割合で顧客に利用されているか計算することもできるでしょう。

分析の結果により、座席の数を増やすなどの対応もできるため、顧客に対してより細やかなサービスを提供できるようになります。

ドライブインのような施設では、YOLOによって車両の混雑状況も事前に把握しておいて顧客に情報を送ることで時間帯を分散できます。

顧客はよりサービスのより店舗を好むため、顧客単位の売り上げも上がり、経営者にとっても利用するメリットの多い技術です。

こちらの記事では、情報を収集してデータ化し、マーケティングにつなげる方法を解説しています。

機械学習による売り上げ予測の仕組みを徹底解説

YOLOによって安全対策も可能になる

YOLOによるセキュリティー店舗の外を歩いている通行人や走行している車両の数なども、店舗の外にカメラを設置してYOLOを使用することにより分析が可能です。

どのような時間帯に人や車の量が多くなるかを把握することで、営業時間などを決定する際にも利用できます。YOLOはセキュリティーのためにも活用することが可能です。

立ち入り禁止の場所に人が侵入しないようにするために、監視カメラを設置する場合にもYOLOによる分析を合わせて利用することで、さらに効果的な安全対策ができます。

監視カメラに写された人間と思われる物体をYOLOを使って検出することで、異変に対する素早い対応が可能になります。自社のオフィス内に不審な人が侵入してもすぐに警備会社に連絡できます。

YOLOは事業の活性化だけではなく、安全性の確保にも利用できるのです。多くの一部上場している株式会社では、導入コストがかかるもののそれ以上に多くのメリットを享受できるYOLOを実装させています。

以下の記事では、今回紹介した事例以外にもAIを利用した事例を紹介しています。

AI(人工知能)の活用事例10選!業種別にAIの活用事例を分かりやすく解説

ディープラーニングに欠かせないYOLOのアルゴリズム

コンピューターの深層学習にも広く利用されているYOLOのアルゴリズムについてご紹介してきました。従来の物体検出アルゴリズムよりも短時間で正確に物体を検出できるのが、YOLOのメリットです。

このYOLOのアルゴリズムは、人間のあらゆる生活の不便な部分を改善してくれる可能性を持っています。つまり、ビジネスにおいても今後は有益な技術としてなくてはならないものになるでしょう。

YOLOはさまざまな分野で利用されることが期待されていますが、一般企業の店舗運営にも利用することができます。ビジネスや生活に役立てるにしても、YOLOの知識や技術の習得が必要になります。

ITに詳しい人材を求人するにしても、事業の代表者がある程度の知識を持っていなければ良い人材を見分けることはできません。

YOLOを知識や実装するための技術を習得するためには、独学では難しい部分もあります。YOLOに関心を持たれた方は、記事でご紹介した、YOLOの学習に繋がる知識を学べるAIセミナーや、講演会を探してみてはいかがでしょうか。

AIエンジニア講習はこちら!

最新情報をチェックしよう!