画像認識

画像認識とは

画像認識は、1960年代ぐらいから研究が進められてきましたが、当時はコンピューターが高価で性能も現在ほどよくなかったため、限られた分野での研究が行なわれていただけでした。その後、コンピューターの性能が向上してきたため、他の分野でも画像認識技術が広まりました。

さらに、1980年代になるとパーソナルコンピュータの登場により画像認識の研究がより一般的に広まり、画像処理専用プロセッサも登場したことで、更に応用分野が広がりました。

1990年代になると、さまざまな画像認識ソフトウェアが登場しはじめ、画像認識のための専用ハードウェアとともに販売されるようになり、さまざまな産業分野にも広がりました。

現在、画像認識技術は、学会などでは「コンピュータビジョン」という分野の中で扱われており、日本でも電気情報通信学会や情報処理学会などで盛んに研究が行われている重要な技術の一つとなっています。
画像認識技術は、画像に何が映っているのかをコンピューターに理解させることを目的にしています。

この理解には2通りあり、1つはその画像が何であるかを、何らかのシンボルとして表したり分類したりする方法です。もう1つはカメラの映像などから、画像に映っているものを三次元モデルとして復元する方法であり、前者を画像認識、後者は画像理解などと呼ばれます。
ちなみに、画像処理という言葉もありますが、こちらは画像をぼかしたり、部分的に切り抜いたりなどの加工の技術がメインであり、認識の技術は含まれませんが、コンピュータビジョンの範囲としてはこれも含まれます。

画像認識の手法

画像認識も他の認識技術と同じように、「学習」と「認識」の2つのフェーズで成り立っています。

まず学習のフェーズでは、画像になんらかの処理を施すことで、ピクセルデータから特徴量データという、より学習に適したデータへの変換を行います。次に、変換されたデータを、機械学習によって学習を行います。そうすることで、特徴量のデータから、これが顔なのか、手なのかなどといった判別させる為の共通のルールが抽出されます。

そして、次に認識のフェーズですが、ここでも学習フェーズと同様の手法で入力画像を特徴量データへ変換し、変換されたデータを機械学習で抽出された判別ルールに基づいて、判別します。認識の用途次第では、この認識フェーズに認識対象の情報を内包させるということで、学習フェーズを省くものもあります。

また、たくさんの画像の中から、入力画像と最も近い画像を探してやりたいといった場合は、画像の特徴量と入力画像の特徴量との距離を計算することで目的は達成されますので、こちらも学習フェーズは不要となります。
画像認識技術で最も利用されていると思われる技術がOCR(光学式文字読取装置)です。これは、スキャンした文書から書かれている内容を文字データとして取り出す装置やソフトウェアのことであり、また、その技術全体を指す場合もあります。

また、顔認識技術も近年では携帯電話などでも利用されるほど利用が進んでおり、顔であるということだけではなく、誰なのかという個体情報を記憶し、それを検出することも可能となっています。

第4次AIブームの火付け役となったのも、実はこの画像認識です。2012年の画像コンペにおいて、ディープラーニングを用いたチームが、他のチームを大きく引き離して優勝しました。ニューラルネットワークの中でも、畳み込み層やプーリング層を持つディープニューラルネットワークが画像認識の精度を飛躍的に向上させたため、「人工知能は視覚を手に入れた」とも言われました。

そして、最も注目されている技術はというと、自動車の車載カメラで道路の白線を検知したり、対向車や斜め後ろ方向からの車、さらに歩行者など検知したりといったドライバー支援の技術です。最近では市販の自動車にも一般的に搭載されるまでになりました。この技術は自動車業界で力を入れている自動運転のためには欠かせない技術であり、自動車メーカーもこの研究には競って様々な技術開発を行っています。