感情認識

感情認識とは

コンピューターが人間の感情を推測する方法は、いろいろな種類があります。代表的なものとしては、画像によるものと、音声によるもので、相手の表情を読み取る方法や、声の高低やしゃべる速度で認識を行います。

例えば、表情はむずかしい顔で、高いトーンの大きな声で話していると「怒っている」と判断し、しずんだ顔で、声のトーンが低く小さめの声だったら「悲しんでいる」と判断します。ただしこれは、表情と、発声の両方を判断する方法ですので高度な処理が必要になります。

ここでは、簡単に画像によるものと音声によるものを分けて紹介します。

画像による感情認識

まずは画像による感情認識ですが、現在では携帯電話のカメラなどにも人の顔を検出する機能が搭載されています。コンピューターが表情を認識するというのは大変難しい技術で、人それぞれで違う顔のパーツの位置や大きさ、口やまぶたの開閉といった情報を、すべて分析する必要があります。このため、高い処理能力のハードウェアが必要になってきますので、クラウドベースのシステムが多く利用されています。

また、生物学的な見地からも、瞳孔の開き具合などで、ある程度の感情推測が可能であり、ある程度の期間統計を取っていれば、動作速度がいつもより早いか、遅いかといったデータからも感情の推測は可能となります。面白いことに、笑顔なのにその裏では笑っていないなど、軽微な特徴からも判断できてしまうようなので、その精度の高さがわかります。

音声のよる感情認識

次に音声による感情認識ですが、一般的には、感情をラベリングしたサンプル音声から音声の特徴量を抽出し、機械学習等を用いて感情推定器を構築し、一般的なモデルとします。そしてこのモデルに当てはめることで新たな音声から感情を推定します。
しかし、画像と同じく感情の表現方法や、声質の差など個人差が多いため、推定の精度を要求すると時間がかかってしまいます。

また、音声の解析には、言語的なものと音響的なものがありますが、同じ単語の意味でもその発音によっては幾通りの解釈が必要になることもあり、言語的なものでは判定が難しい場合も多々ありますので、音響的な解析が必要になってきます。
実際に利用される用途としては、担当者がコールセンターなどでの対応中であっても、クレームであると判断して、その対応が不十分で顧客がヒートアップした場合にでも、担当者の上司がタイミングを計ってその緩和に割って入ったりすることが可能です。

また、リアルタイムではないですが、例えば、人事面接などでの面接官側と面接者とのやり取りで、パワハラ的な言動がなかったかなどを後から第三者がチェックしたりといったようなことも可能となります。

このほか、脈拍や発汗量などの生体情報も感情を知る際に利用できるデータです。単に脈拍だけ、発汗量だけで見ると単に運動後で脈拍も早く、発汗量も多くなっていますので、感情の判断ということにはならないのですが、これを音声と複合して利用するといったことを考えると、このタイミングで脈拍が増加した、とか発汗量が増えた、などの情報とも総合して解析が可能となります。

もちろん様々な情報が複雑に関連していくことになりますので、この場合の感情認識にはものすごいコストがかかってきます。どこまで人間の代わりにコンピュータが出来るかというところにも関わってきますが、いかに少ない情報で正確な判定が可能かという点においても、日々その精度、手法、ハードウェア、ソフトウェアといった様々な要素が出てきています。実際に導入するにしても、その用途や目的もある程度ははっきりしていないとシステムの構築は難しいものです。