アノテーションの作業手順!外注とどちらが良い?

AIが集めた情報を分析し学習する機械学習では、参考にする教師データの存在が重要となります。その教師データを作成するためには、アノテーションと言う作業が必要です。今回の記事では、アノテーションの基本的な知識、アノテーションの作業手順、外注と手作業ならどちらがよいのかを解説していきます。

アノテーションとは何か

アノテーションとは、言葉の意味だけを言うならば「注釈」という意味です。それが、AIが機械学習をするときには、データにラベルを付与する作業のことを指します。まず機械学習では、集めたデータを分析して、そこからパターンを見つけ出します。見つけたパターンを新たなデータの分析に用いれば、より高い精度で将来の予測が可能になります。

その機械学習において、問題となるのがAIは何もない状態からデータが何かを判断することが難しいことです。例えば、人の顔写真からパターンを学ばせようとしても、AIはそこに写っている人の性別や年齢などを判断する基準を持っていません。そこで、これは30代の男性である、といったラベルを付与した顔写真を用意しておけば、AIはそれを教材にできるので分析がはかどります。このようにアノテーションとは、機械学習の効率を高めるために必要となることです。

アノテーションは、画像だけでなく動画や文章と言ったデータなどでも行うことができます。しかし、データはとても複雑なものなので、適当にラベルを付与すれば教材として使えなくなります。例えば画像であれば、人だけでなく建物や動物なども写っています。機械学習の教材とするためには、人の写っている部分だけには「人」のラベルを、建物が写っている部分には「建物」というラベルを付与しなければならないでしょう。このためアノテーションを人の手で行うとすれば、膨大な時間と労力が必要です。

アノテーションの作業手順

画像・動画データのアノテーション

画像データのアノテーションの作業手順は、やり方によって異なります。最も単純な作業が画像分類であり、1枚の画像ごとに、被写体の属性である「男性」「女性」「犬」「猫」といったラベルを付与していくだけです。次に紹介するアノテーションは、物体検出といって、画像・映像の被写体をひとつひとつ検出し、ラベルを付与していくものです。物体検出の作業は、まずアノテーションに用いるツールで画像・映像の一部をバウンティボックスと呼ばれる長方形の領域で指定します。そしてバウンティボックスが囲んでいるものに合わせて、ラベルを付与していくという流れです。被写体の位置まで指定できますし、複数の被写体があっても異なるラベルを貼り付けられます。

物体検出より、さら詳しくラベルを付与できるのが領域検出(セマンティックセグメンテーション)です。こちらは、被写体を領域で囲むのではなく1ピクセル単位で領域を指定していき、その後にラベルを付与していく作業という流れになります。領域は、塗り絵のように領域の境界線を抽出しながら指定していくので手間がかかる作業です。

物体検出と領域検出の中間にあたるのが、多角形を用いた領域指定(ポリゴンセグメンテーション)です。作業との流れとしては、被写体の領域を多角形で囲っていった後に、ラベルを付与するというものです。長方形の領域では、被写体がはみ出たり空白の部分まで指定したりすることがありますが、多角形であれば被写体の形状に合わせて柔軟に形を変えられるので、正確さが増します。

これまでのアノテーションとは違い、領域を点で捉える手法が目印を用いた検出(ランドマークアノテーション)です。スマホやドアのセキュリティで使う顔認証は、このタイプのアノテーションが利用されています。作業はどうやって進めるのかというと、例えば顔にある目や鼻といったパーツや輪郭の曲線部などに目印をつけていきます。目印をつけおわったら、点ごと属性にあわせたラベルを付与していきます。

音声データのアノテーション

音声データのアノテーションですが、まず音声を文章に書き起こす作業から始めます。それから、文章内にでてくる単語にあわせて、その意味をラベルとして付与するという流れです。コールセンターなどでは、かかってきた電話音声を自動的にアノテーションをしてから、文章の内容をAIに判断させ対応するマニュアルの回答を表示できるようにしています。

文章データのアノテーション

文章データのアノテーションは、対象を指定してから内容に合わせてラベルを付与していくというのが作業の流れです。指定する文章は、全体を指定することもあれば、その中に出てくる人物名や商品名だけを抜き出すこともあります。さらにラベルが付与された文章を、意味や意図にあわせてタグを付けることで、AIが文章の内容を正確に読み解けるようになります。このアノテーションは、チャットボットなどに用いられている技術です。

アノテーションは外注か手作業か

AIの機械学習において、教師データを作成するアノテーションは必要です。人間の目で、データを確認して、ラベルを付与していけば分析の精度が高まるでしょう。しかし、機械学習の教師データというのは、膨大な量になります。数万枚、数十万枚の画像をひとつひとつ確認しながら、アノテーションを行うとなれば大変な労力と時間が必要です。加えて、ラベルの付与が終わったあとに間違いがないのか確認する作業もしなければいけませんから、さらに時間と労力を必要とします。その作業を助けるアノテーションツールというものもありますが、アノテーションに詳しい人材がいないときには、使いこなせない可能性があります。

アノテーションのために、貴重な人手が割かれてしまうと、より重要なコア業務まで手が回らなくなる恐れがあります。AI開発に使える時間と予算は有限なので、そのままではプロジェクトの存続が危うくなります。そういったことを考えると、アノテーションは外注した方が良いでしょう。アノテーションを専門とする業者に任せれば、自社で人員を用意せずに済むので、あらたに専門知識を持った社員を雇ったり育ててたりする必要はなくなります。そうすることで、人件費・教育費を抑えることができるでしょう。また、自分たちがコア業務に集中している間にアノテーションを進めてくれるので、作業の効率性が高まります。手作業に比べて、外注は非常に楽です。

肝心なアノテーションの品質ですが、豊富な経験とノウハウを持っている業者に任せれば心配ありません。精度の高い機械学習に必要な教師データを用意できるでしょう。なお、アノテーションにもいろいろと種類があるので、何を学ばせたいのかによって最適な業者が変わります。また適正な料金なのか、セキュリティは万全なのかという点も重要です。あらゆる要素を考慮して、アノテーションを外注する業者を選びましょう。

手間のかかるアノテーションは外注しよう

AIの機械学習で必要となるアノテーションについて、作業の手順を学べば手間がかかることがわかります。自社で何もかもやりたいというこだわりがないのであれば、専門の業者に外注してしまう方が楽です。業者に外注するときには、実績や料金、セキュリティ対策のことなどをよく調べて、信頼できるところを探しましょう。

最新情報をチェックしよう!