【後編】機械学習に不可欠な「アノテーション」とは?AI開発の裏側をわかりやすく解説
※この記事は、「機械学習に不可欠なアノテーションとは?AI開発の裏側をわかりやすく解説」の【後編】になります。
前編は▷こちら◁よりご覧ください。
機械学習におけるアノテーションの種類
アノテーションが機械学習においてどのような役割を持っているのかがわかったところで、実際にどのようにアノテーション作業を進めていくのか確認していきましょう。
アノテーションと一口に言っても、扱うデータ形態によってやり方が異なります。機械学習のアノテーションについて、大きく次の3種類のデータに分けて解説していきます。
①画像・動画データ
② テキストデータ
③音声データ
①画像・動画データ
画像や動画データは、基本的にはアノテーションでその画像・動画に何が写っているのかをラベリングしていきます。画像・動画データのアノテーションにはいくつかの手法がありますが、ここでは代表的な以下3つをそれぞれチェックしていきましょう。
○物体検出
○領域抽出
○画像分類
※なお、アノテーションをする際には1つ1つの手法を個別に使うこともありますし、複合して使う場合もあります。
○物体検出
物体検出は、画像や映像に写っている物体・対象物に対して、ラベリングを行うアノテーション手法です。
具体的には、画像や映像内で検出したい対象物をバウンディング・ボックスという四角形で囲んで、ラベルを付与していきます。
こうすることで対象物のおおまかな位置と大きさ、そして意味をAIに認識させられるようになります。
スマホやデジカメの顔検出機能で人の顔にボックスが当たりますが、それがまさにバウンディング・ボックスです。
物体検知ではバウンディング・ボックスのほか、対象物を線で囲むポリゴン、直線や曲線で指定するポリライン、点で指定するランドマークなどの手法もあります。
○領域抽出
画像内の一部分をラベリングする物体検出に対して、画像をピクセルなど細かい単位で意味づけしていくアノテーション手法が領域抽出です。
ピクセルレベルで意味づけをしていくため、物体の境界線をより緻密かつ明確に判別できるようになります。
そのため、バウンディング・ボックスに対象物が収まる前提の物体検出と違って、領域抽出は形状が不規則な対象物でも明確に判別が可能です。
たとえば、自動車の自動運転映像解析においては、常に自動車や歩行者の場所が変わるため、道路や白線、標識の形状・大きさなど対象範囲が変わります。
そのような場合でも領域抽出を用いれば、どのような状況においても明確に物体のラベリングが可能となります。
○画像分類
画像分類は、画像1枚に対してさまざまな属性を付与するアノテーション手法です。
物体検出や領域抽出が画像内の対象物へラベリングしていたのに対して、画像分類は画像そのものに意味づけをします。画像分類でアノテーションする場合、付与する属性は1つだけというわけではありません。
たとえば、犬の画像であれば「犬」という意味づけ以外にも、次のような属性を付与することもあるでしょう。
・色は何で模様はどうか
・犬種は何か
・性別はオス・メスどちらか
・大きさや体重
・年齢はいくつか
・表情や感情はどうか
・何をしているか
属性は多ければ多いほど細かな分析・出力ができますが、その分だけ当然ながらアノテーション作業は大変です。
そのため、AIの目的や用途に応じてアノテーションで付与する属性を取捨選択して作業を進めることになります。
②テキストデータ
テキストデータのアノテーションでは、対象となるテキストの意味合いを人(アノテーター)が判断、ラベリングをしていきます。
具体的なアノテーション作業としては、”エイブラハム・リンカーン”という単語に「人」、”日経平均株価”という単語に「経済」と意味づけするといった具合です。
こうすることで、たとえばSNSや顧客データなどのテキストデータから、その言葉がどのような内容なのか、自動でカテゴリー分けできるAIが完成します。よくニュースアプリなどでニュース記事が、スポーツ・経済・エンタメなどのカテゴリに分類されている例がそれです。
このように、テキストデータのアノテーションでは単にその言葉や文章がなんの話題なのか意味づけするほか、依頼や疑問などどのような意図の表現か、喜怒哀楽どのような感情であるかもアノテーションで意味づけします。
また、アノテーションの対象となる文字範囲は、単純に文章内の単語だけにとどまりません。文章全体に対してはもちろん、文章内の文節1つ1つ、段落丸ごとなど、AIの目的や用途に合わせてケースバイケースでアノテーションを行っていきます。
自動振り分けされるメールサービスが多いですが、この分類にもテキストデータのアノテーションが活用されています。
③音声データ
音声データのアノテーションでは、対象の音声に対してテキスト化した言葉や文章をラベリングしていきます。
こうすることで、未知の音声データが入力された時にその音声を文章として認識、応答として正しいテキストを出力できるようになります。
音声データの機械学習は、AlexaやSiriなどスマホやスマートスピーカーの音声認識が応用例として代表的です。
このほか、近年では会議の議事録起こしや翻訳など幅広く利用されています。精度の高い音声認識AIを構築するためには、人の声が年齢や性別、地域によっても音声のパターンが異なるため、学習させるデータ数も含めて考慮が必要です。
アノテーションは高精度な機械学習に欠かせない縁の下の力持ち
アノテーションは機械学習させるデータに対して、意味をラベリングすることで教師データを完成させるAI開発の作業・工程の1つです。どれだけ多くの教師データを準備できたとしても、アノテーションなしではAIが正解を理解できないため、満足のいく結果は得られません。
また、データの種類に応じてアノテーションにはいくつかの手法があり、最終的なAIの目的や用途によって使い分けや度合いを調整していく必要もあります。
データが多ければそれだけ大変な作業にはなりますが、精度の高い機械学習のためにアノテーションは欠かせない非常に重要な工程となります。
ここまで読んでいただきありがとうございます。
いかがでしたでしょうか?機械学習における"アノテーション"についてより知っていただくきっかけとなれば嬉しいです😊
「MENOU AI開発プラットフォーム」で外観検査におけるお悩みを解決しませんか?
MENOU AI開発プラットフォーム は、これまで人に頼ってきた目視検査を、AIを使って自動化することができます。
MENOUのAI開発プラットフォームでは、機械学習のために重要な役割をもつアノテーション作業も、豊富な便利機能で簡単に行うことが可能です。
アプリケーションは直感的なUIとなっているため、マウス操作のみでプログラミングが不要となっており、AIに関する専門知識をお持ちでない方も、またエンジニアでない方も、どなたでも複雑な検査・検品をAI化することが可能です!
ぜひ外観検査の自動化をご検討されている方は、下記のフォームよりお問合せください。