#5 自然言語処理
こんばんは、今回は再生水の受容度の調査方法としての自然言語処理とアンケート調査の違いについて書いていきたいと思います。
Q1.自然言語処理とは何か?
自然言語処理とは、人が使っている言語(自然言語)をコンピュータで処理・分析する技術のことです。NLP (Natural Language Processing)とも呼ばれます。
自然言語は曖昧さを含んでおり、同じ言葉でも文脈等によって意味が異なってきます。したがって、コンピューターで分析するには非常に高度な技術が要求されます。
現在はAIやディープラーニングの技術が発展し、機械による自然言語の理解や翻訳が可能になりつつあります。以下、自然言語処理を用いた実用例です。
・Amazon Alexa(AIスピーカー)
・検索エンジン
・チャットボット
・テキストマイニング
今回の研究では主にテキストマイニングについてなので、重点的に説明します。
テキストマイニングとは、テキストデータの中から重要な情報を抽出する技術です。例えば、SNS上のコメントやカスタマーサポートに寄せられた顧客の声からニーズを分析できます。これを再生水について行うのが今回の自分の研究になります。
Q2.自然言語処理(NLP)とアンケート調査の違いは何か?
簡単に調査方法の差を示したのが以下の表です。
まず一番大きなNLPの利点は、サンプル数が圧倒的に多いことです。アンケート系の調査では、被験者を集めるのに苦労するため多くのサンプルを得ることが容易ではありません。(自分の部活でも先輩の調査などに協力する機会がありましたが、被験者探しに苦労していました)
SNSを利用して集める場合、簡単に1万を超えるサンプルを集めることができます。pythonによる整理のしやすさ、定型的なスタイル等を加味し自分はTwitterからデータを集めるという研究を行なっています。
2つ目の利点に、発信内容について好きなことを書くことができるという特徴が挙げられます。
多くのアンケートは選択式で、与えられた枠組みの中でしか評価することができません。記述式のアンケートの場合はそもそも書いてもらえないということがあります。その中でNLPを用いれば上記の課題は解決されます。
3つ目の利点として、評価基準の客観性が高いことが挙げられます。
アンケートの場合5段階評価の基準は人によってまちまちで主観的ですが、プログラムを用いて判断するNLPにおいては客観的に判断できます。
4つ目の利点に時系列の分析が可能であることが挙げられます。
アンケートでは実際の出来事と感想の関係について推測することは難しいですが、SNSは時間のデータと投稿のデータを結びつけて分析できるため実際の出来事が人にどう影響を与えたかを調べることができます。
一方で欠点/限界もあります。
よく指摘されるものとしては母集団の問題があります。
そもそもSNS利用者の年齢層に偏りがある、大勢の賛成者より一部の反対者の方が発信が多い、同じ人が何度も何度も意見を表明するなど様々なパターンがあります。また、アンケートに比べ発信者の特徴を正確に把握することができません。
ここまで書いてきましたが、アンケートとNLPどちらがいい悪いという問題ではなく、長所と短所があるので意味が違うということです。
この次の投稿では、自然言語処理のより具体的な方法について説明するブログを書きたいと思います。
長文ですが読んでいただきありがとうございました。
出典
3分でわかる!自然言語処理(NLP)とは?
https://it-trend.jp/textmining/article/124-0027