自然言語処理(NLP)分野の知識と考え方
ディープラーニングによるAIモデル・技術という記事でも既にディープラーニング系の技術を活用した自然言語処理についての情報は触れているし、ChatGPTとか大規模言語モデル(LLM)関連の情報まとめという記事にあるように今時はLLMだろうという話もある。
が、流行りがどうとかではなく、自然言語処理の基本的な知識や考え方、事例とかは把握しておくべきと思い、上記の記事を補足する情報の整理を。
よりベーシックなテキストマイニング
比較的簡単なテキスト分析の手順についての初心者向けテキスト
トピックモデルは確かにこれが分かりやすかった。
ニューラルネットワーク、ディープラーニングによるNLP
上記が統計的な処理をベースにしていて、比較的ロジックを追っかけやすいホワイトボックス的な分析だった。
それに比較するとブラックボックス的な、なんでそうなるかわからん、ロジックを追っかけきれないものにはなっていくけれど、機械学習~NN/DLを活用することで精度が向上したり大量データを処理出来たりして、最近の生成AIの発展につながる。
とはいえ、以下の記事はコンセプトを理解するのに優れていてお勧め。
word2vec系に関してはコレ
GoogleのBERTモデルは使ってたな。LLM流行りの昨今でも、大量の文章を0-1で分類する問題には、日本語向け事前学習済みBERTモデルのリスト · GitHub は今でも有用。
ここら辺を動かすためにやむを得ずpythonを学んだり、サンプルコードを引っ張ってきたり、最後は若手に作ってもらっちゃったけどww
あとはデータ集として国立国語研究所 (ninjal.ac.jp)と、イメージアップしやすい活用事例としてデータジャーナリズムを。
自然言語処理系の知識や考え方、事例などの情報を今まで僕が得てきたのは、自然言語処理そのものが専門ではない、対象ドメインを分析するためにたまたま自然言語処理を使ってる人たち。なので利用シーンについてはわかっても、技術の深い所はいまだピンと来ない。
だから専門家として適切な人を知ることが次の目標か。僕が最近知った専門家らしき方は、無知の知を知らないというか、それ実務ではもっと簡単に解決するよねというのにも自然言語処理の高度技術(最近ならLLMも加えて)に固執して自説を滔々と演説するというか、まぁ。。。
他の情報を見たい方は、目次ページへ
仕切り直しで収集情報の整理から|くすぐったがり|note