![見出し画像](https://assets.st-note.com/production/uploads/images/56613053/rectangle_large_type_2_908428be8b63e0a4aab7f607c12d0e88.png?width=1200)
タンテキくん開発秘話No.3〜自然言語処理システムの開発はどのくらい大変?!〜
こんにちは!バズグラフです🌟
私たちバズグラフは独自の自然言語処理システムを駆使し、文章要約サービスを提供しております。
代表サービスである、文章要約AI「ニュースタンテキ」は、現在β版を無料で公開中。
文章要約AI「ニュースタンテキ」▶︎https://ai-tanteki.com/
公式noteではこれまでに、ニュースタンテキの開発にまつわるエピソードを公開して参りました。
今回はタンテキの誕生前に立ちはだかった「自然言語処理サービス」開発への苦労エピソードなどをご紹介します。
最近では、多くの自然言語処理を扱う技術者や開発者のみなさまに、文章要約AI「ニュースタンテキ」をご利用いただいております!
そんな開発側のみなさまにも、どこか共感できるエピソードをお届けします!
文章を理解するAI開発は難しい?!20年前に発見した「名詞以外の語句とのつながり」が突破口に!
▲株式会社バズグラフ・代表取締役兼開発者:西本光治
株式会社バズグラフの代表取締役兼開発者でもある西本が、自然言語処理システムに着目したきっかけは、文章要約AI「ニュースタンテキ」の開発のためでなく、「チャットボットシステム」を制作するためでした。
(参照:タンテキ開発秘話No2はこちらの記事もおすすめ▼)
「チャットボットシステム」とは、最近よくある「人の問いかけに対して自動で会話を返信してくれるシステム」のことです。今でこそ多くの企業がそのシステムを使用していますが、当時はまだまだ開発段階で満足に会話ができるシステムがなかったと言います。
「人の問いかけに自動で返信する」のは一見シンプルな構造に見えますが、この仕組みを開発するには、まずは形態素解析という技術を用いて、問いかけられた文章を最小の語句ごとに分解していくことが一般的です。つまり、最低でも数十万語、多い物だと一千万語近くという辞書データを使って文章を語句ごとに分解するシステムを使わなければなりませんでした。
時間もデータも大量に使用するため、大手開発会社でさえこのシステムの制作には受託することを躊躇う会社が多かったのですが、西本は個人の技術者としての知識を用いて、自ら開発を進めようとしたのです。
開発するためのパソコンがない…それならば!逆転の発想で違う角度で語句を分解
当時、西本が所持し使用していたパソコンの性能があまり良くなく、最低でも数十万という膨大なデータを収めるだけの性能を持ち合わせていないと考えた西本は、発想転換し膨大な辞書データを使わずに文章を語句ごとに分解する方法を考えようと思ったのです。
そこで初期は、マシンチャット用に700語程度の辞書データを
更に改良を加えて4,000語程度の辞書データで文章を分解するシステムを作りました。
名詞や動詞や形容詞などを辞書化するのでは無く、語と語のつながりや機能のみを表す共通表現に着目し、それらのみを辞書化することで、形態素解析と同等、語と語のつながりも同時に分かるようになり、それ以上の結果を得ることができるようになりました。
この手法が、現在文章要約AI「ニュースタンテキ」のサービスにも用いられている機能素解析と呼ばれるシステムです!
そして機能素解析手法を自作することになった経験が、「名詞以外の語句とのつながり」に着目するきっかけとなったのです。
AIに人の会話の意味を理解させることへの苦労
自作の機能素解析手法を用いることで、文章本来の意味を見出すことに近づいた一方で、AIに人間の会話や文章を理解させるには、特に日本語では背景知識なども汲み取らなければならないため、どこまでを「意味理解」とすべきか、非常に難しいポイントです。
言語に対する人の認知方法に近づけるために、20年前から改善を重ねてはいます。
しかし、人は何かを思考するときに、その物事に関係が強い自分の過去の経験や学習で得た知識を無意識に想起しながら思考を巡らせるものであり、この部分までAIが汲み取ろうとすると、更に複雑で難しい技術になっていきます。
このような人の思考の背景や知識を、どのようにコンピュータに自動学習させ、コンピュータの中に構築して行くのか?
そして、構築された知識の中でもどの部分が、今問われていることに最も強く関係し、そして重要なことなのか?
これらは現在も開発と改善を重ねている段階です。
文章を理解するAIができることで実現される社会とは?
AIが人間と同じように文章を理解できれば、文章の生成も可能になるはずです。
例えば、外国の方が作成した日本語が間違っていた際に、正しい日本語に修正したり、ある質問に対して決められた定型文ではなく、質問を理解して回答文を作成する、ということも可能になります。
更にはAI同士のコミュニケーションも可能にし、あるニュースに対してAI同士で議論するという事も将来も見えてくるでしょう。
勿論、人間が制御する機能がある前提としての話ですので、シンギュラリティのような心配はないと考えていると同時に、文章を理解したAIによって、どんな人にも優しい社会を作り上げる一歩に繋がるのではないかと考えています。
また、現在の世界におけるAI開発では、画像認識、ロボティクス分野が多くを占めますが、それは自然言語処理AIが難易度が高く、言い換えれば、我々人間が持つ言語という技術が非常に高いスキルであると言えます。
しかしながら、人間と同じように言語を理解できなければ、本当の意味でのAIは誕生しないでしょう。
険しい道のりですが、AIが人間に取って代わる世界ではなく、人間をサポートする環境を確立する為にも、文章の分析と解析を続け、人間と同じように文章を理解AIを必ず完成させたいと日々開発を進めています!
今後の文章要約AI「ニュースタンテキ」としての展望は?
まずは年内を目途にβ版の機能アップを進めて行く予定で、ほぼ毎月の頻度で新機能をリリース予定です。その後、有償版での提供を開始する予定です。
また、論文や社内文章の要約システムなどの開発も進める予定です。
他の言語の要約に関しては、まずは言語体系上最も難しいとされる日本語向けのサービス展開をメインで進めていきますが、今後の市場調査次第では多言語対応も検討する予定です!
日々進化を重ねるニュース記事に特化した文章要約AI「ニュースタンテキ」の応援を今後ともよろしくお願いします♪
文章要約AI タンテキβ版(無料)はこちら
タンテキに関する関連ページ
それでは次回の更新もお楽しみに!