AIが書いたツイートを見分けられるか?ELYZA Digestの開発背景
ELYZA(イライザ)はAI分野に強みを持つ東京大学・松尾研究室出身のメンバーで創立したスタートアップです。私たちは未踏の問題の解決を目指し、近年発展目覚ましい自然言語処理 (Natural Language Processing: 以降NLPと略記)(※1)・マルチモーダルAI(※2)の技術に焦点を当て、研究開発・社会実装に取り組んでいます。
突然ですが
ELYZAのTwitterアカウント(@ELYZA_inc)はご存知でしょうか?
ELYZAのアカウントでは会社紹介や採用情報の他に、NLP分野の最新論文や機械学習関連ライブラリを日本語で100字程度に要約して、つぶやいています。ご存知なかった方は是非この機会にフォローいただけるととても励みになります!
さて、ELYZAのアカウントをフォローしている皆さまの中で、最近のツイートの文面に違和感を感じた方はいらっしゃいますでしょうか?
実は7月に投稿した一部の要約ツイートは人ではなく、弊社が開発した文章要約AIが投稿内容を作成していたんです!実際にAIが作成した投稿を以下に羅列していきます。
(その他AIが文章を作成したツイート→7月15日、7月16日、7月18日)
リツイート、いいね数の変動やリプライを見る限りお気づきになった方はいらっしゃらなさそうですね。むしろ7月8日に投稿したツイートは、2021年8月27日時点で21リツイート、126いいねを頂いており、ELYZAが発信した過去の全ツイートの中でも上位に入る伸び具合でした。
本記事では(少なくとも100字程度の論文要約を行なった限りでは)人と同程度に高精度な要約ができる文章要約AI「ELYZA Digest」と、皆さまにお気軽に要約AIをお試し頂けるデモサイトの紹介をさせて頂きたいと思います。
ELYZA Digestのご紹介
改めまして「ELYZA Digest」はNLP領域に強みを持つELYZAが開発した、高精度な文章要約AIです。以下で開発に至った背景や用いた技術の概要について述べていきます。
まずはELYZA Digestの開発に至った背景を、少しAI研究の歴史を遡りながら説明させていただきます。2012年に深層学習を用いた手法が登場しブレイクスルーが起き、画像認識分野では2015年に「人間を超える」精度を実現しました。それ以降、自動運転や顔認証など、人間を代替するようなユースケースでの社会実装が進められました。一方、NLP分野では、「人間を超える」精度はなかなか実現されず、他分野と比較しても社会実装に至るケースは限られていました。そのような中、2018年秋にGoogleより汎用言語モデル「BERT」が発表され、2019年にはNLP分野で「人間を超える」精度が実現するブレイクスルーが起きました。そのため、英語ではNLP技術を実用化したサービスや事例が誕生しています
一方、日本語では言語特性に依存する技術的な難易度の高さや公開されているデータ量の少なさから、NLP技術の実用化が遅れていました。ELYZAはこの状況に問題意識を持ち、2020年にBERT以降の汎用言語モデルと弊社独自の大規模データセットを活用した日本語AIエンジン「ELYZA Brain」を開発しました。ELYZA Brain開発後、学習に用いる大規模データセットと言語モデルをさらに進化させ、日常・ビジネスの場でよく出現する「要約」という問題設定に特化させた、文章要約AI「ELYZA Digest」の開発に着手。この度皆さまにお披露目するに至りました。
ELYZA Digestの技術的な強みとして、先述した弊社独自の大規模言語モデルを用いている点の他に、生成型の要約を行っている点が挙げられます。一般的に、文章要約の手法はテンプレート型、抽出型、圧縮型、生成型の4つに大別することができ、それぞれ下記のようなメリット・デメリットがあります。
ELYZA Digestによる要約のサンプル
ELYZA Digestが採用している生成型要約の強みが発揮された2つのサンプルを掲載します。また、今回挙げた2つのサンプル以外にもメール文面や議事録、ニュースなどの要約サンプルが後述するデモサイトからご参照いただけます。
サンプル1. 小説
最初のサンプルは小説です。原文全文はこちらからご参照ください。今回用意したサンプルは夏目漱石が自著『吾輩は猫である』の上編に宛てた序文になります。『吾輩は猫である』が雑誌ホトトギスに連載されていたのは1905〜1906年であり、原文の文体や語調は連載当時を反映したやや古めかしいものとなっています。
ELYZA Digestの結果は当時の文体が反映された要約となっており、現代文のみではない、多様な内容にうまく対応できている様子が見て取れます。
サンプル2. 対話テキスト
2つ目のサンプルは電話での対話内容を音声認識ツールを用いて書き起こした文章を想定しています。原文全文はこちらからご参照ください。現行の音声認識ツールは日本語認識の精度が低く、原文にあるように誤認識しているケースや適切な漢字に変換できないケース、相槌が多く含まれノイズになるケースが散見されます。
抽出型やテンプレート型の要約では壊れた文章を入力すると、要約結果として壊れた文が出てきてしまうのですが、生成型を採用しているELYZA Digestは、壊れた原文から要点を抜き出して綺麗な日本語の要約文を作成することができています。
デモサイトでELYZA Digestをお試しいただけます!
今回、本記事に紹介してきたELYZA Digestを皆さまにお試し頂けるデモサイトを作成しました。サイトには以下のリンクからアクセスいただけます。
文章要約AIを試す方法
下記2つの工程を行うだけで簡単に文章要約AIをお試し頂けます。
1. 画面中央の入力欄に任意の文章もしくはWebサイトのURLを入力
2. 利用規約に同意の上、要約スタートボタンを押す
文章を入力した場合はその文章が、URLを入力した場合はリンク先の記載内容が要約の対象になります。アクセスの混み具合によりますが、空いている場合は10秒程度、混み合っている場合は30秒程度で要約結果が入力欄の下に表示されます。
また、演算量の関係で入力した文章の先頭2500文字までしか要約結果に反映されない仕様となっています。そのため、2500文字を超える長文を入力する場合は適宜編集を行っていただき、2500文字以内に収まるようにして頂いた方が綺麗な要約が可能です。
その他の機能
要約を行うとサイト下部に要約結果のフィードバックを行うボタンが出現します(下画像)。要約がうまくいった場合は成功、うまくいかなかった場合は失敗を押下して頂ければ、フィードバック頂いた分だけ文章要約AIを改善することができます!
また、要約結果には個別にURLが発行され、各種SNSでのシェアが可能になっています。ELYZA Digestすごいな、他の人にも広めたいと思った方は、是非シェアをお願いいたします。
ELYZA Digestを用いたプロジェクト開始
ELYZAは「未踏の領域で、あたりまえを創る」をミッションとして掲げており、深層学習などの先端技術の社会実装を通じて、革新的なプロダクトを生み出すことを目指しています。
この度、最先端技術を用いた文章要約AIの社会実装を行う先駆けとして、SOMPOホールディングス株式会社さまと提携させて頂く運びとなりました。保険領域のコールセンター業務において、音声認識で書き起こした対話データからの要約記録の作成業務に取り組む予定です。
また、ELYZA Digestの今後の展望としては文章要約AIのさらなる高精度化に取り組むとともに、コールセンター以外の業務においても、様々なユースケースに対して迅速に要約ソリューションの適用を進めていき、大きなインパクトを産める・スケールする領域を探っていく予定となっています。
さいごに
現在、ELYZAではAIエンジニア、AIコンサルタントなど、様々な職種で一緒に事業を前に進めてくれる仲間を募集しています。
多少なりともご興味を持っていただけた方は、メンバーと一度カジュアルにお話をしてみませんか?よろしければ、是非下記リンクよりお問い合わせ下さい。
■ カジュアル面談フォーム
https://chillout.elyza.ai/
■ 採用職種の一覧
https://open.talentio.com/r/1/c/elyza/homes/2507
また、文章要約サービス ELYZA Digestのリリースを記念し、Meetupを実施します。Meetupでは近年の自然言語処理の社会実装状況等を踏まえながらELYZA Digestについてお話する予定です。
自然言語処理やAIの社会実装に興味をお持ちの方、ELYZAの話を聞いてみたい方、お気軽にご参加ください。
参加方法など詳細につきましては下記ページをご確認ください。
※1:自然言語処理とは人間が日常的に使う言語(ex. 英語、日本語、フランス語...)をコンピュータで処理し、言葉が持つ意味表現を解析する技術のことを言います
※2:マルチモーダルAIとは入力が単一種類ではなく、さまざまなデータソース(画像、音声、テキスト...)を組み合わせてAIモデルを作成することを指します