特許読解AIアシスタント「サマリア」を特許翻訳で活用する(転載)
特許翻訳会社のストランズ・インターナショナル株式会社の代表取締役 藪内達也さんに「或る特許翻訳者の書斎」に掲載いただいた「記事」の許可を得た上での転載記事となります。
パテント・インテグレーション株式会社のCEOであり、弁理士をされている大瀬さんが、特許読解AIアシスタントのサマリアを開発されました。
このツールは、アカウント登録さえすれば誰でも無料で使うことができ(2023年10月3日現在)、主たる機能は、難解な特許明細書の読解や、スクリーニング機能(侵害予防調査など、特許調査向け)なのですが、特許翻訳を生業にする方にとっても使えるツールではないかと思いましたので、自分なりに操作をしてみての、特許翻訳分野での応用方法を今回は紹介したいと思います。
なお、私が主に、外内(英日)の翻訳を行っていることから、今回の説明では英語原文を使いますが、逆の言語方向、あるいは別の言語方向で特許翻訳をされている方も、同じように使っていただけると思います。
実際にサマリアを使ってみての、特許翻訳での活用・応用としては、以下の2つが現実的かと思いました。
①自分の専門分野+αの複合分野明細書の読解支援
②重要な構成要素の参考訳文調査
以下、順番に詳しく解説していきたいと思います。
①自分の専門分野+αの複合分野明細書の読解支援
サマリアのメイン機能は「明細書の読解支援」であり、これは、翻訳のために明細書を読む翻訳者にもありがたい機能です。
具体的な活用方法ですが、まず、サマリアにアカウント登録/ログインすると、最初のページで「明細書の読み込み」を行う画面が表示されます(下図参照)。
今回は、"US20190171933A1"の明細書の翻訳を実際に対応することになったとして、サマリアをどのように使っていくかを説明していきます。
なお参考情報として、この明細書は、発明の名称(Title)が"Neuromorphic system"、日本語で言うと「ニューロモルフィックシステム」となりましょうか、脳の神経系を模した人工脳神経で、分野的にはバイオ、化学、電気の複合案件と言えると思います。
私が普段、バイオ、化学系の明細書の翻訳をすることが多いのですが、こういう脳科学が絡む明細書を目に通すことがほとんどなく、明細書に書かれてある内容のある程度が良く分からない、という状態だとします。
まずは、「文書番号」の右部分を「英語」にして、この明細書の公開番号(上に記載した、USから始まる番号)をコピペします(下図参照)。
すると、「文書内容」の空欄に、自動的に抽出された要約文などが表示されます。
この画面を下にスクロールしていくと、「アップロード」というボタンがあるので(図面省略)、それをクリックすると、以下の図のように、公開公報が、いくつかのワードがカラフルにハイライトされた状態で表示されます。
右上のウィンドウの「キーワード」の部分をクリックすると、自動的にハイライトされた単語が一覧で表示されます(下図)。
ただ、現時点で、サマリアには、英語では2語以上の複合語の抽出ができないようで、この明細書をよく見ると、"neuron circuit"と"hemostatic circuit"という、2つの言葉があるにもかかわらず、共に"circuit"だけがハイライトされてしまっています。
これを、"neuron circuit"と"homeostatic circuit"でそれぞれ色分けをすれば、だいぶ明細書の内容を把握しやすくなりそうですので、その操作をしたいと思います。
下図のように、ハイライトしたい複合語をカーソルで反転させて、右クリックしたときに表示される「キーワードに追加」を左クリックします。
そうすると、以下のように、"neuron circuit"のかたまりをハイライトさせることができました。
※この場合、"circuit"は当初のまま赤色でハイライトされ続けるのですが分かりづらいので、キーワード画面の一番右にある「×」をクリックして、単独のワードを一旦削除しておくのがいいでしょう。
また、とりあえず"neuron circuit"がハイライトされましたが、自動で緑色になってしまっているの、視認性向上のために色を変えます。上図のキーワードウィンドウで、"neuron circuit"の色の部分をクリックすると、色の一覧が表示されるので、見やすい色に変更します。
今回は以下のように、赤色にしました(下図では既に、"homeostatic circuit"を青色でハイライトし終わっています)。
さらに下図では、最初の文章をざっと読んで出てきているもう一つ別の構成要素とおぼしき、"global self controller"を黄土色でハイライトし終えました。そして、それ以外のハイライトされたキーワードを全て削除して、"neuron circuit"、"homeostatic circuit"、"global self controller"の3つだけがハイライトされた状態となっています。
ここからサマリアをどう使うか?ですが、翻訳をするに当たっては、
A.重要な用語の(明細書の中での)意味をざっくりと把握する
B.重要な用語(構成要素)どうしの関係性を理解する
というのが、明細書の理解に必要なことで、これらの理解の手助けに、サマリアを使うことができます。
まずは、重要な用語の意味を把握する方法ですが、ハイライトしたキーワードの右側に付いている黄色の星マークをクリックすると、その言葉の、明細書の中での意味が説明されます。
具体的には下図(上図の拡大図)において表示される、黄色の星マークにカーソルを合わせると、「キーワードの用語の意味をAIアシスタントに問い合わせます」と表示されるので、
今回は、"homeostatic circuit"の意味を問い合わせてみました。
回答が生成されるまでに30秒ほどかかりましたが、アシスタントの回答欄を見ると、以下のような回答ができあがりました。
※スクリーンショットでは1つに回答をまとめて表示することができないので、テキストをコピペしました。
なお、生成回答の末尾にある4文字の数字(サマリア上では○で囲まれている数字)は、この回答を生成するに当たって参照にした、明細書の段落番号を表しています。実際にPDFやgoogle patentでこの英語明細書を見てみると、確かにこれらの段落に、homeostatic circuitへの言及があるので、生成回答をベースにより詳しい記載を確認したいときには、これらの段落を参照すればよいです。
次に、B.の「重要な構成要素どうしの関係性を理解する」についてですが、構成要素どうしがどういう関係になっているのかが、バックグラウンドや経験の有無から分からない場合、AIアシスタントに質問をして、日本語でざっくりとした説明をしてもらうことができます。
英日の特許翻訳あるあるだと思いますが、初見で良く分からない分野だったり内容の明細書を、原文だけを読んで解読していくのはなかなか骨が折れる前作業ではないかと思います。特に、仕事の打診があったときに、限られた時間で明細書をザッと見て、対応できるかどうかの判断を下すのは、ある程度経験が増えないと上手くできない場合もあるかと思います。
そういうときに、このAIアシスタントで、ざっくりと関係性を把握できるのは、翻訳者にとって嬉しい機能ではないかと思います。
AIアシスタントの使い方ですが、上図では、(私のブラウザが小さいために)「AIアシスタントに質問する」のボタンがグレーアウトしてしまっているのですが、このボタンの下にある「=」を上に上げる(あるいは、ブラウザをモニター一杯まで拡大する)ことで、下図のように操作を進めることができます。
ここでは、3つのキーワードがハイライトされている状態で、「AIアシスタントに質問する」をクリックします。そうすると、下図のように、
どのような質問をしたいのかを具体的に決めることができる画面が表示されます。
今回は中ほどにある、「関係性を説明して」を選択して、ウィンドウの右側で"neuron circuit"と"homeostatic circuit"を選択します(下図)。
※一応、その下に「質問文を確認してください」という欄もあります(下図参照)が、翻訳者であればここまで細かく使う必要はないと思います。
さて、上の質問テンプレを選択して「AIアシスタントに質問する」をクリックすると、下図のように
質問に対する回答の生成時間に移ります。この間は他の質問ができないので、回答が生成されるまで待ちましょう。
回答が生成されると、下図のように、「キーワード」の欄の下に表示されます。
上の図では、ブラウザが小さくて回答が全て見られないので、以下にテキストでコピペします。
こういう風に、明細書全体から、ざっくりとした対比をしてくれるので、初見で「この明細書にはどういうことが書かれているの?」ということになっても、理解の一助となるのは間違いありません。
なんなら、対比して説明してもらった構成要素(今回であれば、"neuron circuit"と"homeostatic circuit")がどのような役割を果たして、どのように稼働するのかまでも説明してくれているので、翻訳を進めていく際の参考にもなります。
このように、「特許読解AIアシスタント」は、私達のような翻訳者にとっても、
・複合分野が絡み合った案件の解読
・案件の相談があったときの内容把握
のような、翻訳の前作業に使うことができるツールだと言えます。
なお、1点注意点を挙げるとすると、ツールの性質上、読解支援に使いやすいのは電気、機械、通信などの「複数の構成要素が絡み合っている」分野の明細書だということです。というのも、化学やバイオ分野の、組成物の組成/組成割合が従来技術と違ってくるような内容だったり、延々と合成スキームが続く製薬案件のような明細書だと、(実際にサマリアで操作してみましたが)キーワードの抽出が行われず(製薬案件だと、そもそも構造式の説明が延々とされて、機械系のような構成要素が存在しない)、このツールとは親和性が高くない分野である可能性が高いからです。
とは言うものの、これは私が化学、バイオ分野の翻訳を続けていて既視感や経験があるから言えることであって、電気、機械系の方が、化学などとの複合案件(例えば、半導体のエッチャント)を対応する場合には、使うに値するかもしれません。
さて、次は②重要な構成要素の訳文調査について解説したいと思います。
②重要な構成要素の訳文調査
これは、サマリアそのものというよりも、サマリアから日本の特許庁データベース(Jplatpat)にアクセスする方法の解説となります。
明細書を読み込んだ画面を再掲しますが(下図)、上の緑色のバーの中ほどに、「US20190171933A1」という、読み込んだ明細書の番号と共に、その右側に白色のロゴが表示されているのが分かるかと思います。
ここをクリックすると、下図のように特許庁のプラットフォームに飛びます。
この画面で、右側に表示される「各種機能」の下に表示される「OPD」というリンクをクリックします。すると、下図のように
この公開公報が、どこの国で権利化されたかが一覧で分かります。この特許は、アメリカと韓国で権利化されているようです。ここで、「公開番号」の下に表示されるリンク(今回はUS…で始まるもの)をクリックすると、以下のように
この、権利化された特許の情報(米国で権利化されたものなので、当然ながら英語)が表示されます。
ここで、画面の上に「一次文献|和文抄録」という表示がされているのが分かるかと思います。「和文抄録」をクリックすると、以下のように
英語明細書と特許請求の範囲の内容を加味して作成された日本語の抄録が表示されます。
なお、この抄録ですが、
・クレームや実施例を加味して作成されている
・現在は機械翻訳されている(=この訳語を必ずしも翻訳に用いることができるわけではない)
という状況になっているようです。
が、このように特許情報データベースにアクセスをすることで、翻訳の参考になりそうな情報をこれまでよりもスムーズに入手する、情報にスムーズにアクセスできるようになるのは間違いないでしょう。
特に、私達特許翻訳者にとっては、Jplatpatで特許の番号を調べようと思っても、公開公報なのか特許公報なのか、といった違いが良く分からない、というケースも少なくはないと思いますから、このサマリアで、調べたい特許の番号(PCTの国際出願の場合、原文PDFの1ページ目右上に表記されている番号)をそのまま入力するだけで、ここまでの情報にアクセスできるわけですから、翻訳そのものではなく事前調査での使用がほとんどになるかとは思いますが、サマリアはなかなか使い勝手の良いツールだと言えるのではないでしょうか。
※なお、②に関しては、日英の場合に英文抄録にアクセスできるのか否かが分からないことと、英日の場合でも、原出願(英文明細書)が権利化されていない、または審査継続中の場合は、ここで紹介したような和文抄録を入手することができないため、あくまで「場合により使える」というテクニック、と考えていただいたほうがいいかと思います。
まとめ
今回は、特許読解AIアシスタントのサマリアについて、特許翻訳を仕事にしている方向けの使い方を解説しました。
ここで紹介した使い方はほんの一部にしか過ぎず、翻訳者によっては、別の使い方を業務に取り入れることができるかもしれません。UIも使いやすく、無料で使える(2023年10月時点)ので、是非この機会に、サマリアを特許翻訳業務に取り入れていただきたいと思います。