ChatGPTを活用した中国特許調査

Chat GPT を用い、中国特許を日本語で読む、という試みです。
今回 GPT3.5 turbo を pythonで動かしました。

Chat GPT は質問に対して幅広い知識をもとに回答する能力を持ち、100言語に対応しているといわれる、大規模言語モデルです。
大変高精度の回答をする代わりに、もっともらしく誤った回答をすることでも知られています。
今回は、次の2つの質問を与えてみました。

次の4件の中国語特許をそれぞれ日本語で150字以内に要約して、日本語の表にしてください。

要約の質問文

次の4件の中国語特許をそれぞれ日本語に翻訳して、日本語の表にしてください。

翻訳の質問文

入力は中国特許の要約文×4件分です。Chat GPTには文字数(トークン数)の制限があります。

では結果を見てみましょう。

CN115839280Aの例

原文(中国公報要約)
Chat GPT 日本語要約
Chat GPT 日本語翻訳

比較のために、Google翻訳と対応日本公報の要約を載せておきます。

Google 翻訳
対応日本公報 要約

このようにChat GPT 翻訳は、日本公報要約と比べても遜色ない翻訳精度が出ています。
加えて、Chat GPT 要約は文の主旨を損ねずに文がまとめられていることから、翻訳文より読みやすい文になっています。
そして、原文にない事項が ”創作” されることはありませんでした。
その結果、検索母集団を1次スクリーニングしてノイズを除去するときに直観的に読みやすく、作業が捗る、というわけです。

しかし、残念な面もあります。

中国語が残っている例(CN115839280A)

このように中国語の一部が残留するケースがあります。

CN115748378A の 要約(左)と Chat GPT 日本語要約(右)

中国語の「熨平」(単に「熨」とも)は、服にかけるアイロンを意味しますが、この業界では「スクリード」というのだそうです。
このときは

次の4件の中国語特許をそれぞれ日本語で150字以内に要約して、日本語の表にしてください。ただし、熨平はスクリードと訳してください。

翻訳語を指定した質問文

とすれば期待通りの結果が得られます。

翻訳語を指定した回答例

まとめ

中国特許の母集団を1次スクリーニングするときは、ChatGPT で150文字程度の日本語文に要約すると読みやすい。

こちらもご覧ください。

おまけ

今回用いたpython のコードです。
質問文に表を加えるときは、markdown記法 に従って書きます。

import openai  # pip install openai でインストール

# ファイル'API key.txt' に記録した API key を取得 
with open('API key.txt') as f:
    apikey = f.read()

openai.api_key = apikey
question ='''
次の4件の中国語特許をそれぞれ日本語に翻訳して、日本語の表にしてください。
|番号|中国語特許|
|---|---|
|CN113729288A|本发明涉及一种加热组件及气溶胶产生装置,所述加热组件包括加热管,所述加热管内形成有用于容纳并加热气溶胶产生基质的加热腔,所述加热腔的横截面轮廓为多边形。所述加热腔的至少部分腔壁能够挤压所述气溶胶产生基质;所述加热腔的横截面轮廓具有一最大内切圆,在所述加热腔容纳有所述气溶胶产生基质的状态,所述最大内切圆的直径小于所述气溶胶产生基质被挤压前的外径。气溶胶产生基质插入到加热管内时会被加热管向内挤压;气溶胶产生基质被挤压变形后,其径向表面到中心的距离减小,从而缩短了热量传导距离,同时气溶胶产生基质内的空气被挤压排出,雾化基质的密度增大,从而可以提高导热效率,改善气溶胶产生基质表心温差大的问题。|
|CN115771335A|本发明涉及一种用于准备用于印刷的印刷任务的方法,其中,提供至少一个给与印刷任务(1)配属的第一数据组(1a)和多个与各参考任务(2)配属的参考数据组(2a),其特征在于,针对多个参考任务(2)分别提供多个且彼此互补的参考数据组(2a,3)并实施自动化过滤(4)的步骤,在该步骤中,从所述多个参考任务的参考数据组中提供至少一个第二数据组(2a),并且将第二数据组替换或补充于至少一个第一数据组(1a)地应用于所述印刷(15)。本发明以有利的方式允许制造高品质的印刷制品并且其中既节省时间、譬如印刷准备时间,也节约成本、譬如由印刷时的废纸或品质缺陷造成的成本。|
|CN113773401A|本申请提供一种重组融合蛋白,包含PD‑L1抗体或其抗体片段,该PD‑L1抗体或其抗体片段的互补位在构成该互补位的重链可变区或轻链可变区的N端通过接头与信号调节蛋白(SIRP)的胞外Ig样结构域连接,其中该重组融合蛋白可以同时与CD47、PD‑L1和FcR结合。还提供编码该重组融合蛋白的核酸分子、包含该核酸分子的表达载体、制备该重组融合蛋白的方法、以及使用重组融合蛋白来治疗与CD47和/或PD‑L1过表达相关的疾病。|
|CN115748022A|本发明涉及一种带有外罩的纺纱位装置。用于环锭纺纱机(1)的纺纱位装置(10)包括可驱动转动地安装在锭子轨道(2)上的用于筒子体(13)的锭子(20)和在锭子(20)纵向上延伸且包围该筒子体(13)的外罩(50),其中该外罩(50)连接至该锭子轨道(2),在此规定该外罩(50)在纵向上被分开且具有后罩壁(51)和前罩壁(52),其中该前罩壁(52)能运动到打开位置,使得在该打开位置中能让操作装置接近该纺纱位装置(10)的筒子体(13)。|
'''
model_name = 'gpt-3.5-turbo'

response = openai.ChatCompletion.create(
    model=model_name,
    messages=[
        {'role': 'user', 'content': question}, 
    ]
)

ans = response['choices'][0]['message']['content']
print(ans) #返信のみを出力

この時の回答です。

|番号|翻訳|
|---|---|
|CN113729288A|本発明は、加熱部品及び気溶胞発生装置に関する。当該加熱部品は、加熱管を含み、該加熱管内に、気溶胞発生基体を収容して加熱するための加熱腔を形成する。加熱腔の横截面は多角形である。加熱腔の少なくとも一部分の壁は、気溶胞発生基体を圧縮することができる。加熱腔の横截面には最大内切円があり、気溶胞発生基体を収容している際に、最大内切円の直径は圧縮前の外径よりも小さい。気溶胞発生基体が加熱管に挿入されると、加熱管は内側に圧縮される。圧縮された気溶胞発生基体の径方向の表面から中心までの距離は小さくなり、熱伝導距離が短くなり、気溶胞発生基体内の空気が排出されるため、霧化基体の密度が増加し、熱伝導効率が向上し、気溶胞発生基体の中心温差の問題を改善できる。|
|CN115771335A|本発明は、印刷タスク用に準備される方法に関するものであり、該方法は、1つ以上のプリントタスク(1)に付随する第1のデータグループ(1a)と、各リファレンスタスク(2)に付随する複数のリファレンスデータグループ(2a)を提供する。各リファレンスタスク(2)に対して、相補的である複数のリファレンスデータグループ(2a、3)を提供して自動フィルタリング(4)するステップが特徴である。このステップでは、リファレンスタスクの複数の参照データグループから、少なくとも1つの第2のデータグループ(2a)を提供し、第2のデータグループを1つ以上の第1のデータグループ(1a)に適用して印刷(15)に使用する。本発明は、高品質な印刷製品を製造するために有利に機能し、印刷準備時間のような時間を節約し、印刷時に出る廃紙や品質欠陥によるコストを節約できる。|
|CN113773401A|本発明は、PD-L1抗体またはその抗体断片を含む再構成融合タンパク質を提供し、PD-L1抗体またはその抗体断片の補完決定領域がN末端にある重鎖可変領域または軽鎖可変領域に接合部を介してシグナル調整タンパク質(SIRP)の細胞外Ig様構造領域と連結している。再構成融合タンパク質は、CD47、PD-L1、およびFcRに共存して結合できる。なお、当該再構成融合タンパク質をコードする核酸分子、当該核酸分子を含む発現ベクター、該再構成融合タンパク質を製造する方法、およびCD47および/またはPD-L1の過剰発現に関連する疾患を治療するために再構成融合タンパク質を用いる方法も提供される。|
|CN115748022A|本発明は、外殻を備えた紡績位置装置に関する。リングフレーム紡績機(1)の紡績位置装置(10)は、筒子体(13)のための錘(20)を回転駆動可能に取り付けられた軌道(2)に含まれ、錘(20)の縦方向に延び、該筒子体(13)を包囲する外殻(50)が備えられている。その外殻(50)が当該軌道(2)に接続し、縦方向に分離され、後部外殻壁(51)および前部外殻壁(52)を有する。前部外殻壁(52)は開放位置に移動可能であり、当該開放位置において操作装置が当該紡績位置装置(10)の筒子体(13)に近づけられることができるようにされている。|

アジア特許情報研究会 西尾 潤