英語で遊ぼう(インプット編)①


機械翻訳やChatGPTが使われるようになって以降、英文の読み方(情報処理)にも、様々なテクニックが活用されるようになった。この手のテクニックは、専門外の論文を読んだり、大量の文章の中から目的情報を抽出したり、精読前に大意を掴んだりと、使い方次第ではなかなか便利だと思う。(情報抽出の観点でも、情報調査の観点でも)

もちろん、自然言語処理的な手法は、英語以外にも適用可能である。「英語一強の言語帝国主義」といった状況は、徐々に変わっていくのかもしれない。(" 国際共通語としての英語" は、今後も常用され続けるのだろうが)

これまで、外国語が障壁になって達成できなかった情報取得が、テクノロジーの力で解決されるのは素晴らしいと思う。COVID-19 などはその典型例で、英文情報にアクセスし内容を理解できる人が、感染拡大により増大する社会混乱の中で、リスク回避や知的優位を実現していた。

「膨大な Information の中から 価値ある Knowledge を抽出する」という、インテリジェンスの重要性。最近はこれを、強く認識するようになった。(皮肉なことに、戦争や感染症の現実状況から学ぶことは多い)

以下では、機械翻訳やChatGPTを使って、英文をいろいろ処理して遊んでみる。「読む」というより「処理」という感じだが、あらゆる英文に適用可能なので様々な応用ができる。

素材としては、wikipedia の「Drug Discovery」の概要文を用いる。(前半)

【素材】


In the fields of medicine, biotechnology and pharmacology, drug discovery is the process by which new candidate medications are discovered. Historically, drugs were discovered by identifying the active ingredient from traditional remedies or by serendipitous discovery, as with penicillin. More recently, chemical libraries of synthetic small molecules, natural products or extracts were screened in intact cells or whole organisms to identify substances that had a desirable therapeutic effect in a process known as classical pharmacology. After sequencing of the human genome allowed rapid cloning and synthesis of large quantities of purified proteins, it has become common practice to use high throughput screening of large compounds libraries against isolated biological targets which are hypothesized to be disease-modifying in a process known as reverse pharmacology. Hits from these screens are then tested in cells and then in animals for efficacy.
Modern drug discovery involves the identification of screening hits,
medicinal chemistry and optimization of those hits to increase the affinity, selectivity (to reduce the potential of side effects), efficacy/potency, metabolic stability (to increase the half-life), and oral bioavailability. Once a compound that fulfills all of these requirements has been identified, the process of drug development can continue. If successful, clinical trials are developed. Modern drug discovery is thus usually a capital-intensive process that involves large investments by pharmaceutical industry corporations as well as national governments (who provide grants and loan guarantees). Despite advances in technology and understanding of biological systems, drug discovery is still a lengthy, "expensive, difficult, and inefficient process" with low rate of new therapeutic discovery. In 2010, the research and development cost of each new molecular entity was about US$1.8 billion. In the 21st century, basic discovery research is funded primarily by governments and by philanthropic organizations, while late-stage development is funded primarily by pharmaceutical companies or venture capitalists. To be allowed to come to market, drugs must undergo several successful phases of clinical trials, and pass through a new drug approval process, called the New Drug Application in the United States.
Discovering drugs that may be a commercial success, or a public health success, involves a complex interaction between investors, industry, academia, patent laws, regulatory exclusivity, marketing and the need to balance secrecy with communication. Meanwhile, for disorders whose rarity means that no large commercial success or public health effect can be expected, the orphan drug funding process ensures that people who experience those disorders can have some hope of pharmacotherapeutic advances.


①機械翻訳による高速翻訳 (DeepL翻訳)

ニューラル機械翻訳 (Neural machine translation / NMT) が開拓されて以降、機械翻訳は精度が飛躍的に上昇し、爆発的に普及している。これを使わない手はない。

ちなみに、機械翻訳には100年近い歴史があるらしい。

History of machine translation (wiki)

※ジョルジュ・アルトルーニが、紙テープを使った自動対訳辞書の特許を申請し「翻訳機」の最初の特許が取得したのが1930年代半ば。

「機械翻訳」が現実的な研究対象となったのは、1950年代からとのこと。

参考: Evolution of Machine Translation

個人的には、DeepL pro がオススメ。Chrome の拡張機能も便利。選択部分をホップアップで翻訳したり、ページ全体を翻訳したりすることができる。英文校正の DeepL Write も実装されたことで (Grammarly の代替)、さらに完成されたツールとなった。

素材の英文を機械翻訳すると、下記のような結果になった。学習データの追加を反映してか、翻訳レベルは年々向上している印象を受ける。

(機械翻訳の結果, 約3秒)


医学、バイオテクノロジー、薬学の分野において、創薬とは新しい薬の候補が発見されるプロセスを指す。歴史的には、医薬品は伝統的な治療法から有効成分を同定したり、ペニシリンのように偶然の発見によって発見されてきた。

より最近では、古典的薬理学として知られるプロセスで、望ましい治療効果を持つ物質を同定するために、合成低分子化合物、天然物、抽出物の化学ライブラリーが、無傷の細胞や生物全体でスクリーニングされた。

ヒトゲノムの塩基配列が決定され、大量の精製タンパク質の迅速なクローニングと合成が可能になった後、リバース・ファーマコロジーとして知られるプロセスで、疾患修飾作用があると仮定される単離された生物学的標的に対して、大規模化合物ライブラリーのハイスループットスクリーニングを用いることが一般的になった。

現代の創薬では、親和性、選択性(副作用の可能性を減らす)、有効性/効力、代謝安定性(半減期を長くする)、経口バイオアベイラビリティを高めるために、スクリーニングでヒットした化合物を同定し、医薬品化学的に最適化する。これらの要件をすべて満たす化合物が同定されれば、医薬品開発のプロセスは続けられる。成功すれば臨床試験が行われる。

このように、現代の創薬は通常、製薬企業や(助成金や融資保証を提供する)各国政府による多額の投資を伴う、資本集約的なプロセスである。技術や生物学的システムの理解が進歩したにもかかわらず、創薬は依然として時間がかかり、「高価で、困難で、非効率的なプロセス」であり、新しい治療法の発見率は低い。

2010年、新しい分子1つあたりの研究開発費は約18億米ドルだった。21世紀において、基礎的な創薬研究は主に政府や慈善団体によって資金提供され、後期段階の開発は主に製薬会社やベンチャーキャピタルによって資金提供される。

商業的に成功する可能性のある、あるいは公衆衛生的に成功する可能性のある医薬品の発見には、投資家、産業界、学術界、特許法、規制当局の独占権、マーケティング、秘密保持と情報伝達のバランスの必要性などの複雑な相互作用が関係している。一方、希少であるために商業的成功や公衆衛生上の大きな効果が期待できない疾患については、オーファンドラッグの手続きによって、それらの疾患を経験する人々が薬物療法の進歩に何らかの希望を持てるようにしている。


専門用語や特定の動詞の翻訳がおかしいことは時々あるが、ほとんど違和感のない日本語訳が生成されるようになってきている。

PubMed などで使う際は、特定のキーワードで検索後、PubMed で表示フォーマットを「Abstract」にして、DeepL でページ全体を翻訳、上から点検読書を展開し、目的とする内容の論文を収集するなど。この方法は、効率的に目的とする情報に到達しやすいので、けっこう便利だと思っている。(人によるかもしれないが、英語のまま読むのと母国語である日本語で読むのとでは、高速で読んだ時に受ける印象が異なる)

②ChatGPTによる要約・対訳の生成

英文をChatGPTで処理することで要約や対訳を簡単に生成できる。要約した場合は、重要な情報が消える可能性はあるが、大意を掴む際にはそれなりに使える。プロンプトを英語で書くか日本語で書くかで結果が変わるので、いろいろと試してみると良い。箇条書きを指定したり、文字数に制限を与えると見やすくなる。何をもって「要約」とするかは目的によるが、プロンプトを改変して、所望のアウトプットが得られるようにする。

【Prompt】
Please summarize the following English text using bullet points. Each summary should be no more than 60 words. Please provide a bilingual summary in English and Japanese.

(ChatGPT による素材英文の要約結果)


  • Drug discovery is the process of finding new medications in medicine, biotechnology, and pharmacology.

  • Historically, drugs were discovered from traditional remedies or by chance.

  • Modern drug discovery involves screening chemical libraries, optimizing compounds, and conducting clinical trials.

  • It's a capital-intensive process funded by governments and industry.

  • Orphan drug funding supports treatments for rare disorders.

  • 医学、バイオテクノロジー、薬学の分野において、薬剤探索は新しい薬剤候補を見つけるプロセスです。

  • 歴史的には、薬剤は伝統的な治療法からまたは偶然に発見されました。

  • 現代の薬剤探索は、化学ライブラリーのスクリーニング、化合物の最適化、臨床試験を含みます。

  • これは資本集約的なプロセスで、政府と産業界から資金提供されます。

  • 希少疾患のための孤児薬剤資金が治療を支援します。


テキストの要約が英語/日本語の対訳で取得できた。

③ChatGPTによる単語リストの生成

機械翻訳ばかりに頼っていると英語の勉強が進まない。そこで、英語の勉強も同時に進められるように工夫する。

実際に英文を原文のまま読む際は「マウスオーバー辞書」の利用がオススメ。例えば、「Mouse Disctionary」や「英辞郎」を使用すれば、専門レベルの英単語であっても、意味を高速でホップアップ表示することができる。

ChatGPT を用いた応用としては、英文から単語を抽出し、簡単にリスト化するのが便利。特定分野の専門用語を高速で収集、データセット化することができる。

【Prompt】
Please extract only nouns from the following English sentences and create a table of words with Japanese bilingual translation that can be read in Excel.

(ChatGPT による単語抽出の結果)

下図のような単語リストが対訳付きで、わずか数秒で生成される(ここでは、英文から名詞のみを抽出)。発音記号を出すこともできる。エクセルやスプレッドシートにそのまま読み込める。便利な時代になったものです。特定の専門分野の論文を集中的に処理して情報を集めれば、分野特化型のオリジナルな単語帳が作成可能。重複も簡単に削除できるので便利。

概念が分からない単語については、その場で ChatGPT に質問して聞いても良い。例えば、Pharmacology について質問すると、下記のような回答が返ってきた。

【Prompt】
I am a researcher in drug discovery chemistry, please provide a detailed, expert-level explanation of the word pharmacology.

(Pharmacology に関する ChatGPT の解説。英語で生成後、日本語に翻訳させたもの。専門家レベルという条件を与えると詳細な回答が得やすい)


薬理学(Pharmacology)は、生物医学科学の一環として、薬物および他の化学物質が生物とどのように相互作用するかを探求する多面的な科学的分野です。これは、薬物の作用、効果、作用機序、および治療的な用途の包括的な理解を含み、それらの薬物の利点と潜在的な副作用も含みます。薬理学者は、薬物化合物と生体系との複雑な関係を解明し、新しい効果的な薬物の開発を通じて人間の健康を向上させることを最終的な目標としています。

薬理学の主要な側面には次のようなものがあります:

薬物動態学(Pharmacokinetics): この側面は、薬物が生体内で吸収、分布、代謝、および排泄(ADME)されるプロセスを調査します。薬物が血液中に吸収され、標的組織に分布され、酵素によって代謝され、最終的に体から排泄される方法について調査します。これらのプロセスを理解することは、適切な投与量を決定し、薬物の効果を最適化するために重要です。

薬力学(Pharmacodynamics): この側面は、薬物が生体内の特定の分子標的(受容体、酵素、イオンチャネルなど)とどのように相互作用するかに焦点を当てます。薬物力学は、薬物が治療的な効果を示すメカニズムや、これらの効果が薬物濃度や受容体結合などの要因にどのように影響を受けるかを探求します。

毒性学(Toxicology): 薬理学者は、薬物と化学物質の潜在的な毒性を評価し、それらが人間の使用に安全であることを確認します。これには、薬物の曝露に関連する有害反応、副作用、および潜在的な危険の識別と理解が含まれます。毒性学はまた、安全な投与量範囲を確立するために重要な役割を果たします。

治療学(Therapeutics): 薬理学は、薬物知識を臨床実践に適用することを含みます。これには、患者の特性、疾患の病態生理学、薬物相互作用などの要因を考慮して、さまざまな医療状態を治療するための薬物の合理的な選択が含まれます。

薬理ゲノミクス(Pharmacogenomics): ゲノミクスの進歩に伴い、薬理学は薬物に対する個々の応答に影響を与える遺伝的変異の研究を組み入れるように進化しています。薬理ゲノミクスの研究は、患者の遺伝的プロファイルに基づいて薬物療法を個別化し、治療効果を最適化し、副作用を最小限に抑えることを目指しています。

実験手法: 薬理学者は、細胞ベースのin vitro試験、動物実験、およびヒト臨床試験を含む、さまざまな実験技術とモデルシステムを使用して、薬物の特性、効力、および安全性を評価します。

薬理学者は、学術機関、製薬会社、規制機関、臨床実践など、さまざまな環境で活動しています。彼らの専門知識は、薬物の発見および開発プロセス、および実際の臨床設定での薬物の安全性と効力の評価に不可欠です。最終的に、薬理学の分野は、薬物が人体とどのように相互作用するかを理解することで、革新的な治療法の開発と世界中での医療の向上に重要な役割を果たしています。


※その他のテクニック


文章処理以外にも、いろいろな応用が考えられる。

④AI による英文の読み上げ

英語4技能という観点でいうと、インプットに相当するのは「リーディング」と「リスニング」である。英語を音声情報として取得するのも重要。

「Voice control for chatgpt」や「NaturalReader」を用いると、文字情報を AI が音読してくれる。近年の音声技術の発展により、イントネーションが自然になり、だいぶ聴きやすくなった。発音の確認をする時に便利。それにしても、とんでもない時代になったな~という印象です。

⑤Youtubeの英語動画のスクリプト取得

Youtube の英語動画は、スクリプトを簡単に取得できる。機械翻訳等も活用すれば、英語原文と日本語対訳をセットで取得できる。英語の勉強の他、内容理解のハードルも下がるのでオススメ。

  1. 「・・・」をクリックし、「文字起こしを表示」をクリック

  2. タイムスタンプ表示を切り替え、時間の表示を消す

  3. 英文を全文コピー(英文情報の取得)

  4. Shaper にコピペして DeepL で翻訳(日本語情報の取得)

Shaper は不要な改行等を自動で削除してくれる。

Chrome のユーザー補助機能である「自動字幕起こし」も便利で、音声認識の精度も非常に高いので重宝する。英語の音声情報をテキストデータで残す習慣を構築すると、備忘録になるだけでなく、いろいろと処理できて何かと便利。

ちなみに、Youtube やWebページの要約を生成する ChatGPT ツールもある。

⑥機械翻訳によるPDFの翻訳

最近では、PDFを丸ごと機械翻訳するのも簡単になった。Google 翻訳や DeepL 翻訳でもデフォルトで可能だが、レイアウトが崩れて読みにくくなるなど問題が生じることが多い。

Readable というサービスを用いると、原文のレイアウトを維持したまま、綺麗に日本語訳が生成できる。論文を全文日本語訳する場合に便利。無料の場合は、文字数やページ数の制限があるが、DeepL pro に入っていると、文字数制限の方は回避できる。ページ数制限の方を回避する場合は、有料版を使う必要がある。英語原文と日本語を見開きで対訳生成できるのは凄いと思った。

※どのレベルのPDFをアップロードして良いのかよく分からないので、会社などで使う場合、IT担当者に確認すべきだと思います。

⑦英文の構文解析

英文の構文解析をするサービスなどもある。

以下の英文を構文解析すると、下図のような感じになった。

Hits from these screens are then tested in cells and then in animals for efficacy.

(こういうツールを自作できる方は、ほんと楽しいだろうなと想像します)

⑧例文の生成(インプット用途)

ChatGPT を使って、様々なシュチュエーションに関連する例文を生成することができる。(バリエーションはほとんど無限大)

【Prompt】
Write 10 English sentences of 100 words or less about drug discovery chemistry.

※創薬化学に関連する10のセンテンスを生成

【Prompt】
Write 10 English sentences of 100 words or less about translational or reverse translational research.

※トランスレーショナル・リサーチ、リバーストランスレーショナル・リサーチに関連する10のセンテンスを生成

【Prompt】
Using the word conduct, create 10 sentences used in science papers.

※Conduct という単語を使用した10個の論文表現を生成

プロンプト次第で無尽蔵に例文を生み出せるので使用頻度は高い。生成した英文はさらに、様々な形で応用することができる(別の方法で処理するなどして)。

最後に

応用は他にもいろいろある。例えば、インプットはインプットでも「情報調査に特化した活用法」がある。研究者の場合、論文読解の効率化よりも、情報調査や知識集約の方が重要だと思われる。また、アウトプットに特化した技術応用も考えられる。「英文校正」や「ChatGPT との英会話」などは典型例だと思う。また、Python を使えば、処理の多くを自動化することもできる。この辺については、また別の機会にまとめたい。(その他、同時通訳などもできるはずだが、手ごろな方法がないのでちょっと探してみます)

  • 情報調査/知識獲得の効率化

  • アウトプットへの応用

  • 自動化に関する取り組み

  • AIによる同時通訳

///

紙の辞書を片手に英文と格闘していた時代と比べると、隔世の感があります。もちろん、紙の辞書にもメリットはあるわけですが、テクノロジーの進歩は、柔軟に取り入れていく必要があります。これは、他の機械学習の技術、DX化、RPA (自動化) などでも、結局のところ同じだと思います。

21世紀に重要視される唯一のスキルは、新しいものを学ぶスキルである。それ以外はすべて時間と共にすたれてゆく。

ピーター・ドラッカー

上記の指摘は、その通りかなと思います。

我々の世代はたぶん、新しいことを学び続けなければならないのだと思う(終わることは生涯なさそう)。注意すべきなのは、この「新しいもの」の中には「伝統的価値の発展的継承」や「古典の再発見」も含まれるだろうということ。新しいかどうか以上に、その普遍的価値や有用性について、追及しなければならないと思います。グレートリセット・構造改革・抜本的改革とか、そういう世迷言ではなくて、もっと地に足のついた「プラグマティックな価値追求」をしていくべきかと。例えば、生成系AIなどは上手に活用すれば、教育の常識を変えると思います。(当然、リスクもある)

他にも便利なテクニックをご存じでしたら、コメントで教えて頂けると幸いです。

いいなと思ったら応援しよう!