【生成AI】ChatGPT VS Claude 比較検証#1　文章の要約、翻訳

2024年7月4日 10:27

はじめに

初投稿になります。Ludenと申します。
記事をご覧頂きありがとうございます。

本記事は生成AI初心者が思いついた事を検証し、その結果を記載しております。このことを念頭に置いて、読んで頂けますと幸いです。

普段、ChatGPTの有料会員で色々遊んでいるのですが、日本語の出力能力に物足りなさを感じる時があります。

そのため、優秀な日本語の文章を書けること噂されているのはAnthropic社のClaudeを使ってみようと思い、気づいたらClaudeのプロフェッショナルプランまで契約してしまっておりました。

無料プランでは意外にも速くプロンプト上限に到達してしまうのと、最上位モデルのClaude 3 Opusの実力が気になったためです。料金はChatGPTの有料プランと同じく、月額20ドル。

2024/7/4時点のドル円レートだと手数料込みで3500円ぐらいですかね。

金額分の価値があるかどうか、気になるところです。

まずはClaudeの生成AIとしての実力を知るため、いくつかのテーマに沿って、ChatGTPと比較していきたいと思います。

検証内容

初回なので、生成AIのメジャーな用途だと思われる、文章の要約（ついでに翻訳も）について比較することにしました。長めの文章をテキストファイルとして読み込ませ、ChatGPTとClaude3のそれぞれの最上位モデルを使って要点の抽出と翻訳を行い、出力結果の比較を行いたいと思います。比較の観点は次のとおり。

討論の主な論点の網羅性
日本語の自然さ
要約の妥当性（内容が大きくずれていないか）

重点がどのような観点で抽出されるべきかは指示は与えていないので、各言語モデルの解釈に委ねます。

文献：2024/6/28に行われたアメリカ大統領討論の筆記録
約９０分間のアメリカ大統領の討論放送の筆記録で、ファシリテーターの発言も含まれています。

プロンプト：
This is the transcript of the 2024 presidential debate. Analyze it and extract the key points from Baiden's and Trump's speeches. Then Translate to Japanese.

プロンプトは正確さ重視で英語としましたが、日本語でも結果はあまり変わらないと思います。ChatGPT、Claudeの両方で同じプロンプトを投げています。

ChatGPT 4oの出力結果

ジョー・バイデンの主張:

経済とインフレ:
- トランプから引き継いだ経済は、パンデミックの対応の失敗により悪化していたと主張。
- 15,000の新しい雇用と800,000の製造業の雇用を創出したと述べる。
- 住宅価格の引き下げや家賃の上限設定に取り組み、企業の強欲を防ぐと説明。
- 特にインスリンの価格を引き下げ、高齢者が手ごろな価格で薬を入手できるようにしたと主張。
国家債務:
- トランプの富裕層向けの減税が国家債務を大幅に増加させたと指摘。
- 富裕層に公平な税負担を求め、その収入で社会プログラムを資金提供し、債務を削減すると主張。
中絶:
- ロー対ウェイド判決を支持し、トランプの州の権限に関する立場を批判。
- 女性の健康に関する決定は、政治家ではなく女性と医師の間で行われるべきだと述べる。
移民と国境警備:
- 自身の政権の国境管理を擁護し、亡命審査官と国境警備隊員の数を増やしたと説明。
- トランプの家族分離政策と国境管理の失敗を批判。
退役軍人と軍隊:
- PACT法案を通じて退役軍人の医療を大幅に改善したと主張。
- トランプの退役軍人に対する侮辱的な発言を否定し、退役軍人支援への取り組みを強調。
外交政策:
- トランプのロシアとウクライナに対する対応を批判し、プーチンの侵略を助長したと主張。
- 自身の政権がウクライナへの国際的支援を組織したことを強調。
気候変動:
- 自身の政権の気候変動対策と法案を称賛。
- トランプがパリ協定から離脱し、環境問題に対処しなかったことを批判。
社会保障とメディケア:
- 社会保障の持続可能性を確保するために富裕層に公平な税負担を求めると提案。
- トランプが社会保障とメディケアを削減しようとしていると批判。

ドナルド・トランプの主張:

経済とインフレ:
- COVID-19から回復する強い経済をバイデンに引き継いだと主張。
- バイデンの支出政策が高インフレを引き起こしたと批判。
国家債務:
- 減税が経済成長を促し、収入を増加させたと擁護。
- バイデンの支出が国家債務を増加させたと非難。
中絶:
- ロー対ウェイド判決を覆し、州の権限に戻した最高裁判事の任命を誇る。
- 強姦、近親相姦、母体の生命に対する例外を支持。
移民と国境警備:
- バイデンの国境管理が犯罪と不安定を増加させたと批判。
- 米国史上最大の国内追放作戦を実施すると約束。
退役軍人と軍隊:
- 退役軍人から強い支持を得て、VAを大幅に改善したと主張。
- バイデンの退役軍人に対する侮辱的な発言を否定。
外交政策:
- 自身の政権下ではプーチンがウクライナを侵略しなかったと主張。
- バイデンのアフガニスタン対応を米国史上最も恥ずべき瞬間と非難。
気候変動:
- 自身の環境記録を擁護し、政権の環境指標が最高だったと主張。
- パリ協定を批判し、米国にとって財政的な負担だと指摘。
社会保障とメディケア:
- 移民が社会保障とメディケアのリソースを奪っていると非難。
- これらのプログラムの維持と改善に尽力すると強調。

要約:

バイデンは、経済回復、医療、社会保障、気候変動に関する自らの政権の成果を擁護し、これらの問題への取り組みを強調しました。トランプは、パンデミック前の経済実績を強調し、バイデンの政策を批判しました。両者は、米国の未来に対する異なるビジョンを強調し、支持者に向けて各々の主張を展開しました。

Claude 3 Opusの出力結果

バイデンの主要ポイント：

トランプから低迷した経済を引き継いだが、特に製造業で雇用を創出した
住宅費、処方薬価格、そして労働者階級の家族に負担をかけているその他の費用を削減するために努力している
トランプを有罪判決を受けた重罪人だと呼び、社会保障とメディケアを削減しようとしていると非難する
トランプが1月6日の暴動を扇動し、攻撃を止めることを拒否したと述べ、選挙の否定者たちを民主主義への脅威と呼ぶ
気候変動対策法の可決とパリ協定への再参加を宣伝する
トランプの国境対策を批判し、フェンタニルの密輸を阻止するために尽力していると述べる
トランプが弱体化させた後、同盟国との関係とアメリカの国際的地位を強化したと主張する
自身の精神的適性を擁護し、選挙の結果を勝っても負けても受け入れると述べる

トランプの主要ポイント：

バイデンがインフレと支出で台無しにした。自分は素晴らしい経済を引き渡したのにと主張する
バイデンの政策の下で国境を越えて入ってくる不法移民のせいで、犯罪率と麻薬の密輸が高いと非難する
最高裁判所がロー対ウェイド判決を覆したことを保守派の功績としてアピールし、一部の中絶の例外を支持する
バイデンがウクライナで戦争を始めたが、自分の任期中にはプーチンは開始しなかっただろうと非難する
関税でこそ中国に厳しかったと述べ、バイデンは中国に従属していると示唆する
1月6日の委員会と自身への刑事訴追は政治的に動機付けられた魔女狩りだと訴える
減税、規制緩和、保守派判事など、自身の1期目の業績を宣伝する
バイデンの高齢を考慮すると、大統領職の精神的敏捷性と体力に疑問を呈する
選挙のプロセスが公正で不正がなければ、選挙結果を受け入れると述べる

要約すると、バイデンは経済実績、民主主義の強化、世界的リーダーシップに重点を置き、トランプを腐敗していて危険だと描いた。一方、トランプは経済、国境の安全保障、犯罪を強調し、バイデンの能力とトランプの行動に関する調査の正当性に疑問を投げかけた。しかし、両者とも高齢であることを考慮し、お互いの職務遂行能力に疑問を呈した。

ChatGPTとClaud3の出力結果の比較

Claudeの方が実際の討論の雰囲気を伝えている感じがします。
両者のモデルで相違はありますが、要点とする観点は大きくずれてはいない印象です。ChatGPTの出力結果では、罵り合いに近い部分はカットされていますが、Claude ではその部分も取り入れているようです。
実際の討論の放送を確認しましたが、トランプがバイデンの政策を批判したり煽ったりする一方、バイデンが感情的になる場面もありました。

ChatGPT 4oモデルが優れている点

テーマごとに見出しが作成されており、それぞれの発言内容を各テーマに沿って順番を整理し、簡潔にまとめている。Claude3 Opusの方はテーマごとに整理されておらず、両者の発言をそのまま並べている。
主要なポイントについて、出力の長さが全体的にClaude3 Opusより長く、広い範囲でカバーしている。

Claude3 Opusモデルが優れている点

日本語の文章が非常に自然で、ChatGPT 4oモデルと比較して、全体的に読みやすい印象を受ける。また、お互いの発言の雰囲気が伝わるような文章出力となっている。
最後の要約の部分については、Claude3の方が両者の主張をうまくまとめている。一方ChatGPT 4oはトランプの主張内容を極端にカットしている印象。

結論

個人的に、Claude 3 Opusの出力結果の方が好みです。

ChatGPT 4oの出力結果も素晴らしいのですが、読みやすさ、簡潔さという点ではClaude3の出力結果と比較すると、少し足りない部分がある印象です。

ただし、出力結果はプロンプト入力に依存する部分があると思いますので、プロンプト次第では、ChatGPTの方が優れた結果を出力する、ということもあり得るかと思います。

今回の検証では文章の要約、翻訳に注目しましたが、次回は創作性やタスク遂行能力など、様々なテーマに絞って比較していきたいと思います。

最後までお読み頂きありがとうございました。