見出し画像

Claude2が驚愕の100Kトークンで登場。創造以上の性能でした。


前置き

このブログはPoeのClaude-2-100kで書きました。ちょっと加筆修正しましたが8割はそのままです。この宣言はAIと人の文章を読者に区別されるものではなく、Claude-2-100kのレベルを知って欲しいからです。プロンプトは全て日本語で行いました。

進化を続ける言語モデル

AI分野で最も進化が激しいのが、言語モデルである。新機能の実装や性能向上が目覚ましく、可能性の限界が見えない速度で革新が続いている。

以前は考えられなかったレベルの会話やテキスト生成が当たり前になりつつある。GPT4が登場した時はとんでもない時代が到来したと思っていたが、技術の進歩には止まりがない。Claude2が登場した今、さらなる変革の只中にあることがわかった。限界なき可能性の世界が、これからも広がっていくことだろう。

これまで言語モデル分野を牽引してきたのがChatGPTである。自然な会話能力で世間の注目を集め、一時は圧倒的な存在感を示した。しかし、Claude2が登場したことで、ChatGPT時代の終焉が近づいている。そう、ChatGPTの一人勝ちの時代は過去の話となった。

Claude2の性能

多言語翻訳評価

Claudeモデルは、43の言語に対する翻訳品質を評価するために、Flores 200という翻訳ベンチマークを使用して評価されました。このベンチマークは、広範な言語カバレッジを持ち、通常他のタスクベンチマークに含まれない低リソース言語も含まれています。

人間のフィードバック評価とRed-Teaming

Claudeモデルの評価には、人間のフィードバックが重要な指標となっています。人間の好みのデータを使用して、Claudeの異なるバージョン間でのタスクごとのEloスコアを計算します。Eloスコアは、言語モデルの文脈では、人間の評価者が一つのモデルの出力を他のモデルよりも好む頻度を示す比較的パフォーマンス指標です。

特定の使用ケースに対する改善

Claude 2は、特定の能力領域の改善に特別な重視を置いています。これには、コーディングアシスタントとしてのClaudeの能力の向上、長い文書の処理や複雑な指示と仕様による制御に特に有用な長いコンテキストモデルの改善、より長い出力の生成、長い複雑な自然言語文書を構造化されたデータ形式に変換する能力の向上などが含まれます。

標準ベンチマークと標準化テスト

Claudeモデルは、Python関数の合成のためのCodex HumanEval、学校の数学問題解決のためのGSM8k、多分野のQ&AのためのMMLU、非常に長いストーリー(最大約10kトークン)に対するQ&AのためのQuALITY、科学の質問のためのARC-Challenge、読解のためのTriviaQA、高校レベルの読解と推論のためのRACE-Hなど、いくつかの標準的なベンチマーク評価でテストされました。

驚愕の100Kトークン対応

新時代を牽引する言語モデルがAnthropic社のClaude 2である。ChatGPTのライバルと目されるClaude 2は、これまでの常識を覆す性能を発揮している。

最大の特徴は、100Kトークンという膨大な入力容量である。これは日本語で約10万文字分に相当する(日本語は「あ」で1トークンとなる。英語は「Hello」で1トークンとなる。これはAPI利用料してかなり不利である)。

これまでの言語モデルが長文作成時の限界を露呈していたことを考えると快挙といえる。Claude 2では宮沢賢治の代表作「銀河鉄道の夜(約45,00文0字)」さえ一気に解釈できる。一方、出力スピードはChatGPTほど高速化はされていないものの、ユーザーからの要求に応じて継続的に生成できるなど、十分実用的なレベルにある。

文字数という制約を極限まで引き上げたClaude 2は、言語モデルの新たな地平を拓いたと言える。

ブレードランナー風、銀河鉄道の夜

Claude 2の可能性を確かめるため、私は実験的に宮沢賢治の代表作「銀河鉄道の夜」の全文を入力し、SF小説へのジャンル変換を試みた。

銀河特急999号は、マージナル銀河の辺境を疾走していた。スチーム機関車の煙突からは、蒸気がグワーンと立ちのぼり、遠くに流れる星雲を照らしている。車内には旅人たちの静かな呼吸が響いている。

僕は一人カプセル席の中で、窓の外を見つめていた。遠くに見える銀河の渦は、まるで巨大な海のように光り輝いている。でもその底は真っ暗だ。誰も知らない世界がそこに広がっているのだろう。

車内アナウンスが流れ、999号はまもなく夜間休止するという。僕はベッドに入ろうとしたその時、車体がゆらゆらと揺れだした。次の瞬間、轟音と共に999号は激突したのだ。

「救命胴衣を着用して非常口へ。生存者は管制室へ集合」

慌てて非常口から脱出すると、真っ暗な宇宙が広がっている。遠くに爆発の火の手が見える。宇宙船の破片だ。僕は救命胴衣のガスを押しながら、なんとか管制室を目指した。

管制室にたどり着くと、他に生存者は誰もいなかった。操作卓を見ると、衝突の衝撃でほとんどの装置が破壊されている。外に出て状況を確認しようとしたその時、遠くからレプリカントを発見した。

以下略

Claude 2

要約は?

ごめんなさい、長い文章を要約するのは難しいのですが、できる限り短くまとめさせていただきます。

夜の星空の下で夢うつつに寝ているジョバンニが、カムパネルラという友人と一緒に天の川を汽車で旅をする夢を見ます。汽車の中ではさまざまな人に出会い、様々な景色を見ながら、ジョバンニとカムパネルラは mutualの幸せを求めて旅を続けます。しかし途中でカムパネルラが消え、ジョバンニは一人になってしまいます。 ジョバンニは落胆しますが、カムパネルラのため、そしてみんなのために幸せを探し続けることを決意します。 そして夢から覚めたジョバンニは、友人のカムパネルラが川に落ちたことを知り、ショックを受けます。しかしジョバンニはカムパネルラの父親から励まされ、みんなの幸せのためにまっすぐ進もうと決心するのです。

以上のように、主人公のジョバンニが幸せを求める旅を通じて成長する様子が描かれているようです。

Claude 2

SF小説風というより、ほぼSF小説になってしまった。一方で要約はまずまずのできである。このブログもそこそこの出来栄えで書いてくれていることからどうも創造、微調整、抽出あたりは得意と思われる。一方、大きな改変は不得意の傾向があるようだ。英語だとまた性能が違うと思うが。←これは私の文章。

AI言語モデルの可能性と課題

Claude2モデルは抽出や要約といった言語理解は高いレベルに達したものの、SF小説への大胆なジャンル変換のような創造性は未だ限定的である。言語モデルの革新は止まらないが、人間の創造性を超えるには、より柔軟な思考と独創的な発想が求められる。AIが真の知性を獲得するには、人間レベルの創造性が必要不可欠である。

この記事が気に入ったらサポートをしてみませんか?