Claude2が驚愕の100Kトークンで登場。創造以上の性能でした。
前置き
このブログはPoeのClaude-2-100kで書きました。ちょっと加筆修正しましたが8割はそのままです。この宣言はAIと人の文章を読者に区別されるものではなく、Claude-2-100kのレベルを知って欲しいからです。プロンプトは全て日本語で行いました。
進化を続ける言語モデル
AI分野で最も進化が激しいのが、言語モデルである。新機能の実装や性能向上が目覚ましく、可能性の限界が見えない速度で革新が続いている。
以前は考えられなかったレベルの会話やテキスト生成が当たり前になりつつある。GPT4が登場した時はとんでもない時代が到来したと思っていたが、技術の進歩には止まりがない。Claude2が登場した今、さらなる変革の只中にあることがわかった。限界なき可能性の世界が、これからも広がっていくことだろう。
これまで言語モデル分野を牽引してきたのがChatGPTである。自然な会話能力で世間の注目を集め、一時は圧倒的な存在感を示した。しかし、Claude2が登場したことで、ChatGPT時代の終焉が近づいている。そう、ChatGPTの一人勝ちの時代は過去の話となった。
Claude2の性能
多言語翻訳評価
Claudeモデルは、43の言語に対する翻訳品質を評価するために、Flores 200という翻訳ベンチマークを使用して評価されました。このベンチマークは、広範な言語カバレッジを持ち、通常他のタスクベンチマークに含まれない低リソース言語も含まれています。
人間のフィードバック評価とRed-Teaming
Claudeモデルの評価には、人間のフィードバックが重要な指標となっています。人間の好みのデータを使用して、Claudeの異なるバージョン間でのタスクごとのEloスコアを計算します。Eloスコアは、言語モデルの文脈では、人間の評価者が一つのモデルの出力を他のモデルよりも好む頻度を示す比較的パフォーマンス指標です。
特定の使用ケースに対する改善
Claude 2は、特定の能力領域の改善に特別な重視を置いています。これには、コーディングアシスタントとしてのClaudeの能力の向上、長い文書の処理や複雑な指示と仕様による制御に特に有用な長いコンテキストモデルの改善、より長い出力の生成、長い複雑な自然言語文書を構造化されたデータ形式に変換する能力の向上などが含まれます。
標準ベンチマークと標準化テスト
Claudeモデルは、Python関数の合成のためのCodex HumanEval、学校の数学問題解決のためのGSM8k、多分野のQ&AのためのMMLU、非常に長いストーリー(最大約10kトークン)に対するQ&AのためのQuALITY、科学の質問のためのARC-Challenge、読解のためのTriviaQA、高校レベルの読解と推論のためのRACE-Hなど、いくつかの標準的なベンチマーク評価でテストされました。
驚愕の100Kトークン対応
新時代を牽引する言語モデルがAnthropic社のClaude 2である。ChatGPTのライバルと目されるClaude 2は、これまでの常識を覆す性能を発揮している。
最大の特徴は、100Kトークンという膨大な入力容量である。これは日本語で約10万文字分に相当する(日本語は「あ」で1トークンとなる。英語は「Hello」で1トークンとなる。これはAPI利用料してかなり不利である)。
これまでの言語モデルが長文作成時の限界を露呈していたことを考えると快挙といえる。Claude 2では宮沢賢治の代表作「銀河鉄道の夜(約45,00文0字)」さえ一気に解釈できる。一方、出力スピードはChatGPTほど高速化はされていないものの、ユーザーからの要求に応じて継続的に生成できるなど、十分実用的なレベルにある。
文字数という制約を極限まで引き上げたClaude 2は、言語モデルの新たな地平を拓いたと言える。
ブレードランナー風、銀河鉄道の夜
Claude 2の可能性を確かめるため、私は実験的に宮沢賢治の代表作「銀河鉄道の夜」の全文を入力し、SF小説へのジャンル変換を試みた。
要約は?
SF小説風というより、ほぼSF小説になってしまった。一方で要約はまずまずのできである。このブログもそこそこの出来栄えで書いてくれていることからどうも創造、微調整、抽出あたりは得意と思われる。一方、大きな改変は不得意の傾向があるようだ。英語だとまた性能が違うと思うが。←これは私の文章。
AI言語モデルの可能性と課題
Claude2モデルは抽出や要約といった言語理解は高いレベルに達したものの、SF小説への大胆なジャンル変換のような創造性は未だ限定的である。言語モデルの革新は止まらないが、人間の創造性を超えるには、より柔軟な思考と独創的な発想が求められる。AIが真の知性を獲得するには、人間レベルの創造性が必要不可欠である。