生成AIの米中競争

2024年6月3日 06:02

生成AIでの中国の猛追についてお話しします。

Yi-Largeの登場

Chatbot arena(チャットボットアリーナ）という生成AIの出力を人間が比較してレーティングするサイトに結果を示すリーダーボードがあります([LMSYS]。長らくその時点での最新GPTが上位を占めています。
最近、そこにYi-Large-Previewという言語モデルが登場して注目されています。EloランキングでのGPT-4oとの比較では、本記事執筆時点で：　

GPT-4o-2024-05-13　1287
Yi-Large-preview　1236

くらいの差です。中国の01.AIが出しています。

生成AIでの中国のハンディキャップ

最初に生成AIが誕生したときには中国にはハンディキャップがあって米国に追いつくのは大変だろうなと思っていました。

米国による最新GPUの禁輸
NVIDIAによるCUDA利用の制限
言論統制による大規模言語モデルの学習の制約
中国語の学習の制約

言論統制

国家思想に沿った学習しかできないとなると言論の自由がある世界に比べて学習が遅くなるかと思っていました。
実際には自由主義国でもさまざまなファインチューニングを行い偏見のある発言をしないようにするような強化学習をしています。強化学習の方法が進めばどんな政治体制でも学習の難易度は変わらないと思うようになりました。
中国はただ乗りカルチャーがあるので、アラインメントエンジニアリングが盛んです。これは特定の言語モデルを自国向けに最適化する技術です。Metaが大規模言語モデルをOSSにすると宣言しているので、Metaの最新OSS (今ならLlama 3)を自国向けにチューニングするプレイヤはたくさんいます。
この部分でのハンディキャップはほとんどないようです。

中国語の特殊さ

中国語は結構特殊な言語です。フランス語のように大過去、中過去など動詞が変化する言語に比べて、格変化がありません。これは中国語初心者には便利なことで、初期の学習は簡単になります。逆に文法上の手がかりがないことによって同じ文章をコンテクストによって別々に解釈することが必要になります。上級になるとかえって難しいのが中国語です。
この部分も複雑なコンテキストに基づいて学習する技術は進んでおり、言語によるハンディキャップはほとんどないようです。ハンディキャップを克服すればエンジニアの数とテキストの豊富さはむしろ中国語生成AIの利点になるかもしれません。

GPUとCUDA制限

これらは続いていますが、Yi-Largeの台頭を見る限り、中国の生成AI学習を止めるものではなかったようです。

むすび

ChatGPTが出たころは生成AIの劣勢によって中国の経済成長は鈍化するのではないかと思っていました。間違っていたようです。21世紀の米中競争は生成AIでも続きそうです。

参考文献

[LMSYS] LMSYS Chatbot Arena Leaderboard　https://chat.lmsys.org/?leaderboard
[01] Yi-Large Global SOTA LLM https://www.01.ai/