CyberAgentにおけるマルチモーダルな基盤モデル開発について by CyberAgent, 稲垣青空氏 【Fully Connected Tokyo 2024】
「Weights & Biases Japan」が主催するユーザーカンファレンス「Fully Connected Tokyo 2024」が10月10日、東京・三越劇場で開かれ、IT大手・サイバーエージェントで機械学習モデルの開発に携わるAI事業本部・基盤モデル事業部の稲垣青空氏が登壇しました。テキストに加えて画像や音声、動画など多様なデータを扱える「マルチモーダルな生成AI」に関する、同社のAI基盤モデル開発の取り組みを紹介しました。
AI広告プロダクト「極予測シリーズ」
サイバーエージェントはインターネット広告事業において、AIを活用した広告ソリューションを提供しており、「極予測シリーズ」はその一環として、クリエイティブな広告文の生成や効果予測にAI技術を駆使しています。
「極予測AI」を導入することで広告効果が2.6倍になるなど、顕著な成果を示しています。稲垣氏が所属する「極予測LP」プロジェクトでは、AIを利用してランディングページの成果を予測し、デザイナーと協力して迅速なページ制作と効果検証を行っています。この取り組みにより、導入アカウントの平均コンバージョンレートは155%向上しました。
サイバーエージェントでは、LLMの開発にも力を入れており、日本語に特化した大規模モデルCALM3を開発しました。CALM3は220億パラメーターを持つ日本語特化のLLMで、日本語による対話性能が非常に高いモデルです。このモデルはHugging Faceで公開されており、誰でもアクセス可能になっています。
サイバーエージェントが取り組むマルチモーダル生成AI
近年、視覚データ(画像・動画)とテキストデータを組み合わせて処理し、ビジョンに関するQ&Aや説明生成を行うことができるモデルが、数々の企業から登場していますが、サイバーエージェントでも、言語と画像を結びつけるCLIPの派生モデル「SigLIP」とサイバーエージェント製の日本語LLM(CALM2-7B)を使い、日本語で受け答えができるモデルを構築しました。モデルの精度向上には、オープンなデータセットから画像に対する説明文や会話を英語で生成し、これを日本語に翻訳することで、高品質な画像に対する対話の学習データを作成しました。
英語で会話を生成した後に日本語に翻訳しているのは「英語の方が生成する会話の質が良く、多様性も高かった」から。日本語キャプションの利用も試みたものの日本語の表現が多様であるため、会話の生成にハルシネーション(誤情報)が多発したといいます。こうした課題を乗り越えるため、英語で合成データを作成してから日本語に翻訳したデータを用いて学習が行われました。
また、近年、高解像度画像の詳細な情報を保ちながら効率的に処理する技術が重要視されています。特に、縦長の画像など従来のビジョントランスフォーマーで扱いにくいケースに対応するために、「MinCPM-V」と呼ばれるモデルが公開されています。このモデルは画像を分割し、そのスライスと元の画像を同時にモデルに入力することで、全体のコンテキストを維持しつつ、より詳細な画像の分析を行います。このアプローチにより、極端なアスペクト比の画像でも精度良く分析が行えるようになり、サイバーエージェントではこの技術を用いて日本語特化のマルチモーダルLLMを開発し、より効果的な画像解析システムを構築しています。なお、その学習過程はWeights & Biasesにて管理を行っています。
評価にあたっては、Weights & BiasesとTuringが共同で開発をした、HeronVLMリーダーボードを利用しました。GitHubで公開されている評価スクリプトを用いて自社のWeights & Biasesの環境でリーダーボードやベンチマーク結果を簡単に可視化できる利点を生かし、スコア順に並べ替えるなどして評価を行なっています。
今年6月に公開されたサイバーエージェントのモデルは、当時オープンなVLMの中では比較的高性能を示していました。その後も新しいVLMが各社から次々と登場しましたが、サイバーエージェントはデータの質向上やアーキテクチャの改善に取り組み続けてきました。その結果、9月時点の最新モデルでは大幅な性能向上を達成しています。サイバーエージェントは、こうした技術を活用し、日本語に強いVLMの開発をさらに進めていく予定だといいます。最後に稲垣氏は「そのために高品質特化型のデータを集めて、AIのクリエイティブに応用していきたい。レイアウトや高度な理解を必要とするクリエイティブのデータを集め、日本文化に強いモデルを作っていきたい」と話し、場を締めくくりました。
素晴らしいご講演をしていただいた稲垣青空 氏に厚く御礼申し上げます。
Weights & Biases, Inc. (W&B社) は、米国サンフランシスコを拠点とし、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームを提供しています。WandBは、LLM開発や自動運転、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で80万人以上の機械学習開発者に信頼されているAI開発の新たなベストプラクティスです。
W&Bに関する詳細は下記をご参照ください
W&Bでは毎月ミートアップとオンラインウェビナーを開催しています
この記事が気に入ったらサポートをしてみませんか?