CodeGemma と RecurrentGemma の概要

npaka

2024年4月10日 09:11

以下の記事が面白かったので、簡単にまとめました。

・Gemma Family Expands with Models Tailored for Developers and Researchers

1. Gemmaのモデルバリアント

「Gemma」は、「Gemini」の作成に使用されたものと同じ技術に基づいて構築された、軽量で最先端のオープンモデルです。

2024年4月、「Gemma」の2つのモデルバリアントをリリースしました。

・CodeGemma : コード補完および生成タスクと指示フォロー
・RecurrentGemma : 効率が最適されたアーキテクチャ

2. CodeGemma

「CodeGemma」は、コード補完とコード生成タスクに特化した7Bの事前学習済みモデルと、高速コード補完用の 2Bの事前学習済みモデルを提供します。

利点は、次のとおりです。

・インテリジェントなコード補完と生成
行や関数を完成させ、コードブロック全体を生成することもできます。

・精度の向上
Webドキュメント、数学、コードからの主に英語のデータの5,000億トークンで学習された「CodeGemma」は、構文的により正確であるだけでなく、意味的にも意味のあるコードを生成し、エラーとデバッグ時間の削減に役立ちます。

・複数言語の熟練度
Python、JavaScript、Java、その他の一般的な言語の貴重なコーディングアシスタントです。

・合理化されたワークフロー
「CodeGemma」を開発環境に統合することで定型文の作成を減らし、重要で興味深い差別化されたコードに集中できます。

詳細については、レポートまたはクイックスタートガイドを参照してください。

3. RecurrentGemma

「RecurrentGemma」は、より大きなバッチサイズでの効率的で高速な推論が可能なモデルです。リカレントニューラルネットワークとローカルアテンションを活用してメモリ効率を向上させています。「Gemma 2B」と同様のベンチマークスコアを達成しながら、「RecurrentGemma」の独自のアーキテクチャにより、次のような利点が得られます。

・メモリ使用量の削減
メモリ要件が低いため、単一のGPUやCPUなど、メモリが限られているデバイスでより長いサンプルを生成できます。

・スループットの向上
RecurrentGemma はメモリ使用量が削減されているため、大幅に高いバッチサイズで推論を実行できるため、1秒あたりに生成されるトークンが大幅に増加します (特に長いシーケンスを生成する場合)。

・研究革新
「RecurrentGemma」は、高性能を実現するnon-transformerモデルを紹介し、深層学習研究の進歩を強調します。

基礎となる技術を理解するには、論文を参照してください。調査するには、モデルをファインチューニングする方法を示すノートブックを試してください。

4. Gemma 1.1

新しいモデルバリアントと並行して、パフォーマンスの向上を含む「Gemma 1.1」をリリースしました。さらに、開発者のフィードバックに耳を傾け、バグを修正し、柔軟性を高めるために規約を更新しました。