ビジネスのためのAIを構築: IBMの基盤モデル「Granite」(2023/09/12、ニュースリリース)
※米IBMからニュースリリースが来ました!
+++++
ビジネスのためのAIを構築: IBMの基盤モデル「Granite」
+++++
著者:IBM Software 製品担当シニア・バイス・プレジデント ディネシュ・ニーマル(Dinesh Nirmal)
【米国ニューヨーク州アーモンク-2023年9月7日(現地時間)発】
ビジネス向けAIにとって、素晴らしい時代が訪れています。カスタマー・サービスから人事、コードのモダナイゼーションまで、幅広い分野においてAI < https://www.ibm.com/jp-ja/artificial-intelligence > の適用による業務のスマート化がますます進んでいます。しかも、ビジネス向けAIの革命はまだ始まったばかりで、これから広がる生産性・創造性向上の可能性は計り知れません。
しかし、今日のAIは非常にダイナミックな分野であり、AIプラットフォームも、今日あるいは今後の要求に応えるために最新の進歩を取り入れられるダイナミズムを持つ必要があります。このような理由から、IBMは、企業向けAIとデータのプラットフォームであるIBM watsonx < https://www.ibm.com/jp-ja/watsonx > に、強力な新機能を継続的に追加しているのです。
IBMは、生成AI、基盤モデル、機械学習のためのスタジオ(ツール・機能群)であるwatsonx.ai < https://www.ibm.com/jp-ja/products/watsonx-ai > で利用可能になる、IBMが構築した基盤モデル < https://www.ibm.com/blogs/smarter-business/business/foundation-model/ > の新しいファミリーを追加したことを発表しました。Granite(グラナイト、花崗岩)と総称されるこれらのマルチ・サイズの基盤モデル群は、言語とコードの両方に生成AI < https://www.ibm.com/blogs/solutions/jp-ja/what-is-generative-ai/ > 機能を提供します。花崗岩が建設や製造において多くの用途を備えるhttps://www.ibm.com/blogs/solutions/jp-ja/what-is-generative-ai/います。
ここで、IBMがどのようにGraniteモデルを構築したか、お客様のビジネスにおいてAIを次のレベルに引き上げる < https://www.ibm.com/blogs/solutions/jp-ja/generative-ai-for-enterprise/ > ためにGraniteモデルがどのように役立つかについてご説明します。
■ビジネスをターゲットにしたIBMの基盤モデル「Granite」
IBMリサーチによって開発 < https://www.ibm.com/blogs/solutions/jp-ja/what-is-generative-ai/ > されたGraniteモデル(Granite.13b.instructおよびGranite.13b.chat)は、文中で次の単語を予測する今日の大規模言語モデル(LLM)の能力を支える「デコーダー」アーキテクチャーを使用しています。
130億パラメーターのGraniteモデルは、より大きなモデルよりも効率的であり、V100-32GBのシングルGPUにフィットします。また、要約、質問応答、分類などの特殊なビジネス領域のタスクで優れた性能を発揮しつつ、環境負荷を抑える < https://research.ibm.com/blog/generative-ai-for-enterprise?_gl=1*19nx4h6*_ga*MTg1MTEyMjY2NS4xNjk0MTM2NzY4*_ga_FYECCCS21D*MTY5NDQ3NTA4OC4xMi4xLjE2OTQ0NzY2NDYuMC4wLjA > ことができます。さらに、業界を超えて広く適用が可能であり、コンテンツ生成、洞察抽出、RAG(Retrieval-Augmented Generation:モデルを外部の知識源にリンクさせることで応答品質を向上させるフレームワーク) < https://www.ibm.com/blogs/solutions/jp-ja/retrieval-augmented-generation-rag/ > 、固有表現抽出(テキスト内の重要な情報を識別して抽出)といった他の自然言語処理(NLP)タスクもサポートしています。
IBMでは、ビジネスを対象としたモデルの構築に注力しています。Graniteモデル・ファミリーも同様で、前処理前は合計7TB、前処理後は2.4TBに及ぶ様々なデータ・セット(これはモデルにとって1兆個のトークンに相当します)によって学習されました。データ・セットの選択は、ビジネス・ユーザーのニーズをターゲットとしており、以下の領域のデータが含まれています。
*インターネット:公共のインターネットから取得した一般的な非構造化言語データ
*学術:科学技術に特化した技術的な非構造化言語データ
*コード:さまざまなプログラミング言語をカバーする非構造化コードのデータ・セット
*法務: 法律意見書やその他の公的提出書類から取得した企業関連の非構造化言語データ
*財務:一般に公開された財務文書や報告書から取得した企業関連の非構造化データ
企業に特化したデータ・セットでモデルをトレーニングすることで、私たちのモデルがこれらの業界の専門的な言語や専門用語に精通し、関連する業界知識に基づいた意思決定を行うことを確実にします。
■IBMの基盤モデル「Granite」は信頼のために構築
企業にとって、信頼なくしてビジネスを遂行することはできません。特にAIに関しては、「私たちを信頼してください」と言うだけでは不十分です。企業向けAIを開発した最初の企業の1社であるIBMのAI開発に対するアプローチは、信頼と透明性のコミットメントに基づく基本原則 < https://www.ibm.com/jp-ja/artificial-intelligence/ethics > によって導かれています。AIとデータのプラットフォームであるIBMのwatsonxは、ユーザーがAIの単純な利用者に留まるのではなく、その先のAI価値創造者になることを目指しています。watsonxは、データ収集に始まり、ガバナンス、リスク評価、バイアスの軽減、コンプライアンスに向けた責任あるデプロイメントの確実なコントロールに至る、基盤モデルや生成AIの構築およびテストのためのエンドツーエンドのプロセスを備えています。
Graniteモデルは、お客様が自社のアプリケーションに適応できるように提供されるため、モデルの学習に使用されたすべてのデータ・セットは、定義されたガバナンス、リスク、コンプライアンス(GRC)のレビュー・プロセスを経ています。IBMでは、IBM のAI 倫理原則に沿ったIBM Data Pileにデータを組み込むためのガバナンス手順を開発しました。データをGRC基準に対応させる作業は、学習データのライフサイクル全体に及びます。IBMの目標は、学習済み基盤モデルから、そのモデルの学習に使用された特定のデータ・セットのバージョンまでを通じて監査可能なリンクを確立することです。
多くのメディアは、生成AIが憎悪や中傷的な出力を生成するリスクに(当然のことながら)注目しています。IBMは、各企業がそれらのリスクを負うわけにはいかないことを知っています。そのため、Graniteモデルは、憎悪的で冒とく的なコンテンツを検出し、除去するために、IBM独自の言語モデルである「HAPディテクター」によって精査されたデータで学習されています。文書の各文章にスコアが割り当てられた後、文章とスコアに対して分析が実行されて分布が求められ、フィルタリングの対象となる文章の割合が決定されます。
これ以外にも、幅広い品質評価を適用しています。出力の質を向上させるために重複を検索・削除し、文書品質フィルターを使用して、学習に適さない質の低い文書をさらに削除します。また、海賊版コンテンツやその他の不快な資料を掲載していることで知られるウェブサイトを監視し、そのようなウェブサイトを避けるなど、定期的かつ継続的なデータ保護対策も実施しています。
また、生成AI技術の状況は常に変化しているため、IBMのエンドツーエンド・プロセスは継続的に進化・改善し、企業が信頼できる結果を提供します。
■IBMの基盤モデル「Granite」は、お客様に価値を提供できるように設計
ビジネスのためのAIというIBMのビジョンの鍵は、エンパワーメント(能力の拡張)という概念です。どの組織も、独自の目標を達成するためにGraniteモデルを展開でき、またどの企業にも、法律、社会規範、業界標準、市場の要求、アーキテクチャーの要件など、準拠すべき各社独自の規制があります。IBMは、企業がwatsonxプラットフォームのツールを使って、ワークロードがどこにあろうと < https://www.ibm.com/blog/how-foundation-models-and-data-stores-unlock-the-business-potential-of-generative-ai/ > 、自社の価値観に従って(制限の範囲内で)モデルをパーソナライズする力を得るべきだと信じています。
しかし、それだけではありません。watsonxで何をするにしても、データの所有権はお客様にあります。IBMはお客様のデータを使って自社のモデルを学習させることはありません。お客様が構築したモデルはお客様自身がコントロールでき、どこでも活用することができます。
IBMの基盤モデル「Granite」は、序章に過ぎません
今回発表した最初のGraniteモデルは、序章に過ぎません。他言語モデルも計画されており、それ以外のIBMで学習されたモデルも準備中です。その一方で、watsonxへはオープンソース・モデルの追加も続いています。先日、一部のお客様を対象にMeta社のLlama 2-chat(700億パラメーター・モデル)の早期アクセスを提供開始し、9月後半にはより広範に利用できるようにする予定であることを発表 < https://jp.newsroom.ibm.com/2023-08-10-IBM-Plans-to-Make-Llama-2-Available-within-its-Watsonx-AI-and-Data-Platform > しました。さらに、80以上のプログラミング言語、Git commit、GitHub issues、Jupyter notebookを含む、コード向けの大規模言語モデルである「StarCoder」を追加しました。
新しいモデルに加え、IBMはwatsonx.aiスタジオで補完的な新機能を発表します。今月末には、Tuning Studioの最初のバージョンが登場します。これには、お客様が所有する企業データを使用して、効率的かつ低コストな方法で基盤モデルをお客様独自の下流タスクに適応することができるプロンプト・チューニング < https://www.ibm.com/blogs/solutions/jp-ja/what-is-prompt-tuning/ > が含まれます。また、カスタム・データ・スキーマまたは内部データ・セットから、ユーザーが人工的な表形式データ・セットを作成できるよう支援する合成データ・ジェネレーターを提供開始します。これにより、ユーザーはAIモデルのトレーニングのための洞察を、リスクを低減しながら抽出できるようになり、意思決定を強化し、市場投入までの時間を短縮できるようになります。
watsonxに基盤モデルの「Granite」や他の新機能が加わることで、ビジネスのためのAIの新たな可能性が広がります。新しいモデルと新しいツールによって、新しいアイデアと新しいソリューションが生まれます。そして何より素晴らしいのは、まだ始まったばかりだということです。
IBMの将来の方向性および指針に関する記述は、予告なく変更または撤回される場合があります。これらは目標および目的を提示するものにすぎません。
当報道資料は、2023年9月7日(現地時間)にIBM Corporationが発表したブログの抄訳です。原文はこちら < https://www.ibm.com/blog/building-ai-for-business-ibms-granite-foundation-models/?_gl=1*ssauvt*_ga*MTg1MTEyMjY2NS4xNjk0MTM2NzY4*_ga_FYECCCS21D*MTY5NDQxOTkzOC4xMS4xLjE2OTQ0MjAxMzUuMC4wLjA > をご参照ください。
以上
当ニュースリリースは、以下の当社ホームページに掲載しています:
https://jp.newsroom.ibm.com/2023-09-12-Blog-Building-AI-for-business-IBM-Granite-foundation-models <https://jp.newsroom.ibm.com/2023-09-12-Blog-Building-AI-for-business-IBM-Granite-foundation-models>