自社のビジネス・ニーズに合わせた生成AIのカスタマイズを実現するwatsonx.ai(2023/10/03、ニュースリリース)
※米IBMからブログ更新のお知らせがニュースリリースで来ました!
+++++
自社のビジネス・ニーズに合わせた生成AIのカスタマイズを実現するwatsonx.ai
+++++
著者:IBM Software 製品担当シニア・バイス・プレジデントディネシュ・ニーマル(Dinesh Nirmal)
最近のIBVの調査によると、調査対象となったCEOの64%が、生成AIの適用を進めるべきだという圧力に直面しており、また60%がAIを導入するうえで、一貫した、全社的な方法に欠けていると回答しています。
watsonxのようなAIおよびデータのプラットフォームを利用することで、企業は基盤モデルを活用し、組織全体で生成AIの適用ペースを加速できるようになります。
watsonx内の製品であるwatsonx.aiに、新しい汎用基盤モデルおよびコード生成基盤モデル、オープンソース・モデルの種類の拡大、追加データ・オプションとチューニング機能など、生成AIの潜在的なビジネス・インパクトを拡大可能な機能が追加されました。これらの機能強化は、オープン(Open)、信頼できる(Trusted)、明確な対象(Targeted)、力を与える(Empowering)、というIBMの根源的な戦略的信念に沿ったものです。
■健全なデータから構築された、ビジネスに的を絞ったIBM開発の基盤モデル
生成AIの適用を任されているビジネス・リーダーは、モデルの柔軟性と選択肢を必要としています。また、タイム・トゥ・バリューや洞察の獲得に至るまでの時間短縮に寄与する、ビジネスに適したモデルへの安全なアクセスも必要です。IBMは、単一のモデルで全てをカバーすることはできないと認識しており、watsonx.aiスタジオ製品は、さまざまなサイズおよびアーキテクチャーの言語およびコード基盤モデル・ファミリーを提供することで、お客様のパフォーマンス、スピード、効率の向上を支援します。
株式会社本田技術研究所 先進技術研究所 チーフエンジニアの長谷川厚氏は、次のように述べています。「システムとの統合や様々なソフトウェアとのシームレスな相互接続が最も重要な環境において、watsonx.aiが注目すべきソリューションとして登場しています。watsonx.ai固有の柔軟性や機敏な展開能力は、情報セキュリティーへの強固な注力と相まって、その魅力を際立たせています」
watsonx.aiの初期リリースでは、企業の自然言語処理(NLP)タスクに有用な、エンコーダーのみ(encoder-only)のモデルであるSlateファミリーを提供開始しました。そして今回、IBM が開発した生成基盤モデルの最初のバージョンであるGraniteモデルを提供開始します。Graniteモデル・シリーズは、デコーダーのみ(decoder-only)のアーキテクチャーで構築されており、要約、コンテンツ生成、Retrieval-augmented Generation(RAG、検索により強化した文章生成)、分類、洞察の抽出などの生成タスクに適しています。
すべてのGraniteモデルは、IBMがキュレーションしたビジネスに特化したデータ・セットで学習されています。領域毎のより深い専門知識を提供できるよう、Graniteモデル・ファミリーは、インターネット、学術、コード、法務、財務の5つの領域から得たビジネス関連のデータ・セットで学習され、また、好ましくないコンテンツを除去するための綿密な検査、社内外のモデルとのベンチマーク評価も行っています。このプロセスは、watsonx.dataとwatsonx.governance(近日公開予定)との連携により、リスクを軽減し、モデル出力が責任ある形で展開できるように設計されています。
11の異なる金融タスクにおけるIBM Researchによる初期の評価とテストでは、Granite-130億パラメーター・モデルを高品質の金融データで学習させることで、金融タスクにおいてトップクラスのパフォーマンスを発揮し、はるかに大規模なモデルと同等かそれ以上のパフォーマンスを達成する可能性があることが示されました。評価された金融タスクは、株式や決算説明会の文章の感情スコアの提供、ニュースの見出しの分類、信用リスク評価の抽出、金融に関する長文の要約、金融や保険関連の質問への回答などです。
■IBMが開発したAIモデルに透明性を持たせる
これまでのところ、公開されているAIモデルの多くには、データの出所、テスト、安全性、性能パラメーターに関する情報が欠けています。多くの企業や組織にとって、これは不確実性をもたらし、特に規制の厳しい業界では、生成AIの適用を遅らせる可能性があります。
IBMは、本日、Graniteモデルの学習に使用されたのは以下のデータ・ソースであることを共有します(これらのモデルの学習方法および使用されたデータ・ソースの詳細は、こちら< https://www.ibm.com/downloads/cas/X9W4O6BM >をご参照ください)。
1. Common Crawl
2. Webhose
3. GitHub Clean
4. Arxiv
5. USPTO
6. Pub Med Central
7. SEC Filings
8. Free Law
9. Wikimedia
10. Stack Exchange
11. DeepMind Mathematics
12. Project Gutenberg (PG-19)
13. OpenWeb Text
14. HackerNews
AI開発に対するIBMのアプローチは、信頼と透明性へのコミットメントに基づく基本原則によって規定されています。IBMが基盤モデルの開発とテストを極めて厳格に行っていることの証として、IBMは、IBMが開発した基盤モデルに対して第三者から知的財産権に関する請求を受けた場合、お客様を補償します。また、大規模言語モデル(LLM)を提供する他のいくつかのプロバイダーとは異なり、補償に関するIBMの標準的なアプローチと同様に、IBMは、お客様がIBMの開発したモデルを使用することに対して、IBMに補償するようお客様に要求することはありません。また、補償義務に対するIBMのアプローチと同様に、IBMは、IBMが開発したモデルに対する知的財産補償責任に上限を設けていません。
IBM が開発したモデルを使用して、差別化された AI 資産を作成しようとされるお客様には、特定の下流タスクに対応できるように IBM モデルをさらにカスタマイズすることを推奨します。プロンプト・エンジニアリングとチューニング技術を通じて、お客様は責任ある形で自社の企業データを使用してモデル出力の精度向上を図り、競争力を高めることができます。
■組織がサードパーティー・モデルの責任ある利用ができるよう支援
何千ものオープンソースのLLMが存在することを考えると、どこから手をつけて、どのように適切なタスクに適切なモデルを選択すればよいかを把握することは困難です。何千ものオープンソース・モデルのコレクションから「正しい」LLMを選択することは容易ではなく、コストとパフォーマンスのトレードオフを慎重に検討する必要があります。また、多くのLLMが予測不可能であることを考慮すると、モデル構築、学習、チューニング、テスト、出力にAI倫理やAIガバナンスを組み込むことも重要です。
IBMは、1つのモデルだけでは十分ではないことを理解しており、watsonx.aiにお客様やパートナーが使用できる基礎モデル・ライブラリを構築しました。Hugging Faceの5つの厳選されたオープンソース・モデルから始め、IBMは厳密な技術評価、ライセンス評価、パフォーマンス評価に基づき、またモデルの用途として最適なユースケースの範囲に対する理解も反映し、これらのモデルを選びました。今月追加した最新のオープンソースLLMモデルは、watsonx.aiスタジオ内で利用可能になるMeta社のLlama 2-chat(700億パラメーター・モデル)です。Llama 2はチャットやコード生成に役立ちます。一般に公開されているオンライン・データで事前学習され、人間のフィードバックをもとに強化学習を用いてファイン・チューニングされています。バーチャル・エージェントやチャット・アプリケーションの強化に役立つLlama 2 は、商用および研究用での利用を想定しています。
また、BigCodeのStarCoder LLMもwatsonx.aiで利用可能です。GitHubから許諾されたデータで学習されたこのモデルは、自然言語でコードの説明や一般的な質問に答える技術アシスタントとして使用できます。また、コードのオートコンプリート、コードの修正、コード・スニペットの説明を自然言語で行うことも可能です。
watsonx.aiでサードパーティー・モデルを利用するユーザーは、入力プロンプトや生成された出力から不快な言葉を自動的に削除するAIガードレール機能をオンにすることもできます。
■合成データによるモデル学習リスクの低減
データを匿名化する従来のプロセスでは、出力や予測を著しく損なうエラーが発生する可能性があります。しかし、合成データは、コンピューター・シミュレーションやアルゴリズムによって人工的に作成されたデータを活用するもので、これにより組織は、個人のパーソナル・データが暴露されるリスクを低減しつつ、データ不足に対処できるようになります。
watsonx.aiの合成データ生成サービスにより、企業はあらかじめラベル付けされ、元の企業データの統計的特性を保持した表データを合成できるようになります。このデータは、AIモデルをより迅速にチューニングしたり、データ・セットに多様性を持たせることでその精度を向上させたりするために使用することができます(実データに含まれる幅広いバリエーションをカバーするために必要な、長いデータ収集期間を短縮します)。合成データを使ってモデルを構築、テストすることが可能になると、企業はデータ不足を克服し、ひいては新しいAIソリューションの市場投入スピードを向上させることが可能になります。
■プロンプト・チューニングで、ビジネスに焦点を当てたユースケースを実現
watsonx.aiのTuning Studioの正式リリースにより、ビジネス・ユーザーは、質疑応答、コンテンツ生成、固有表現認識、洞察抽出、要約、分類を含む様々なユースケースにおいて、ビジネス特有の下流ニーズに合わせて基盤モデルをカスタマイズすることができます。
Tuning Studio の初期リリース版は、プロンプト・チューニングをサポートします。watsonx.ai内で高度なプロンプト・チューニングを使用することで(わずか100から1,000の例に基づいて)、企業は既存の基盤モデルを独自のデータにカスタマイズすることができます。プロンプト・チューニングにより、限られたデータしか持たない企業でも、AIモデルを再学習することなく、コンピューティングとエネルギー使用量を削減しつつ、大規模なモデルを特定のタスクに合わせて調整することが可能になります。
■ビジネス向けAIの推進とサポート
AI およびデータのプラットフォームであるIBM watsonxは、ビジネス向け構築されており、組織内のより多くの個人が、信頼できるデータを使用して AI のインパクトを拡大、加速できるように設計されています。AI テクノロジーの進歩に伴い、watsonx アーキテクチャーは、IBM Research が開発したような新しいビジネスに的を絞った基盤モデルや、Hugging Faceオープン・ソース・プラットフォームで提供されているようなサードパーティー・モデルをスムーズに統合できるように設計されており、今後提供を開始する watsonx.governance によって、重要なガバナンス・ガードレールを提供します。
watsonxプラットフォームは、IBMの生成AIソリューションの一部に過ぎません。IBM Consultingは、1,000人以上のコンサルタントが持つ生成AIの専門知識を活用し、対象とするビジネス・ユースケースに合わせたモデルのチューニングや運用の支援を行います。
当報道資料は、2023年9月28日(現地時間)にIBM Corporationが発表したブログの抄訳です。原文はこちらをご参照ください。
以上
当ブログは、以下の当社ホームページに掲載しています:
https://jp.newsroom.ibm.com/2023-10-03-blog-watsonx-tailored-generative-ai