見出し画像

9/12 AI & Tech Talks @ Zoom HQに参加してきました

9/12 AI & Tech Talks @ Zoom HQに参加してきました



タイトル: Embeddings Are All You Need(埋め込みさえあれば十分)

この整理に基づいて、埋め込み技術の重要性や、AIアプリケーションにおける活用方法がわかりやすく説明されています。

課題:

  1. 構造化されていないデータ(画像、音声、テキストなど)の処理が難しい。

  2. 大規模言語モデル(LLM)が社内データを利用して信頼性のある情報を提供する際に発生する「幻覚」問題(不正確な情報の生成)。

  3. 非構造化データの検索や分類の効率性が低い。

  4. マルチモーダルデータ(複数のデータ形式)を統合して使う方法が限られている。

ソリューション:

  1. 埋め込み(Embeddings): 様々な非構造化データをベクトル化し、ベクトルデータベース(例:Milvus)に保存。これにより、効率的に検索・分類が可能。

  2. RAG(Retrieval-Augmented Generation): 社内データやマルチモーダルデータを用いて、生成AIが信頼性の高い応答を生成する手法。

  3. ベクトルデータベース: ベクトルデータを保存し、検索や分類、クラスタリングなどのAI応用が可能になる。

  4. マルチモーダル埋め込み: 画像、音声、テキストなどの異なるデータを同じベクトル空間に埋め込む技術。

数値情報の箇条書き:

  • 埋め込みモデル「all-MiniLM-L6-v2」のダウンロード数:5,523,635(過去1ヶ月)

  • Llama 2-7b-chatモデルのダウンロード数:772,056(過去1ヶ月)

キーワード:

  • 埋め込みモデル(Embeddings Models)

  • ベクトルデータ(Vector Data)

  • ベクトルデータベース(Vector Databases)

  • RAG(Retrieval-Augmented Generation)

  • マルチモーダル(Multimodal)

  • 幻覚問題(Hallucination Problem)

  • Milvus

  • Llama 2

  • 分子埋め込み(Molecular Embeddings)

  • 時系列データ(Time Series Data)

  • 自己教師あり学習(Self-Supervised Learning)



タイトル:

  • AI for non-AI People by Daniel Kim, Head of Developer Relations at Cerebras

    このプレゼンテーションでは、非技術者向けにLLMの仕組みとトレーニング方法を説明し、Cerebrasの高速推論技術の利点を強調しています。また、開発者にAPIキーを提供することで、Cerebrasのプラットフォーム上でのモデル開発を促進しています。

課題:

  1. AIやLLMの仕組みの理解不足: 多くの非技術者やエンドユーザーは、LLMのバックエンドプロセスや性能に関する理解が不足している。

  2. LLMの推論速度: 一般的なGPUや他のハードウェアでは、LLMの推論が遅くなることがある。

  3. モデルサイズとコストのトレードオフ: 大規模なモデルは高性能だが、計算コストと時間が大きくなるため、効率的な選択が必要。

  4. 推論のメモリ制約: 多くのLLMモデルは、推論時にメモリバンド幅に依存し、パフォーマンスのボトルネックが発生する。

ソリューション:

  1. LLMの高速推論:

    • Cerebrasのチップを使用することで、GPTモデルなどの推論が従来のGPUよりも20倍高速、またChachGPTの65倍のスピードで実行できる。

  2. 効率的なモデル選択:

    • 利用ケースに応じて、より効率的なパラメータ数の少ないLLMを選ぶことで、コストを抑えつつ性能を最大化する。

  3. Cerebrasチップのアーキテクチャ:

    • 計算ユニットとメモリがチップ全体に均等に配置され、メモリへのアクセスが高速であるため、推論時のボトルネックを排除し、高速推論が可能。

  4. Cerebras APIキーの提供:

    • 開発者に向けてCerebrasのAPIキーを提供し、Cerebrasのハードウェア上でのモデル開発を支援。

数値情報(推定):

  1. 推論速度:

    • Cerebrasの推論速度は、Nvidia GPUより20倍、ChatGPTより65倍速い。

  2. モデルサイズ:

    • Llama 3.1 7Bモデルは16GBのメモリで動作し、Llama 70Bは280GBのメモリを必要とする。

  3. 高速化の成果:

    • 過去2週間で、Cerebrasの推論速度が100トークン/秒向上した。

キーワード:

  • LLM (大規模言語モデル)

  • 推論 (Inference)

  • Cerebrasチップ

  • 高速推論

  • メモリバンド幅

  • トレーニング

  • バックプロパゲーション (誤差逆伝播)

  • APIキー


ではまた!

いいなと思ったら応援しよう!