![見出し画像](https://assets.st-note.com/production/uploads/images/154509279/rectangle_large_type_2_baadc4d398a836f906c575b56a9d9677.png?width=1200)
9/12 AI & Tech Talks @ Zoom HQに参加してきました
9/12 AI & Tech Talks @ Zoom HQに参加してきました
![](https://assets.st-note.com/img/1726461549-CYVR4g3pr7eJGmn2LPq8IiOx.png?width=1200)
タイトル: Embeddings Are All You Need(埋め込みさえあれば十分)
この整理に基づいて、埋め込み技術の重要性や、AIアプリケーションにおける活用方法がわかりやすく説明されています。
課題:
構造化されていないデータ(画像、音声、テキストなど)の処理が難しい。
大規模言語モデル(LLM)が社内データを利用して信頼性のある情報を提供する際に発生する「幻覚」問題(不正確な情報の生成)。
非構造化データの検索や分類の効率性が低い。
マルチモーダルデータ(複数のデータ形式)を統合して使う方法が限られている。
ソリューション:
埋め込み(Embeddings): 様々な非構造化データをベクトル化し、ベクトルデータベース(例:Milvus)に保存。これにより、効率的に検索・分類が可能。
RAG(Retrieval-Augmented Generation): 社内データやマルチモーダルデータを用いて、生成AIが信頼性の高い応答を生成する手法。
ベクトルデータベース: ベクトルデータを保存し、検索や分類、クラスタリングなどのAI応用が可能になる。
マルチモーダル埋め込み: 画像、音声、テキストなどの異なるデータを同じベクトル空間に埋め込む技術。
数値情報の箇条書き:
埋め込みモデル「all-MiniLM-L6-v2」のダウンロード数:5,523,635(過去1ヶ月)
Llama 2-7b-chatモデルのダウンロード数:772,056(過去1ヶ月)
キーワード:
埋め込みモデル(Embeddings Models)
ベクトルデータ(Vector Data)
ベクトルデータベース(Vector Databases)
RAG(Retrieval-Augmented Generation)
マルチモーダル(Multimodal)
幻覚問題(Hallucination Problem)
Milvus
Llama 2
分子埋め込み(Molecular Embeddings)
時系列データ(Time Series Data)
自己教師あり学習(Self-Supervised Learning)
![](https://assets.st-note.com/img/1726461532-Oa1vqn3dCQz7KToucYxprN8g.png?width=1200)
タイトル:
AI for non-AI People by Daniel Kim, Head of Developer Relations at Cerebras
このプレゼンテーションでは、非技術者向けにLLMの仕組みとトレーニング方法を説明し、Cerebrasの高速推論技術の利点を強調しています。また、開発者にAPIキーを提供することで、Cerebrasのプラットフォーム上でのモデル開発を促進しています。
課題:
AIやLLMの仕組みの理解不足: 多くの非技術者やエンドユーザーは、LLMのバックエンドプロセスや性能に関する理解が不足している。
LLMの推論速度: 一般的なGPUや他のハードウェアでは、LLMの推論が遅くなることがある。
モデルサイズとコストのトレードオフ: 大規模なモデルは高性能だが、計算コストと時間が大きくなるため、効率的な選択が必要。
推論のメモリ制約: 多くのLLMモデルは、推論時にメモリバンド幅に依存し、パフォーマンスのボトルネックが発生する。
ソリューション:
LLMの高速推論:
Cerebrasのチップを使用することで、GPTモデルなどの推論が従来のGPUよりも20倍高速、またChachGPTの65倍のスピードで実行できる。
効率的なモデル選択:
利用ケースに応じて、より効率的なパラメータ数の少ないLLMを選ぶことで、コストを抑えつつ性能を最大化する。
Cerebrasチップのアーキテクチャ:
計算ユニットとメモリがチップ全体に均等に配置され、メモリへのアクセスが高速であるため、推論時のボトルネックを排除し、高速推論が可能。
Cerebras APIキーの提供:
開発者に向けてCerebrasのAPIキーを提供し、Cerebrasのハードウェア上でのモデル開発を支援。
数値情報(推定):
推論速度:
Cerebrasの推論速度は、Nvidia GPUより20倍、ChatGPTより65倍速い。
モデルサイズ:
Llama 3.1 7Bモデルは16GBのメモリで動作し、Llama 70Bは280GBのメモリを必要とする。
高速化の成果:
過去2週間で、Cerebrasの推論速度が100トークン/秒向上した。
キーワード:
LLM (大規模言語モデル)
推論 (Inference)
Cerebrasチップ
高速推論
メモリバンド幅
トレーニング
バックプロパゲーション (誤差逆伝播)
APIキー
ではまた!