クラウドのPlayground
最新の技術が次々と私たちの手元に届いています。
今回は、高速な計算能力を誇る「Groq」の環境で画像解析能力を備えた「Llama 3.2」を動かし、その性能の一端に触れてみました。
Groq CloudのPlayground。
Metaの新モデルLlama3.2が利用可能になっています。
今回使ったのはllama-3.2-11b-vision-preview。
以前の投稿のカバー画像に使ったイメージを使います。
「これは何の写真?」に対する回答の生成結果です。
画像を認識していますが、日本語は意味不明な箇所がいくつも出てきました。
英語で質問した方が格段によい回答が返ってきます。
「What is this picture of ?」に対する回答の生成結果です。
PythonでGroq API
Plygroundの右上のViewcodeからPythonのコードが取得できます。
取得したコードです。
"url": "${IMAGE_DATA_URL}"に試用する画像のURLを指定します。
from groq import Groq
client = Groq()
completion = client.chat.completions.create(
model="llama-3.2-11b-vision-preview",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "What is this picture of?"
},
{
"type": "image_url",
"image_url": {
"url": "${IMAGE_DATA_URL}"
}
}
]
}
],
temperature=1,
max_tokens=1024,
top_p=1,
stream=False,
stop=None,
)
print(completion.choices[0].message)
実際にGoogle Colabで動かしたコードは以下です。
!pip install groq
import os
from google.colab import userdata
os.environ["GROQ_API_KEY"] = userdata.get("GROQ_API_KEY")
url = "https://assets.st-note.com/production/uploads/images/142624656/rectangle_large_type_2_9c0318bf4ef2667c76a90f3ec27bf4f2.jpeg?width=1200"
from groq import Groq
client = Groq()
completion = client.chat.completions.create(
model="llama-3.2-11b-vision-preview",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "What kind of picture is this?"
},
{
"type": "image_url",
"image_url": {
"url": url
}
}
]
}
],
temperature=1,
max_tokens=1024,
top_p=1,
stream=False,
stop=None,
)
print(completion.choices[0].message)
こちらでも「これは何の写真?」と日本語でも聞いてみましたが、やはりこ慣れない日本語で返ってきました。
Groqとは
(ChatGPTより)
Groqは、超高速なAIアクセラレーターを提供するハードウェア企業で、特に並列計算に特化した専用チップ(Tensor Streaming Processor, TSP)を開発しています。Groqのプロセッサは、大規模なAIモデルの推論やトレーニングにおいて、非常に高速かつ効率的な計算を実現するため、機械学習の分野で注目を集めています。これにより、従来のGPUやCPUに比べ、はるかに短時間で膨大なデータを処理することが可能になります。
特に、Groqのアーキテクチャは以下の特徴があります:
超並列処理: データのストリーミング処理により、大規模なモデルやデータセットを効率的に処理。
低レイテンシ: 高速な応答性を保ちながら、リアルタイム推論が可能。
スケーラビリティ: ネットワーク全体にスケール可能な設計で、クラウドベースでもオンプレミスでも展開可能。
Groqは、ディープラーニングやAIベースの画像認識、自然言語処理、科学計算など、あらゆる高度な計算処理に対応し、今後のAIアプリケーションにおいて重要な役割を果たすとされています。
Llama 3.2のような最新のAIモデルと組み合わせることで、さらなる性能向上が期待されます。
Llama3.2とは
(ChatGPTより)
Llama 3.2は、Meta(旧Facebook)が開発した大規模言語モデル(LLM)の最新版であり、先進的な自然言語処理(NLP)機能を提供します。このモデルは、従来のバージョンに比べて大幅に改善されており、特に以下の特徴が際立っています:
高度なコンテキスト理解: Llama 3.2は、複雑な文脈や長文のテキストに対しても、より高精度な理解を示します。これにより、文章生成や要約、翻訳など、広範なNLPタスクに対応可能。
大規模データセットの学習: 膨大なテキストデータを元に学習しており、一般的な知識から専門的な内容まで幅広いトピックに精通しています。また、多言語対応も強化されており、異なる言語間での理解力も向上しています。
画像解析のサポート: Llama 3.2では、従来の言語モデルに加え、画像解析機能も新たに導入されています。この機能により、テキストと画像を組み合わせたタスク、例えば画像キャプション生成や画像に基づく質問応答などが可能になります。これにより、より多様なメディアやデータタイプに対応できるようになっています。
効率的な推論とスケーラビリティ: モデルの構造や最適化が進化し、推論の高速化とリソース効率の改善が実現されているため、より少ない計算リソースで高性能を発揮します。
Llama 3.2は、Groqのような高性能なAIアクセラレーターと組み合わせることで、その処理速度や精度をさらに引き上げ、リアルタイムでの高度なAIタスク処理を可能にします。