2025.2.4の生成AIニュース：最新AI技術動向まとめ

アフロ　AIアドバイザー

2025年2月4日 22:10

はじめに

2025年2月4日現在、AI技術は急速な進化を遂げており、多様な分野で大きな影響を与えています。

特に、大規模言語モデルの効率化、画像生成AI、マルチモーダルAI、音楽生成AIといった最新のトピックに注目が集まっています。

本記事では、それらの技術進歩や社会的影響について詳しく解説します。

今日の格言

「道を切り開くのは、自らの信念だ。」

吉田松陰

簡単な解説:
吉田松陰の言葉は、自分の信念を持ち続けることが、人生において新しい道を切り開く原動力になると教えています。信念を貫くことで、困難を乗り越え、目標を達成する力が湧いてきます。

大規模言語モデルの効率化

DeepSeek-R1の量子化とモデル効率化

DeepSeek-R1は、671B（ビリオン）パラメータを持つ巨大モデルですが、Unslothチームによって大幅なサイズ削減が実現されました。このモデルは元々720GBのサイズがありましたが、選択的な量子化手法を用いて131GBまで圧縮されています。

技術概要:

重要な部分を4ビットや6ビットで量子化
モデルの約88%を占めるMoE（Mixture of Experts）層は1.5ビット程度で量子化
平均量子化ビット数は1.58ビット

この技術により、モデルの軽量化と性能の維持が両立されています。

画像生成AIの進歩

DeepSeekの画像生成AI "Janus-Pro"

DeepSeekが開発した画像生成AI“Janus-Pro”は、1.5Bと7Bの2つのサイズで提供されており、画像理解と生成の両方の能力を備えています。

主な特徴:

約9,000万件の画像・テキストデータ、約7,200万件の画像生成データでトレーニング
MMBenchテストおよびGenEvalで高スコアを記録
他の主要モデル（DALL-E 3、Stable Diffusion 3 Medium）を超える性能を達成

特にクリエイティブな用途において注目されています。

知識蒸留技術の革新

Sakana AIの知識蒸留手法 "TAID"

Sakana AIが開発した"TAID"は、大規模言語モデル（LLM）から小規模モデル（SLM）への効率的な知識転移を実現する手法です。

技術詳細:

学習過程に応じて教師モデルを段階的に変化させる
開発された"TinySwallow-1.5B"モデルは、32BパラメータのLLMから効率的に知識を転移
スマートフォンやPCで直接チャットが可能な軽量モデル

これにより、リソースが限られた環境でも高性能なAIを活用できるようになります。

マルチモーダルAIの発展

Alibaba Cloudの "Qwen2.5-VL"

Alibaba Cloudが発表したマルチモーダルAI "Qwen2.5-VL"は、画像認識や動画理解に優れたAIモデルです。

主な特徴:

3B、7B、72Bの3つのサイズを展開
画像内のテキスト、チャート、アイコン、グラフィック、レイアウトの分析が可能
1時間以上の動画セグメントを特定・理解する能力

ビジネスドキュメントや動画分析に活用されています。

音楽生成AIの進化

オープンソース音楽AIモデル "YuE"

中国の研究チームが開発した"YuE"は、歌詞から楽曲を生成するオープンソースAIです。

主な特徴:

歌詞からボーカルと伴奏を含む楽曲を生成
英語、中国語、日本語、韓国語の多言語対応
GAN（敵対的生成ネットワーク）を活用した高品質な音声生成

この技術は音楽制作における新たな可能性を開拓しています。

OpenAIの最新推論モデル

"o3-mini"

OpenAIの"o3-mini"は、GitHub Copilotなどで利用可能な軽量推論モデルです。

技術詳細:

従来の"o1-mini"と同程度の応答時間を維持しつつ、性能が向上
Visual Studio CodeやGitHub.comで利用可能

コード生成や開発支援において注目されています。

AIエージェントの登場

PerplexityのAIエージェント "Perplexity Assistant"

Perplexityが提供する"Perplexity Assistant"は、Android向けのAIエージェントです。

主な機能:

音声・テキスト入力、カメラモードによる情報取得
ホテル予約などのタスク実行
Androidデバイスのデフォルトアシスタントとして設定可能

この技術により、ユーザーの日常生活がさらに便利になります。

AIによる故人ペルソナ再現技術

OpenAIとGoogle Gemini Advancedの"deep research"

故人ペルソナ再現技術では、AIがSNSデータや音声データを学習し、故人の人格を模倣することが可能になっています。

技術と課題:

自然言語処理（NLP）やディープラーニングを活用
プライバシー保護や倫理的課題が存在

松尾公也氏による"亡き妻AI再現"プロジェクトでは、音声再現や画像生成が進んでおり、今後も技術の高度化が予測されています。

まとめ

AI技術は、効率化、マルチモーダル機能、音楽生成、エージェント機能など、多岐にわたって進化しています。これらの技術が社会に与える影響はますます大きくなっており、今後も倫理的課題や社会的議論が求められるでしょう。

FAQ

DeepSeek-R1の量子化とは何ですか？

DeepSeek-R1は巨大な言語モデルですが、選択的量子化によって元の720GBから131GBへと80%のサイズ削減に成功しました。

Janus-ProとはどのようなAIですか？

Janus-Proは、画像理解と生成の両方の能力を持つDeepSeek開発の画像生成AIで、主要な他モデルより高い性能を示しています。

Perplexity Assistantの機能は？

音声・テキスト入力やカメラモードで情報を取得し、タスクを実行できるAndroid向けAIエージェントです。

いいなと思ったら応援しよう！

活動に役立たせていただきます🙇‍♀️