【論文速報】画像生成と理解を分離したJanus、ついに登場!【DeepSeek】

スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 名無しさん@お腹いっぱい。 2024/04/23(火) 08:45:23.45 ID:Dp3kS8a9
DeepSeekの新モデルJanusが発表されたで
理解用エンコーダと生成用エンコーダを分けるという斬新なアプローチ
https://arxiv.org/abs/2410.13848

2 AIリサーチャー 2024/04/23(火) 08:47:12.89 ID:Ai9Rs2c4
まさにローマ神話のヤヌスの如く、二つの顔を持つアーキテクチャやな
理解と生成で異なる粒度の特徴が必要って気付いたの素晴らしいわ

3 機械学習エンジニア 2024/04/23(火) 08:49:45.67 ID:ML5En9g2
これ革新的やで
従来のunified modelは理解タスクで性能落ちてたけど、これで解決できる

4 初心者A 2024/04/23(火) 08:51:23.12 ID:Bg7Nn3r5
エンコーダって何ですか?画像をAIが分かる形に変換するってことですか?

5 優しい研究者 2024/04/23(火) 08:53:45.90 ID:Kr2Md5h8
>>4
そうやで。画像をAIが処理しやすい数値の羅列に変換するのがエンコーダや
今回は理解用と生成用で別々のエンコーダを使うことで、それぞれの特性に最適化できるんや

6 コンピュータビジョン専門家 2024/04/23(火) 08:55:34.23 ID:Cv8Px4j1
SigLIPをunderstanding encoderに採用したのは賢い選択やな
高次元の意味表現に強いし

7 NLP研究者 2024/04/23(火) 08:57:12.45 ID:Nl3Qw6m7
unified transformerで処理するアプローチ面白いな
マルチモーダル処理の新しいパラダイムになるかも

8 初心者B 2024/04/23(火) 08:59:23.78 ID:Bg9Kl4p2
>>7
unified transformerって何ですか?

9 システムアーキテクト 2024/04/23(火) 09:01:45.34 ID:Sa5Yt8n6
>>8
簡単に言うと、テキストも画像も同じように扱える処理装置みたいなもんや
今回のモデルの中核部分やね

10 AIスタートアップCTO 2024/04/23(火) 09:03:56.12 ID:Ct7Hd9f3
パラメータ数1.3Bで7B以上のモデルと互角以上の性能出してるの凄いわ
実用面でも価値あるで

11 深層学習研究者 2024/04/23(火) 09:05:34.89 ID:Dl4Fs2k7
実験結果見てるけど、MMBenchで69.4%は衝撃的やな
従来のunifiedモデルの性能の壁を完全に突破してる

12 モデル最適化専門家 2024/04/23(火) 09:07:23.45 ID:Op6Jn1m5
training procedureも良く考えられてるわ
Stage I→II→IIIの流れでgradualに学習進めていくの効果的や

13 AIリサーチャー 2024/04/23(火) 09:09:45.67 ID:Ai9Rs2c4
>>12
せやな。特にStage Iでadaptorだけ更新するの賢い
視覚特徴と言語特徴の橋渡しをうまくやってる

14 機械学習エンジニア 2024/04/23(火) 09:11:12.34 ID:ML5En9g2
ablation studyの結果も興味深いわ
single encoderだとunderstandingタスクで明確に性能落ちるの示されてる

15 データサイエンティスト 2024/04/23(火) 09:13:45.90 ID:Ds2Kp7h4
データセットの構成もええな
Stage IIでImageNet-1kから始めて徐々に複雑なデータに移行してくの効果的や

16 初心者A 2024/04/23(火) 09:15:23.56 ID:Bg7Nn3r5
>>15
ImageNet-1kって何ですか?有名なデータセット?

17 優しい研究者 2024/04/23(火) 09:17:45.23 ID:Kr2Md5h8
>>16
そうや。1000種類のものを分類するための画像データセットで、深層学習では超定番や
基礎的な視覚特徴を学習するのに使われることが多いんや

18 コンピュータビジョン専門家 2024/04/23(火) 09:19:34.78 ID:Cv8Px4j1
生成性能もかなり良いな
FID 8.53はSDXLに迫る数字やで

19 モデルアーキテクト 2024/04/23(火) 09:21:45.34 ID:Ma3Vt6b8
アーキテクチャの拡張性も評価に値するわ
3Dポイントクラウドやオーディオにも対応できる可能性あり

20 システム開発者 2024/04/23(火) 09:23:12.67 ID:Sd4Wn5m9
実装も比較的シンプルやな
特殊なattention maskも使ってへんし

21 NLP研究者 2024/04/23(火) 09:25:45.90 ID:Nl3Qw6m7
>>20
せやな。シンプルイズベストや
複雑な仕組み入れんでも性能出せてるの素晴らしい

22 AIスタートアップCTO 2024/04/23(火) 09:27:23.45 ID:Ct7Hd9f3
商用利用考えるとこのパラメータ数は魅力的やわ
推論コストかなり抑えられる

23 深層学習研究者 2024/04/23(火) 09:29:45.67 ID:Dl4Fs2k7
>>22
せやけど、dual encoderのオーバーヘッドは考慮せなあかんで
まあそれでも総合的に見て効率ええと思うけど

24 モデル最適化専門家 2024/04/23(火) 09:31:34.23 ID:Op6Jn1m5
training効率もなかなかやで
7日で学習完了させてるの速いわ

25 データサイエンティスト 2024/04/23(火) 09:33:45.90 ID:Ds2Kp7h4
>>24
A100 128枚使ってるけどな
まあこの規模のモデルとしては妥当か

26 AIリサーチャー 2024/04/23(火) 09:35:23.56 ID:Ai9Rs2c4
これ今後のマルチモーダルモデルの標準になる可能性あるで
理解と生成で別々のエンコーダ使うの当たり前になりそう

27 機械学習エンジニア 2024/04/23(火) 09:37:45.23 ID:ML5En9g2
>>26
同意や。特にunderstandingの性能改善顕著やしな
従来のunifiedモデルの課題解決できてる

28 初心者B 2024/04/23(火) 09:39:34.78 ID:Bg9Kl4p2
すごそうですけど、これって具体的に何に使えるんですか?

29 優しい研究者 2024/04/23(火) 09:41:45.34 ID:Kr2Md5h8
>>28
例えば画像の内容を理解して質問に答えたり、逆に文章から画像を生成したりできるんや
しかも両方の性能が高いのが特徴やね

30 コンピュータビジョン専門家 2024/04/23(火) 09:43:12.67 ID:Cv8Px4j1
感情認識とか細かい物体検出の精度も良さそうやな
SigLIPの特性活かせてる

31 システムアーキテクト 2024/04/23(火) 09:45:45.90 ID:Sa5Yt8n6
これをベースに各企業が独自の拡張していくんやろなぁ
基礎研究としても応用としても価値高いわ

32 AIスタートアップCTO 2024/04/23(火) 09:47:23.45 ID:Ct7Hd9f3
DeepSeekすごいわ
オープンソースの強さを見せつけてるな

33 モデル最適化専門家 2024/04/23(火) 09:49:45.67 ID:Op6Jn1m5
次は3Dやオーディオへの拡張が楽しみやな
アーキテクチャの柔軟性を活かせそう

34 NLP研究者 2024/04/23(火) 09:51:34.23 ID:Nl3Qw6m7
理論的な美しさもあるよな
taskの性質に応じてencoderを分離するって発想が素晴らしい

35 深層学習研究者 2024/04/23(火) 09:53:45.90 ID:Dl4Fs2k7
結局シンプルな解決策が最強やったってことやな
複雑に考えすぎんのもあかんわ

36 AIリサーチャー 2024/04/23(火) 09:55:23.56 ID:Ai9Rs2c4
一応、従来のunified modelの代表例を挙げとくで:
・Chameleon (34B)
・Show-o (1.3B)
・VILA-U (7B)
これらは全部single encoderやった

37 モデルアーキテクト 2024/04/23(火) 09:57:45.23 ID:Ma3Vt6b8
>>36
Chameleonは特にVQ Tokenizerの限界が顕著やったな
MMBenchとかの理解系タスクでかなり苦戦してた

38 機械学習エンジニア 2024/04/23(火) 09:59:34.78 ID:ML5En9g2
Show-oは1.3Bながら健闘はしてたけど、やっぱり理解タスクに課題あったよな
POPEで73.8%しか出せてへんかった

39 初心者A 2024/04/23(火) 10:01:45.34 ID:Bg7Nn3r5
>>38
POPEってなんですか?

40 優しい研究者 2024/04/23(火) 10:03:12.67 ID:Kr2Md5h8
>>39
Precise Object-grounded Photo Evaluationの略やで
画像内の物体をちゃんと認識できてるか評価するベンチマークや
Janusは87.0%出してて、これは驚異的な数字なんや

41 コンピュータビジョン専門家 2024/04/23(火) 10:05:45.90 ID:Cv8Px4j1
VILA-Uは面白いアプローチしてたで
semantic tokenizerで改善図ろうとしてた
でもやっぱり単一エンコーダの限界あったな

42 データサイエンティスト 2024/04/23(火) 10:07:23.45 ID:Ds2Kp7h4
>>41
せやな。VILA-Uの発想は良かったんやけど
結局理解と生成でtrade-offが発生してしまう

43 システムアーキテクト 2024/04/23(火) 10:09:45.67 ID:Sa5Yt8n6
従来モデルの課題まとめると:
1. 理解タスクでの性能限界
2. エンコーダでのtrade-off
3. 表現力の制約
これをJanusは一気に解決したんやな

44 初心者B 2024/04/23(火) 10:11:34.23 ID:Bg9Kl4p2
>>43
trade-offって具体的にどういう意味ですか?

45 優しい研究者 2024/04/23(火) 10:13:45.90 ID:Kr2Md5h8
>>44
簡単に言うと「あっちを立てればこっちが立たず」みたいな状況や
従来モデルだと、理解性能上げようとすると生成性能下がるし、その逆もあった
これをJanusは解決したってことやね

46 AIリサーチャー 2024/04/23(火) 10:15:23.56 ID:Ai9Rs2c4
特にChameleonのパラメータ数(34B)考えるとJanusの効率よさヤバいな
1.3Bで圧倒的な性能出せてる

47 モデル最適化専門家 2024/04/23(火) 10:17:45.23 ID:Op6Jn1m5
結局アーキテクチャの工夫が大事ってことやな
ただパラメータ数増やせば良いってもんやないで

48 初心者A 2024/04/23(火) 10:19:34.78 ID:Bg7Nn3r5
みんな詳しそうだから聞きたいんですけど、SigLIPって何ですか?
論文中でunderstanding encoderに使ってるって書いてありましたけど…

49 コンピュータビジョン専門家 2024/04/23(火) 10:21:45.34 ID:Cv8Px4j1
>>48
Sigmoid Loss for Language Image Pretrainingの略やで
Googleが開発した視覚言語モデルや
特徴としては:
・sigmoid lossを使って学習効率上げてる
・大規模データセットで事前学習済み
・高次元の意味理解に強い

50 AIリサーチャー 2024/04/23(火) 10:23:12.67 ID:Ai9Rs2c4
EVA-CLIPと比べても遜色ない性能出せるんよな
JanusがSigLIP採用したのは賢い選択やった

51 機械学習エンジニア 2024/04/23(火) 10:25:45.90 ID:ML5En9g2
>>49
それに加えて計算コストもCLIPと比べて抑えられてるんや
推論速度重視のJanusと相性ええわ

52 初心者B 2024/04/23(火) 10:27:23.45 ID:Bg9Kl4p2
>>49
CLIPって何ですか?よく聞く気がします

53 優しい研究者 2024/04/23(火) 10:29:45.67 ID:Kr2Md5h8
>>52
Contrastive Language-Image Pre-trainingの略や
画像とテキストの関係性を学習する先駆的なモデルなんや
OpenAIが開発して、今では業界標準的な存在になってる

54 データサイエンティスト 2024/04/23(火) 10:31:34.23 ID:Ds2Kp7h4
SigLIPのアーキテクチャ見るとViT-Lがバックボーンになってて
patch size 16でimage size 384やな
理解タスクにちょうどええ解像度や

55 システムアーキテクト 2024/04/23(火) 10:33:45.90 ID:Sa5Yt8n6
>>54
せやな。384×384はコスパ良い
高解像度にこだわりすぎると計算コスト跳ね上がるしな

56 モデルアーキテクト 2024/04/23(火) 10:35:23.56 ID:Ma3Vt6b8
SigLIPのもう一つの利点は安定性やな
学習がCLIPより安定してるって報告多いで

57 AIスタートアップCTO 2024/04/23(火) 10:37:45.23 ID:Ct7Hd9f3
>>56
それな。production環境考えると安定性クッソ重要や
SigLIP採用は実用面でも正解やったな

58 深層学習研究者 2024/04/23(火) 10:39:34.78 ID:Dl4Fs2k7
sigmoid lossの効果も見逃せんで
従来のcontrastive lossより学習効率いいし
特に小規模データでも強い

59 NLP研究者 2024/04/23(火) 10:41:45.34 ID:Nl3Qw6m7
>>58
確かにその通りや
理論的にも綺麗な解決策やったよな
勾配も安定してるし

60 初心者A 2024/04/23(火) 10:43:12.67 ID:Bg7Nn3r5
>>58
sigmoid lossってなんですか?数式とか出てきますか?

61 優しい研究者 2024/04/23(火) 10:45:45.90 ID:Kr2Md5h8
>>60
簡単に言うと、モデルの学習方法の一つや
数式は出てくるけど、要は「どれくらい正解に近いか」を0-1の間の数値で表現する方法なんや
CLIPの場合は相対的な比較やったけど、SigLIPは絶対的な評価ができる

62 コンピュータビジョン専門家 2024/04/23(火) 10:47:23.45 ID:Cv8Px4j1
結論として、JanusがSigLIP採用したのは:
・高い理解性能
・計算効率の良さ
・学習安定性
この3点が決め手やったんやろな

63 初心者A 2024/04/23(火) 10:49:45.67 ID:Bg7Nn3r5
unified transformerとvision transformerの違いがよく分からないです
どう違うんですか?

64 AIリサーチャー 2024/04/23(火) 10:51:34.23 ID:Ai9Rs2c4
>>63
簡単に説明すると:

Vision Transformer (ViT)
・画像専用
・画像をパッチに分割して処理
・位置情報を埋め込んで学習

Unified Transformer
・画像もテキストも処理可能
・マルチモーダル処理が得意
・異なる入力形式を統一的に扱える

65 システムアーキテクト 2024/04/23(火) 10:53:45.90 ID:Sa5Yt8n6
>>64
補足すると、Janusの場合はUnified Transformerをバックボーンに使って
理解用と生成用の特徴量を同じ土俵で処理してるんや

66 機械学習エンジニア 2024/04/23(火) 10:55:23.56 ID:ML5En9g2
ViTはGoogleが2020年に発表した革新的なモデルやったな
CNNからTransformerへのパラダイムシフトの先駆けや

67 初心者B 2024/04/23(火) 10:57:45.23 ID:Bg9Kl4p2
>>66
CNNって何ですか?

68 優しい研究者 2024/04/23(火) 10:59:34.78 ID:Kr2Md5h8
>>67
Convolutional Neural Networkの略で、画像認識の伝統的な手法や
画像の特徴を畳み込み演算で抽出するんや
ViTはその概念を覆して、Transformerで直接画像処理できることを示した

69 NLP研究者 2024/04/23(火) 11:01:45.34 ID:Nl3Qw6m7
Unified Transformerの面白いところは、
異なるモダリティのトークンを同じ空間で扱えることやな
これによって複雑なマルチモーダルタスクが解けるようになった

70 データサイエンティスト 2024/04/23(火) 11:03:12.67 ID:Ds2Kp7h4
>>69
せやな。例えば:
・画像の説明文生成
・画像に基づく質問応答
・テキストからの画像生成
全部同じモデルでできるってのが革新的やった

71 モデルアーキテクト 2024/04/23(火) 11:05:45.90 ID:Ma3Vt6b8
Janusの良いところは、encoderは分けつつも
transformer部分は統一してるところやな
これでend-to-end学習が可能になってる

72 コンピュータビジョン専門家 2024/04/23(火) 11:07:23.45 ID:Cv8Px4j1
結局、transformer architectureの汎用性の高さを
うまく活かした設計になってるよな
これぞモダンなアーキテクチャや

73 AIスタートアップCTO 2024/04/23(火) 11:09:45.67 ID:Ct7Hd9f3
これ見てると、deep learningの進化って面白いよな
CNNからViT、そしてUnified Transformerへ
どんどん抽象化・一般化が進んでる

74 深層学習研究者 2024/04/23(火) 11:11:34.23 ID:Dl4Fs2k7
>>73
せやな。しかも処理効率も上がってるのが凄い
Unified Transformerの登場で実用的なマルチモーダルAIが現実のものになった

75 システムアーキテクト 2024/04/23(火) 11:13:45.90 ID:Sa5Yt8n6
アーキテクチャの進化まとめると:

CNN → 画像特化
ViT → 画像をTransformerで
Unified Transformer → マルチモーダル統合
Janus → 特化と統合の両立

こんな感じやな

76 初心者A 2024/04/23(火) 11:15:23.56 ID:Bg7Nn3r5
Stage I→II→IIIってどういう流れなんですか?
論文に書いてあるみたいですけど、よく分からないです

77 モデル最適化専門家 2024/04/23(火) 11:17:45.23 ID:Op6Jn1m5
>>76
ステージごとに説明するで:

Stage I: Adaptorの学習
・視覚特徴と言語特徴の橋渡しを学習
・エンコーダとLLMは固定
・シンプルなタスクで基礎を作る

Stage II: 統合的な事前学習
・LLMも含めて全体を学習
・複数のタスクを同時に学習
・徐々に複雑なデータを導入

Stage III: 教師あり微調整
・指示対応能力の向上
・対話能力の強化
・実用的なタスクへの適応

78 AIリサーチャー 2024/04/23(火) 11:19:34.78 ID:Ai9Rs2c4
特にStage Iの設計が秀逸やな
最初はadaptorだけ更新して基礎固めるの、理にかなってる

79 機械学習エンジニア 2024/04/23(火) 11:21:45.34 ID:ML5En9g2
>>78
せやな。カリキュラム学習的な発想や
簡単なとこから徐々に難しくしていく

80 初心者B 2024/04/23(火) 11:23:12.67 ID:Bg9Kl4p2
>>77
Adaptorって何ですか?

81 優しい研究者 2024/04/23(火) 11:25:45.90 ID:Kr2Md5h8
>>80
Adaptorは特徴量の変換器みたいなもんや
画像の特徴量をLLMが理解できる形式に変換する役割があるんや
Stage Iではここを重点的に調整して、基礎となる変換能力を身につけさせる

82 データサイエンティスト 2024/04/23(火) 11:27:23.45 ID:Ds2Kp7h4
Stage IIのデータ構成も工夫されてるで:
・テキストのみ
・画像キャプション
・テーブル/チャート
・視覚生成
これらをバランスよく混ぜてる

83 コンピュータビジョン専門家 2024/04/23(火) 11:29:45.67 ID:Cv8Px4j1
>>82
ImageNet-1kから始めて徐々に複雑なデータに移行してくのも効果的やな
ベースとなる視覚特徴をしっかり学習できる

84 システムアーキテクト 2024/04/23(火) 11:31:34.23 ID:Sa5Yt8n6
Stage IIIでの instruction tuningも重要や
実際のユースケースを想定した対話形式の学習で
実用性高めてる

85 NLP研究者 2024/04/23(火) 11:33:45.90 ID:Nl3Qw6m7
論文のTable 1見ると、各Stageでの
ハイパーパラメータ設定も丁寧やな
特にデータ比率の調整が面白い

86 モデルアーキテクト 2024/04/23(火) 11:35:23.56 ID:Ma3Vt6b8
Stage IIIでgeneration encoderを固定してるのも
理にかなってるな。この時点で生成能力は
十分に獲得できてるってことや

87 AIスタートアップCTO 2024/04/23(火) 11:37:45.23 ID:Ct7Hd9f3
このトレーニングパイプライン、商用展開考えても
再現性高そうやな
段階的に能力獲得していくの、安定してそう

88 深層学習研究者 2024/04/23(火) 11:39:34.78 ID:Dl4Fs2k7
>>87
せやな。7日で学習完了できるのも
この3ステージ構成のおかげやろ
無駄のない設計になってる

89 モデル最適化専門家 2024/04/23(火) 11:41:45.34 ID:Op6Jn1m5
結論として、この3ステージ構成は:
1. 基礎固め
2. 総合力向上
3. 実用化対応
って感じで、理想的な学習カリキュラムになってるな

90 初心者A 2024/04/23(火) 11:43:12.67 ID:Bg7Nn3r5
>>23を見返してたんですけど、dual encoderのオーバーヘッドって何ですか?
デメリットってことですか?

91 システムアーキテクト 2024/04/23(火) 11:45:45.90 ID:Sa5Yt8n6
>>90
そうや。dual encoder(2つのエンコーダ)を使うことによる追加コストのことや
具体的には:
・計算量の増加
・メモリ使用量の増加
・推論時間の増加
これらがオーバーヘッドとして発生する

92 AIリサーチャー 2024/04/23(火) 11:47:23.45 ID:Ai9Rs2c4
でも実際のところ、そこまで深刻な問題ではないんよな
理解用と生成用で同時に両方のエンコーダを使うケース少ないし
用途に応じて使い分けられる

93 機械学習エンジニア 2024/04/23(火) 11:49:34.78 ID:ML5En9g2
実際の数字で見てみると:
Single Encoder: メモリ約XGB
Dual Encoder: メモリ約1.4X GB
増加率としては許容範囲やな

94 データサイエンティスト 2024/04/23(火) 11:51:45.34 ID:Ds2Kp7h4
>>93
実行時間も:
理解タスク時 +15%程度
生成タスク時 +10%程度
まあ性能向上考えたら安いもんや

95 モデルアーキテクト 2024/04/23(火) 11:53:23.56 ID:Ma3Vt6b8
オーバーヘッド減らす工夫もできるで:
・量子化
・プルーニング
・キャッシング
これらの最適化テクで更に効率上げられる

96 初心者B 2024/04/23(火) 11:55:45.90 ID:Bg9Kl4p2
>>95
量子化って何ですか?

97 優しい研究者 2024/04/23(火) 11:57:34.23 ID:Kr2Md5h8
>>96
モデルの重みを、精度をある程度保ちながら
より少ないビット数で表現する技術や
例えば32bitの値を8bitに変換して
メモリ使用量を減らすんや

98 コンピュータビジョン専門家 2024/04/23(火) 11:59:45.67 ID:Cv8Px4j1
実運用では、ほとんどの場合
オーバーヘッドより性能向上の方が重要やしな
特にunderstandingタスクの性能改善は目覚ましい

99 AIスタートアップCTO 2024/04/23(火) 12:01:23.45 ID:Ct7Hd9f3
>>98
そうそう。ビジネス的に見ても
性能/コスト比で考えたら
dual encoderの方が断然有利や

100 深層学習研究者 2024/04/23(火) 12:03:45.90 ID:Dl4Fs2k7
結論:オーバーヘッドはあるけど
・許容範囲内
・最適化の余地あり
・性能向上が上回る
って感じやな

これが次世代標準になる可能性は十分にある

論文PDF

 原文

  日本語訳


キーワード

このスレのキーワードをスペース区切りで重要な用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

画像生成 Janus Unified_Transformer Dual_Encoder SigLIP

いいなと思ったら応援しよう!