【朗報】音声認識の最新論文Moonshine、ガチで革新的


スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 12:34:56.78 ID:abc1234d
Whisperの5倍も早くなる音声認識モデルMoonshineの論文出たで
https://arxiv.org/abs/2410.15608

2 名前:音声処理研究者[] 投稿日:2024/10/30(水) 12:35:34.12 ID:res789gh
これマジですごいで
30秒以下の音声を処理する時に無駄な計算せんでええようになってる
ワイらの研究室でも似たようなこと考えてたけど先を越されたわ

3 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 12:36:12.45 ID:new567jk
なにがすごいんや?ワイにもわかるように説明してクレメンス

4 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 12:37:23.89 ID:ml9876po
>>3
今までの音声認識って30秒分の計算量が必要やったんや
例えば「おはよう」って2秒の音声でも30秒分の計算してた
これを実際の長さだけの計算で済むようにしたんや

5 名前:深層学習研究者[] 投稿日:2024/10/30(水) 12:38:45.67 ID:dlp432qr
RoPE使ってるのが賢いわね
位置エンコーディングの問題を解決できてる

6 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 12:39:11.23 ID:new567jk
>>4
なるほど!無駄な計算せんでええようになったんか!

7 名前:音声認識ベンチャーCTO[] 投稿日:2024/10/30(水) 12:40:33.45 ID:cto111st
これは革新的やね
特に低遅延が重要な用途には朗報や
字幕とかリアルタイム通訳とかにめっちゃ使えそう

8 名前:組み込みエンジニア[] 投稿日:2024/10/30(水) 12:41:56.78 ID:emb555uv
パラメータ数も減ってるのがエッジデバイスには嬉しいわ
tinyモデルで27.1Mってかなりコンパクト

9 名前:初心者プログラマー[] 投稿日:2024/10/30(水) 12:42:34.12 ID:beg999wx
ワイ「これ実装できる気せえへん...」

10 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 12:43:45.67 ID:nlp777yz
トークナイザーにLlamaと同じBPE使ってるのも興味深いね
ASRでこれ使うの珍しいけど理にかなってる

11 名前:音響モデル専門家[] 投稿日:2024/10/30(水) 12:44:56.89 ID:aco444ab
畳み込み層の設計が秀逸やな
stem部分で384倍圧縮してるのがミソや

12 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 12:45:23.45 ID:abc1234d
なんJ民の知識レベル高すぎて草

13 名前:深層学習研究者[] 投稿日:2024/10/30(水) 12:46:34.78 ID:dlp432qr
でもEarnings22データセットでの性能低下が気になるな
短い発話の処理があまり上手くない

14 名前:音声処理研究者[] 投稿日:2024/10/30(水) 12:47:45.12 ID:res789gh
>>13
確かに。training setに1秒以下の音声が0.5%しかないのが原因やろね
もっと短い音声のデータ増やせば改善しそう

15 名前:初心者エンジニア[] 投稿日:2024/10/30(水) 12:48:23.56 ID:nov333cd
みんな頭良すぎやろ...
ワイなんもわからん

16 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 12:49:34.89 ID:ml9876po
>>15
むしろ今までの方が無駄な計算してただけやで
シンプルな改善や!

17 名前:音声認識ベンチャーCTO[] 投稿日:2024/10/30(水) 12:50:45.23 ID:cto111st
ノイズへの頑健性もWhisperと同等以上なのがすごいわ
9-17dBのSNRでも性能維持できてる

18 名前:組み込みエンジニア[] 投稿日:2024/10/30(水) 12:51:56.78 ID:emb555uv
>>17
ファンノイズのテストが現実的でええよな
実際の使用環境を想定してる

19 名前:深層学習研究者[] 投稿日:2024/10/30(水) 12:52:34.12 ID:dlp432qr
AdamWのschedule-free版使ってるのも面白い
最新の知見取り入れてるな

20 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 12:53:45.67 ID:nlp777yz
データの前処理もかなり工夫してるね
Whisper large v3使って擬似ラベル作ってるのが賢い

21 名前:音響モデル専門家[] 投稿日:2024/10/30(水) 12:54:56.89 ID:aco444ab
32xのH100使ってる辺り、計算資源には恵まれとるな
羨ましいわ

22 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 12:55:23.45 ID:new567jk
なんで名前がMoonshineなんや?

23 名前:音声処理研究者[] 投稿日:2024/10/30(水) 12:56:34.78 ID:res789gh
>>22
論文の脚注に書いてあるで
最初はWhisperのdistillationを試みてたからその名前になったらしい

24 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 12:57:45.12 ID:ml9876po
これGPUの値段考えたらablation studyできひんの分かるわ
もっと実験したかったやろうに

25 名前:深層学習研究者[] 投稿日:2024/10/30(水) 12:58:56.34 ID:dlp432qr
>>24
せやな。SHAMPOOとかSOAP使った実験もしたかったんやろうけど
予算の制約は研究者の宿命や...

26 名前:音声認識ベンチャーCTO[] 投稿日:2024/10/30(水) 12:59:34.56 ID:cto111st
オープンソースな点も素晴らしいわ
コミュニティに還元する姿勢、好感持てる

27 名前:組み込みエンジニア[] 投稿日:2024/10/30(水) 13:00:45.78 ID:emb555uv
>>26
x-transformersライブラリベースなんもええよな
既存の優れたツールを活用する姿勢が良い

28 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 13:01:56.89 ID:nlp777yz
今後はマルチリンガル対応が期待されるな
special tokens追加してる辺り、その準備してそう

29 名前:音響モデル専門家[] 投稿日:2024/10/30(水) 13:02:34.12 ID:aco444ab
>>28
確かに。32000語彙に768トークン追加してるの
そのためかもしれんな

30 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 13:03:45.67 ID:abc1234d
結局なんJ民って知識の塊やったんやな
感動したわ

31 名前:音声処理研究者[] 投稿日:2024/10/30(水) 13:04:56.89 ID:res789gh
これを機にリアルタイム音声認識の研究がもっと活発になるとええな
まだまだ改善の余地はあるで

32 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 13:05:23.45 ID:ml9876po
ワイも明日から研究頑張るわ
こういう論文見ると刺激になるわ

33 名前:深層学習研究者[] 投稿日:2024/10/30(水) 13:06:34.78 ID:dlp432qr
良い議論できたな
たまにはこういう真面目な話もええもんや

34 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 13:07:45.12 ID:new567jk
なんJ民の知的な一面見られて良かったわ
ありがとうニキら!

35 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 13:08:56.34 ID:new567jk
RoPEって何が賢いんや?詳しく教えてクレメンス

36 名前:深層学習研究者[] 投稿日:2024/10/30(水) 13:09:34.56 ID:dlp432qr
Whisperが使ってた絶対位置エンコーディングだと、30秒固定の入力しか扱えへんかったんや
RoPEなら可変長に対応できる上に、相対的な位置関係もうまく学習できる

37 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 13:10:45.78 ID:nlp777yz
>>36
そうそう。RoPEは回転行列使って位置情報を埋め込むんやけど
これが入力長に依存せんのがミソなんや

38 名前:音声処理研究者[] 投稿日:2024/10/30(水) 13:11:56.89 ID:res789gh
数学的に美しい解決方法よな
exp(iθ)で回転させる発想が天才的や

39 名前:初心者プログラマー[] 投稿日:2024/10/30(水) 13:12:34.12 ID:beg999wx
回転って何が回転しとるんや...?

40 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 13:13:45.67 ID:ml9876po
>>39
ベクトルを複素平面上で回転させてるんや
簡単に言うと、位置が離れるほど回転角度が大きくなる
これで相対的な距離を表現できる

41 名前:組み込みエンジニア[] 投稿日:2024/10/30(水) 13:14:56.89 ID:emb555uv
計算コストも抑えられるのが素晴らしいわ
メモリ効率もええし、推論が軽い

42 名前:深層学習研究者[] 投稿日:2024/10/30(水) 13:15:23.45 ID:dlp432qr
>>41
せやな。外積の計算で実装できるから
GPUでの並列化も効きやすい

43 名前:音響モデル専門家[] 投稿日:2024/10/30(水) 13:16:34.78 ID:aco444ab
位置情報の外挿性能も良好やしな
学習時より長いシーケンスでも破綻せん

44 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 13:17:45.12 ID:new567jk
なるほど...?(わかってない顔)

45 名前:音声認識ベンチャーCTO[] 投稿日:2024/10/30(水) 13:18:56.34 ID:cto111st
>>44
要はこれのおかげで、どんな長さの音声でも
スムーズに処理できるようになったってことや!

46 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 13:19:34.56 ID:new567jk
>>45
あっ!そういうことか!
柔軟に対応できるようになったんやな!

47 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 13:20:45.78 ID:nlp777yz
RoPEはLlamaでも使われとるしな
最近の言語モデルのデファクトスタンダードになりつつある

48 名前:音声処理研究者[] 投稿日:2024/10/30(水) 13:21:56.89 ID:res789gh
>>47
音声認識でも使えるって証明したの、
このMoonshine論文の貢献の一つやな

49 名前:深層学習研究者[] 投稿日:2024/10/30(水) 13:22:34.12 ID:dlp432qr
これで字幕生成とかの遅延も大幅に改善されるで
エッジデバイスでの実用性が一気に上がる

50 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 13:23:45.67 ID:ml9876po
理論と実用性の両立が見事やわ
こういう研究好きや</antArtifact>

51 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 13:24:56.34 ID:new567jk
BPEって何なんや?論文に出てきたけどようわからん

52 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 13:25:34.56 ID:nlp777yz
Byte Pair Encodingの略やで
テキストを効率的に分割する手法なんや
例えば「playing」を「play」と「ing」に分けるみたいな

53 名前:初心者プログラマー[] 投稿日:2024/10/30(水) 13:26:45.78 ID:beg999wx
なんでそんなことせなあかんのや?

54 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 13:27:56.89 ID:ml9876po
>>53
語彙を小さく抑えられるんや
例えば「player」「playing」「played」全部覚えるんじゃなくて
「play」+「er」「ing」「ed」で対応できる

55 名前:深層学習研究者[] 投稿日:2024/10/30(水) 13:28:34.12 ID:dlp432qr
音声認識でBPE使うのが面白いわ
普通はWordPieceとか使うことが多いんやけど

56 名前:音声認識ベンチャーCTO[] 投稿日:2024/10/30(水) 13:29:45.67 ID:cto111st
>>55
Llamaと同じトークナイザー使うことで
将来的にLLMと組み合わせやすくなるってのもあるかもな

57 名前:音響モデル専門家[] 投稿日:2024/10/30(水) 13:30:56.89 ID:aco444ab
BPEのバイトレベルってのがミソやな
Unicode文字も上手く扱える

58 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 13:31:34.56 ID:new567jk
未知の単語とかも対応できるんか?

59 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 13:32:45.78 ID:nlp777yz
>>58
そうや!例えば「anticontemplating」みたいな見たことない単語でも
「anti」「con」「tem」「plat」「ing」みたいに分解できる
だから柔軟に対応できるんや

60 名前:音声処理研究者[] 投稿日:2024/10/30(水) 13:33:56.89 ID:res789gh
これ地味に革新的やで
音声認識の出力層でBPE使うって発想が斬新

61 名前:組み込みエンジニア[] 投稿日:2024/10/30(水) 13:34:34.12 ID:emb555uv
メモリ効率もええしな
32768個のサブワードで大体の単語カバーできる

62 名前:深層学習研究者[] 投稿日:2024/10/30(水) 13:35:45.67 ID:dlp432qr
>>61
そうそう、Whisperの51865トークンより少なくて済むんや
その分モデルもスリムになる

63 名前:初心者プログラマー[] 投稿日:2024/10/30(水) 13:36:56.89 ID:beg999wx
なるほど!単語を分解して効率よくするんやな!

64 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 13:37:34.56 ID:ml9876po
>>63
そうや!コンピュータ的に言うと
データ圧縮みたいなもんやな

65 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 13:38:45.78 ID:nlp777yz
これで音声認識もLLMも同じ語彙使えるようになるのが
地味に重要な進歩やと思うわ

66 名前:音声認識ベンチャーCTO[] 投稿日:2024/10/30(水) 13:39:56.89 ID:cto111st
もしかしたらマルチモーダルなシステムへの
布石かもしれんな</antArtifact>

67 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 13:40:34.12 ID:new567jk
ablation studyってなんや?論文に「リソース制約でできなかった」って書いてあったけど

68 名前:深層学習研究者[] 投稿日:2024/10/30(水) 13:41:45.67 ID:dlp432qr
モデルの各要素を一個ずつ取り除いて実験するんや
例えば「RoPEなしやとどうなる?」「畳み込み層減らしたらどうなる?」みたいな

69 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 13:42:56.89 ID:ml9876po
要は「この部品必要なんか?」って実験や
でも1回の実験に32台のH100必要やからなあ...
お値段にして1実験800万円くらいかかる

70 名前:初心者プログラマー[] 投稿日:2024/10/30(水) 13:43:34.56 ID:beg999wx
ヒエッ...そんな金かかるんか...

71 名前:音響モデル専門家[] 投稿日:2024/10/30(水) 13:44:45.78 ID:aco444ab
>>69
せやな。ワイらの研究室でも予算の制約でablation全部できひんことあるわ
「これ入れた方がよさそう」って直感だけで進めなあかんときもある

72 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 13:45:56.89 ID:nlp777yz
医学用語のablation(切除)からきとるんやで
臓器の一部取って機能調べるみたいなイメージや

73 名前:風吹けば名無し[] 投稿日:2024/10/30(水) 13:46:34.12 ID:new567jk
なるほど!要素を一個ずつ取り除いて実験するんか!
でも高すぎて草

74 名前:音声認識ベンチャーCTO[] 投稿日:2024/10/30(水) 13:47:45.67 ID:cto111st
正直、大企業かVC系のスタートアップじゃないと
フルのablation studyは難しいよな...

75 名前:組み込みエンジニア[] 投稿日:2024/10/30(水) 13:48:56.89 ID:emb555uv
>>74
Lambda Labsのクラウド使っても1実験100万円くらいやしな
研究の民主化が課題やわ

76 名前:深層学習研究者[] 投稿日:2024/10/30(水) 13:49:34.56 ID:dlp432qr
でも論文の著者らは限られた予算の中で
重要な実験に絞って上手くやったと思うで
特にノイズ耐性の検証は実用的やった

77 名前:音声処理研究者[] 投稿日:2024/10/30(水) 13:50:45.78 ID:res789gh
>>76
せやな。ファンノイズのテストとか
実際のユースケース想定できてる
無駄な実験せんかったのはエライ

78 名前:機械学習エンジニア[] 投稿日:2024/10/30(水) 13:51:56.89 ID:ml9876po
SHAMPOOとかSOAPのオプティマイザー実験も
やりたかったんやろうけどな...
それだけで追加で数千万円や

79 名前:初心者プログラマー[] 投稿日:2024/10/30(水) 13:52:34.12 ID:beg999wx
ワイらには手が出んレベルの研究なんやな...

80 名前:自然言語処理研究者[] 投稿日:2024/10/30(水) 13:53:45.67 ID:nlp777yz
>>79
まあでも彼らの研究のおかげで
実装は誰でも使えるようになるんや
オープンソース最高や

81 名前:音響モデル専門家[] 投稿日:2024/10/30(水) 13:54:56.89 ID:aco444ab
結果オーライやな
必要最小限の実験で最大の成果出せたわ
これぞ研究の腕の見せ所や</antArtifact>


論文PDF

 原文


  日本語訳


キーワード

このスレのキーワードをスペース区切りで重要な用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

Moonshine RoPE Byte_Pair_Encoding ablation_study Whisper

いいなと思ったら応援しよう!