NVIDIA Nemo| 第1回
この記事を書いたのは 山岡さん.
1. この記事から理解できることは?
NVIDIA Nemoとは何か
NVIDA Nemoで出来ること
2. NVDIA Nemoとは?
NeMoは、会話型AIアプリケーションを作成するためのオープンソースのPythonツールキット。
NeMoツールキットは、再利用可能なコンポーネントであるNeural Modulesを用いて、会話型AIのための複雑なニューラルネットワークアーキテクチャを研究者が簡単に構成することが出来ます。(この点がめちゃくちゃ助かります。)
言い換えれば、研究者や開発者、クリエイターは、独自のアプリケーション向けに音声モデルを試用したり、微調整を行うことで、スムーズに開発を開始出来ます。
NVIDIA NeMoは、Mozilla Common Voiceで学習したモデルをNGCを通じて提供している。Mozilla Common Voiceは、約14,000時間に上り、クラウドで収集された音声データによるデータセットで、70以上の言語が提供されています。このプロジェクト自体は、音声データセットによって誰でも音声技術を利用できるようにすることを目的としています。
Neural Modulesは、特定の入力を受け取り、特定の出力を生成するニューラルネットの概念的なブロックです。このようなModuleには通常、データレイヤー、エンコーダ、デコーダ、言語モデル、損失関数、または活性化の結合方法が含まれています。
NeMoは、NVIDIAのTensor Coreを利用し、複数のGPUと複数のノードにトレーニングをスケールアウトすることも可能です。
3. NVDIA Nemoで出来ることは?
Nemoでは大きく分けると以下の3つの分野に分かれています。
Speech Processing
NLP(Natural Language Processing)
TTS(Text To Speech)
それぞれの分野の概要としては
概要からも分かるようにSpeech Procrssingには様々な問が含まれており、Nemoでは
の6題に対するモデルが提供されている。
提供されているモデルを組み合わせせることで様々な問に挑戦したり、解決することが出来る。
例えば、TTSの技術を用いて、音素のバランスが良い例文を発話させたデータを作成し、そのデータを用いてASRのモデルをFine Tuneすることなどである。
ここで提供されているモデルを試して結果を今後少しづつ共有できたらと思っています。
楽しみにしていただけたらと思います。
4. まとめ
次回はNemoで提供されているモデルの内、Speaker Diarizationのモデルの実力を測るための実験とその結果を整理していきます。