M5Atom Echoでテキストを喋らせる方法

高知のIoT屋

2024年6月2日 22:28

テキストから音声ファイルを作成し、マイコンに埋め込める形に変換し、M5Atom Echoでテキストを喋らせる方法をまとめます。

1. 背景と目的

ボタンを押すと特定のテキストを喋るデバイスの製作依頼を受け、その製作過程をまとめます。

2. M5Atom Echoでテキストを喋らせる

プロトタイピング段階では、ボタンとスピーカーがついたデバイスである、M5 Atom Echoを使用することにしました。

出典：https://www.switch-science.com/products/6347

3. gttsライブラリで機械音声を作成

gttsは、Google Text-to-Speechを利用してテキストから音声を生成するためのPythonライブラリです。gttsを使用すると、簡単にテキストを音声ファイル（MP3形式）に変換できます。

以下のコマンドをターミナルやコマンドプロンプトで実行して、gttsをインストールします。

pip install gtts

以下の例は、gttsを使って「こんにちは」というテキストを音声ファイルに変換する方法です。

from gtts import gTTS

# 出力する音声のテキスト
text = "こんにちは"

# gTTSオブジェクトの作成
tts = gTTS(text=text, lang='ja')

# 音声ファイルの保存
tts.save("hello.mp3")

print("音声ファイルが生成されました: hello.mp3")

4. mp3ファイルをwavファイルに変換

下記ツールが簡単で使いやすかったです。
https://online-audio-converter.com/ja/

ファイルを開くをクリックしてmp3を読み込み、wavを選択し、詳細設定で16000kHz、チャンネル数1を選択しました。あとは変換ボタンを押すだけで出力されます。

5. wavファイルをマイコンに埋め込める形式に変換

Lang-shipさんが作られた下記サービスを利用しました。
https://lang-ship.com/tools/wav2data/

wavファイルをアップロードし、データ名を決め、ボリュームをここでは50%とし、送信ボタンを押します。すると、出力データ欄に出力されます。あとは、出力データをコピーし、例えばwav.hで保存します。

6. プログラムの作成

これも、Lang-shipさんのプログラムを参考にさせて頂きました。元のプログラムは5つのwavファイルをランダムに再生するものですが、1つのwavファイルを再生するよう変更しました。これをM5Atom echoに書き込みます。すると、M5Atom echoのボタンを押すと、指定したテキストを喋ってくれます。

#include <driver/i2s.h>
#include <M5Atom.h>

#include "wav.h"

#define CONFIG_I2S_BCK_PIN      19
#define CONFIG_I2S_LRCK_PIN     33
#define CONFIG_I2S_DATA_PIN     22
#define CONFIG_I2S_DATA_IN_PIN  23

#define SPEAKER_I2S_NUMBER      I2S_NUM_0

#define MODE_MIC                0
#define MODE_SPK                1

void InitI2SSpeakerOrMic(int mode)
{
  esp_err_t err = ESP_OK;

  i2s_driver_uninstall(SPEAKER_I2S_NUMBER);
  i2s_config_t i2s_config = {
    .mode                 = (i2s_mode_t)(I2S_MODE_MASTER),
    .sample_rate          = 16000,
    .bits_per_sample      = I2S_BITS_PER_SAMPLE_16BIT,
    .channel_format       = I2S_CHANNEL_FMT_ALL_RIGHT,
    .communication_format = I2S_COMM_FORMAT_I2S,
    .intr_alloc_flags     = ESP_INTR_FLAG_LEVEL1,
    .dma_buf_count        = 6,
    .dma_buf_len          = 60,
    .use_apll             = false,
    .tx_desc_auto_clear   = true,
    .fixed_mclk           = 0
  };
  if (mode == MODE_MIC)
  {
    i2s_config.mode = (i2s_mode_t)(I2S_MODE_MASTER | I2S_MODE_RX | I2S_MODE_PDM);
  }
  else
  {
    i2s_config.mode = (i2s_mode_t)(I2S_MODE_MASTER | I2S_MODE_TX);
  }

  err += i2s_driver_install(SPEAKER_I2S_NUMBER, &i2s_config, 0, NULL);

  i2s_pin_config_t tx_pin_config = {
    .bck_io_num           = CONFIG_I2S_BCK_PIN,
    .ws_io_num            = CONFIG_I2S_LRCK_PIN,
    .data_out_num         = CONFIG_I2S_DATA_PIN,
    .data_in_num          = CONFIG_I2S_DATA_IN_PIN,
  };
  err += i2s_set_pin(SPEAKER_I2S_NUMBER, &tx_pin_config);

  if (mode != MODE_MIC) {
    err += i2s_set_clk(SPEAKER_I2S_NUMBER, 16000, I2S_BITS_PER_SAMPLE_16BIT, I2S_CHANNEL_MONO);
  }

  i2s_zero_dma_buffer(SPEAKER_I2S_NUMBER);
}

void setup() {
  M5.begin(true, false, true);
  delay(50);
  Serial.println();
  M5.dis.drawpix(0, CRGB(128, 128, 0));
  InitI2SSpeakerOrMic(MODE_MIC);
  delay(2000);
}

void loop() {
  if (M5.Btn.isPressed())
  {
    size_t bytes_written;

    M5.dis.drawpix(0, CRGB(0, 128, 0));

    InitI2SSpeakerOrMic(MODE_SPK);

    // Write Speaker
    i2s_write(SPEAKER_I2S_NUMBER, wav, sizeof(wav), &bytes_written, portMAX_DELAY);
    i2s_zero_dma_buffer(SPEAKER_I2S_NUMBER);

    // Set Mic Mode
    InitI2SSpeakerOrMic(MODE_MIC);

    M5.dis.drawpix(0, CRGB(128, 128, 0));
  }

  M5.update();
}

なお、下記の「wav」が、wavファイルからの変換時に指定したデータ名となります。

i2s_write(SPEAKER_I2S_NUMBER, wav, sizeof(wav), &bytes_written, portMAX_DELAY);

7. まとめと今後の課題

このプロトタイピングを通じて
・gttsライブラリで、テキストから音声ファイルを出力することができること
・それをマイコンに埋め込める形に変換すると、マイコンで音声を再生できること
がわかりました。

今回はM5Atom echoで試しましたが、再生すると音が割れたので、音量を下げる工夫が必要だと感じました。また、M5StackなどではmicroSDに保存したmp3を再生できるようなので、これも試してみたいなと思います。

8. 参考

・この通り実施すると、再生することができました。大変分かりやすい記事で、参考になりました。