M5Atom Echoでテキストを喋らせる方法
テキストから音声ファイルを作成し、マイコンに埋め込める形に変換し、M5Atom Echoでテキストを喋らせる方法をまとめます。
1. 背景と目的
ボタンを押すと特定のテキストを喋るデバイスの製作依頼を受け、その製作過程をまとめます。
2. M5Atom Echoでテキストを喋らせる
プロトタイピング段階では、ボタンとスピーカーがついたデバイスである、M5 Atom Echoを使用することにしました。
3. gttsライブラリで機械音声を作成
gttsは、Google Text-to-Speechを利用してテキストから音声を生成するためのPythonライブラリです。gttsを使用すると、簡単にテキストを音声ファイル(MP3形式)に変換できます。
以下のコマンドをターミナルやコマンドプロンプトで実行して、gttsをインストールします。
pip install gtts
以下の例は、gttsを使って「こんにちは」というテキストを音声ファイルに変換する方法です。
from gtts import gTTS
# 出力する音声のテキスト
text = "こんにちは"
# gTTSオブジェクトの作成
tts = gTTS(text=text, lang='ja')
# 音声ファイルの保存
tts.save("hello.mp3")
print("音声ファイルが生成されました: hello.mp3")
4. mp3ファイルをwavファイルに変換
下記ツールが簡単で使いやすかったです。
https://online-audio-converter.com/ja/
ファイルを開くをクリックしてmp3を読み込み、wavを選択し、詳細設定で16000kHz、チャンネル数1を選択しました。あとは変換ボタンを押すだけで出力されます。
5. wavファイルをマイコンに埋め込める形式に変換
Lang-shipさんが作られた下記サービスを利用しました。
https://lang-ship.com/tools/wav2data/
wavファイルをアップロードし、データ名を決め、ボリュームをここでは50%とし、送信ボタンを押します。すると、出力データ欄に出力されます。あとは、出力データをコピーし、例えばwav.hで保存します。
6. プログラムの作成
これも、Lang-shipさんのプログラムを参考にさせて頂きました。元のプログラムは5つのwavファイルをランダムに再生するものですが、1つのwavファイルを再生するよう変更しました。これをM5Atom echoに書き込みます。すると、M5Atom echoのボタンを押すと、指定したテキストを喋ってくれます。
#include <driver/i2s.h>
#include <M5Atom.h>
#include "wav.h"
#define CONFIG_I2S_BCK_PIN 19
#define CONFIG_I2S_LRCK_PIN 33
#define CONFIG_I2S_DATA_PIN 22
#define CONFIG_I2S_DATA_IN_PIN 23
#define SPEAKER_I2S_NUMBER I2S_NUM_0
#define MODE_MIC 0
#define MODE_SPK 1
void InitI2SSpeakerOrMic(int mode)
{
esp_err_t err = ESP_OK;
i2s_driver_uninstall(SPEAKER_I2S_NUMBER);
i2s_config_t i2s_config = {
.mode = (i2s_mode_t)(I2S_MODE_MASTER),
.sample_rate = 16000,
.bits_per_sample = I2S_BITS_PER_SAMPLE_16BIT,
.channel_format = I2S_CHANNEL_FMT_ALL_RIGHT,
.communication_format = I2S_COMM_FORMAT_I2S,
.intr_alloc_flags = ESP_INTR_FLAG_LEVEL1,
.dma_buf_count = 6,
.dma_buf_len = 60,
.use_apll = false,
.tx_desc_auto_clear = true,
.fixed_mclk = 0
};
if (mode == MODE_MIC)
{
i2s_config.mode = (i2s_mode_t)(I2S_MODE_MASTER | I2S_MODE_RX | I2S_MODE_PDM);
}
else
{
i2s_config.mode = (i2s_mode_t)(I2S_MODE_MASTER | I2S_MODE_TX);
}
err += i2s_driver_install(SPEAKER_I2S_NUMBER, &i2s_config, 0, NULL);
i2s_pin_config_t tx_pin_config = {
.bck_io_num = CONFIG_I2S_BCK_PIN,
.ws_io_num = CONFIG_I2S_LRCK_PIN,
.data_out_num = CONFIG_I2S_DATA_PIN,
.data_in_num = CONFIG_I2S_DATA_IN_PIN,
};
err += i2s_set_pin(SPEAKER_I2S_NUMBER, &tx_pin_config);
if (mode != MODE_MIC) {
err += i2s_set_clk(SPEAKER_I2S_NUMBER, 16000, I2S_BITS_PER_SAMPLE_16BIT, I2S_CHANNEL_MONO);
}
i2s_zero_dma_buffer(SPEAKER_I2S_NUMBER);
}
void setup() {
M5.begin(true, false, true);
delay(50);
Serial.println();
M5.dis.drawpix(0, CRGB(128, 128, 0));
InitI2SSpeakerOrMic(MODE_MIC);
delay(2000);
}
void loop() {
if (M5.Btn.isPressed())
{
size_t bytes_written;
M5.dis.drawpix(0, CRGB(0, 128, 0));
InitI2SSpeakerOrMic(MODE_SPK);
// Write Speaker
i2s_write(SPEAKER_I2S_NUMBER, wav, sizeof(wav), &bytes_written, portMAX_DELAY);
i2s_zero_dma_buffer(SPEAKER_I2S_NUMBER);
// Set Mic Mode
InitI2SSpeakerOrMic(MODE_MIC);
M5.dis.drawpix(0, CRGB(128, 128, 0));
}
M5.update();
}
なお、下記の「wav」が、wavファイルからの変換時に指定したデータ名となります。
i2s_write(SPEAKER_I2S_NUMBER, wav, sizeof(wav), &bytes_written, portMAX_DELAY);
7. まとめと今後の課題
このプロトタイピングを通じて
・gttsライブラリで、テキストから音声ファイルを出力することができること
・それをマイコンに埋め込める形に変換すると、マイコンで音声を再生できること
がわかりました。
今回はM5Atom echoで試しましたが、再生すると音が割れたので、音量を下げる工夫が必要だと感じました。また、M5StackなどではmicroSDに保存したmp3を再生できるようなので、これも試してみたいなと思います。
8. 参考
・この通り実施すると、再生することができました。大変分かりやすい記事で、参考になりました。