はじめてのアドベントカレンダーAdvent Calendar 2024

Arduino Uno R4 Minimaで音声モノマネぬいぐるみを作る[1]仕様検討

Posted at2024-12-01

この記事について

話しかけるとオウム返しをしてくるぬいぐるみってありますよね。
あれをarduinoで作ってみたいと思います。
まずは仕様検討とお試しだけです
※注意：ぬいぐるみは作りません。買ってきます。

必要なもの

arduino R4 Minima
※ATmega328だとスペック不足です
マイクセンサ　(MAX4466)
　ゲイン調整機能が付いたモジュールを使用します。
スピーカー　(100均の適当な奴)
　とりあえず確認するだけなら何でもよいです。イヤホンでもいい

仕様について

機能概要

音(人の声)を検知したら、３秒間音声の録音を行い、３秒後に録音した音声を再生します。

タイミングチャート

ユーザーの発声をトリガーに録音を開始します。
ユーザーの発声が１秒間だったとしても3秒間録音をします。
その後すぐに３秒間の再生を行い、その期間は録音することができません。

状態遷移図

「待機」「録音中」「再生中」の３状態を定義します。
録音から再生、再生から待機は時間経過によって遷移します。

機能詳細

主に下記の機能が必要となります。

ユーザーの発声を検知する
MAX4466のセンサ値を音声データとして格納する
音声データを再生する

1. ユーザーの発声を検知する(MAX4466)

試しにマイクセンサの入力値をシリアルプロッタ出力してみると音声っぽい波形が取れました。
単純に「値がいくつを越えたら」みたいな方法でもひとまず検知できそうです。
無音状態と、人が発生した状態をそれぞれ定義して検知するのが良さそうですね。

シリアルプロッタ表示データ数のバージョンによる違い
arduino IDE 2だと50個までしかデータが表示されません。
古いバージョンだと500個表示できます。
この記事で使用しているバージョンは1.8.19

マイク入力値をシリアルプロッタで出力するサンプルコードです。

Max4466Test.ino

voidsetup(){pinMode(A3,INPUT);analogReadResolution(14);//デフォルトの分解能が10bitなので、14bitに変更するSerial.begin(115200);}voidloop(){intmicin;intMin=0;intMax=16383;micin=analogRead(A3);Serial.print(Min);Serial.print(",");Serial.print(Max);Serial.print(",");Serial.println(micin);delay(1);}

2. MAX4466のセンサ値を音声データとして格納する

一般的な音楽のサンプリング周期は44.1kHzで、1秒間に44100個のデータを持っています。
1個当たりのデータサイズを16bit(2byte)とすると、1秒間で88200byteの容量です。
arduinno R4のRAM容量は32768byteなので、単純計算で44.1kHZのサンプリング周期だと372msの音声しか取得できません。

32768\div88200=0.372

逆に、３秒間のデータの保持には264kbyteのメモリが必要となります。

この容量足りない問題に対して、以下3つの解決策を挙げます。
1. メモリを増設する
SRAMやEEPROMを追加する。SDカードとかでもいいかも。
ただし、読み書きの速度はシリアル通信の速度に依存するので注意が必要

2. サンプリング周波数を下げる
例えば、44.1kHzのサンプリング周波数を10kHzにしたら、それだけで必要なデータ容量は1/4になります。
ただし、この場合取得できる音域は5kHzまでとなり、それ以上の「高い音」は取得できません。
↓このサイトで音を聞いてみたところ、12.5kHzまでは聞こえました。

3. データを圧縮する(分解能を下げる)
R4 MinimaのADCの分解能は14bitですが、これを8bitに圧縮する方法です。
8bitまで落とせば１byteで保持できるのでデータ容量を1/2にできます。
おそらく再生した時の音質が悪くなります。

メモリ消費量と録音データについて
一例を挙げます

番号	サンプリング周波数	録音時間	分解能	メモリ消費量
1	44.1kHz	3秒	16bit	264kbyte
2	16kHz	1秒	16bit	32kbyte
3	8kHz	1秒	16bit	16kbyte
4	8kHz	2秒	8bit	16kbyte
5	8kHz	1秒	8bit	8kbyte

例えば、8kHzで1秒間、16bitの音声データをRAMに格納した場合、音声データの合計サイズは16kbyteです。

8kHzのサンプリング周期でRAMにセンサ値を格納した後、データを保持できているか確認するために、Serial.print()で16kByte分のRAMの中身を読み出しました。

サンプリングにはタイマー割り込みを使います。
こちらの記事を参考にして、FspTimerというライブラリをつかいました。

8000個分のデータが保存されていることを確認できました。

実際のコードとしては、単純にグローバル変数で配列を宣言しています。

Recording.ino

#define SAMPLING_FREQ 8000    //8kHz#define RECORDINGTIME 1       //1秒#define DATASIZE_MIC RECORDINGTIME*SAMPLING_FREQunsignedshortMicInData[DATASIZE_MIC];//音声データ(2byte×8000×1=16kByte)

ビルド結果を見てみると、
この時点で、RAMの使用率は61%(内50%が音声データ)になっていて、
ほかの処理を追加することを考えるとRAMでの保持は16kByteあたりが限界そうですね。

3. 音声データを再生する

マイクで取得したデータを電圧レベルで出力すれば良いです。
よくあるのはPWMを使って電圧を操作する方法ですが、R4にはDACが内蔵されているため、ピンから直接任意の電圧レベルを出力することができます。
下記のように分解能設定をすれば標準ライブラリのanalogWriteをPWMから内臓DACへの切り替えて使えるようです。

//setup()とかで設定をしておくanalogWriteResolution(12);//スピーカー出力　内臓DACを使用するために12bitにする//↓使うときはこうanalogWrite(DAC,Data);

以下の記事でATmega328で音声を再生する方法が紹介されています。
ATmega328にはDACが内蔵されていないので、analogWrite()はPWM出力になります。
しかも、周波数が490Hzに設定してあり、今回のサンプリング周期の8kHzよりも小さいので使えません。
そのため、タイマーカウンタのレジスタを直接設定して、分周なし(16MHz)のPWM動作をさせているようです。

今回、この方のコードをR4向けに修正したものがこちらです。
※R4の場合、DACの出力ピンはA0です

constunsignedcharsample_raw[]PROGMEM={constunsignedcharsample_raw[]PROGMEM={0x7f,0x80,0x7f,0x80,0x7f,0x80,0x7f,0x80,0x7f,0x80,0x80,0x80,・・・・・・0x7f,0x80,0x7f,0x80,0x80,0x80,0x80,0x80,0x80,0x80,0x80,0x80,0x80,0x80,0x7f};unsignedintsample_raw_len=1200;voidsetup(){//pinMode(3, OUTPUT);                             //ATmega328向けなので削除//TCCR2A = _BV(COM2B1) | _BV(WGM21) | _BV(WGM20); //ATmega328向けなので削除//TCCR2B = _BV(CS20);                             //ATmega328向けなので削除pinMode(DAC,OUTPUT);//R4向けに追加analogWriteResolution(12);//R4向けに追加play();}voidplay(){unsignedshortdata;for(inti=0;i<sample_raw_len;i++){//OCR2B = pgm_read_byte_near(&sample_raw[i]);   //ATmega328向けなので削除data=pgm_read_byte_near(&sample_raw[i])<<4;//R4向けに追加analogWrite(DAC,data);//R4向けに追加delayMicroseconds(125);}}voidloop(){}

まとめ

次回、下記のポイントに着目して設計実装を行っていきます。

機能1:ユーザーの発声を検知する
- analogRead() を14bitの分解能で使用する
- マイクセンサ入力の変化を見て検知する
- 無音状態と人が発声した状態を明確に定義する
機能2:MAX4466のセンサ値を音声データとして格納する
- FspTimer でサンプリング間隔のタイマ割り込みを作る
- 外部メモリを追加して録音時間を増やす
- サンプリングレートを落としてメモリ消費量を減らす
- データサイズを落としてメモリ消費量を減らす
機能3:音声データを再生する
- analogWrite() を12bitの分解能で使用する
- サンプリング間隔と同じ周期で電圧レベルを切り替える

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Movatterモバイル変換