2017年3月20日月曜日

Raspberry Pi + Open JTalkによる音声合成で天気予報付き温度計に喋らせる

0. はじめに

前回の記事「Raspberry Pi + Julius + LIRC により家電製品を音声で操作する」では、Raspberry Piで音声認識を行いました。

今回はその逆、ということで音声合成を行ってみましょう。音声合成システムとしてはOpen JTalkを用います。

題材としては、本書第4章で作成した「天気予報付き温度計」に、「現在〇〇度」や「今日(明日)の天気は○○」のように音声合成により話す機能を追加してみます。

作成した「喋る天気予報付き温度計」の様子は下図のようになります。見やすいよう大きいLCDを使っていますが、回路自体は書籍第4章とほぼ同じです。唯一異なるのが、温度計に喋らせるためのタクトスイッチを1つ追加した点です。

喋る天気予報付き温度計

この喋る天気予報付温度計の動作の様子を示したのが下記の動画です。温度計以外にも、音声認識と組み合わせて「音声認識の結果をそのままオウム返しで喋る」というデモンストレーションの様子も示しています。



1. Raspberry Piでのスピーカー(イヤフォン)の利用

まずはRaspberry Piで音を鳴らせるようにしましょう。主に下記の3つの方法があります。
  1. Raspberry Pi本体のミニジャックにスピーカーやイヤフォンを接続する
  2. Raspberry PiとつながったHDMIディスプレイにスピーカーやイヤフォンを接続する
  3. USB接続のサウンドカードを利用する
それぞれの方法で音を鳴らす上での注意点を下記に記します。

Raspberry Pi本体のミニジャックを用いる場合

ターミナルを起動し、下記のコマンドを実行しておきます。末尾の「1」がミニジャックを利用することを表します。デフォルトは「0」(自動)です。
$ amixer cset numid=3 1

Raspberry Piに接続したHDMIディスプレイを用いる場合

ターミナルを起動し、下記のコマンドを実行しておきます。末尾の「2」がHDMI経由の音声出力を表します。デフォルトは「0」(自動)です。
$ amixer cset numid=3 2

USB接続のサウンドカードの場合

USB接続のサウンドカードとしては「Creative Sound Blaster Play!2 SB-PLAY2」でのみ動作確認をしており、それ以外のサウンドカードはサポートしませんのでご了承ください。
なお、USB接続サウンドカードの音声のボリュームを変更したい場合、ターミナルで例えば下記のようなコマンドを実行します。「10」の部分は0%~100%で表されたボリュームなので、適切な数値で読み替えます。特にイヤフォンを用いている場合、小さな値から試すのが無難です。
$ amixer -c 1 sset 'Speaker' 10


2. Open JTalkのインストール

まず音声合成システムOpen JTalkのインストール方法を紹介します。

ターミナルを起動して下記のコマンドを順に実行し、必要なソフトウェアをネットワークからインストールします。もちろんRaspberry Piがインターネットに接続されている必要があります。
$ sudo apt-get update
$ sudo apt-get install open-jtalk open-jtalk-mecab-naist-jdic hts-voice-nitech-jp-atr503-m001
2 つ目のコマンド実行後に「続行しますか? [y/n]」などと聞かれた場合は、キーボードで「y」をタイプしてEnterキーを押して下さい。これらのインストールにより、「男性の声」での音声合成が可能になります。

さらに、女性の声で音声合成する際に必要になるファイルもインストールしておきましょう。こちらより、MMDAgent_Example-1.7.zipをブラウザでダウンロードしておきます。バージョンが新しくなっている場合、新しいもののダウンロードで問題ないと思います。 ダウンロードされたファイルはDownloadsディレクトリ(フォルダ)(/home/pi/Downloads)に格納されますので、本書p.322の図A-1のようにファイルマネージャを用いてユーザーpiのホーム(/home/pi)に移動しましょう。
その後、ターミナルで下記のコマンドを順に実行します。なお、MMDAgentの新しいバージョンがダウンロードされた場合、バージョン番号の部分(「1.7」)を適切に読み替えてください。
$ unzip MMDAgent_Example-1.7.zip
$ sudo cp -r  MMDAgent_Example-1.7/Voice/mei /usr/share/hts-voice/

最後に、実際にOpen JTalkを呼び出して発話をさせるプログラム (スクリプトといいます) をダウンロードして実行可能にしましょう。
$ wget https://raw.githubusercontent.com/neuralassembly/raspi/master/speech.sh
$ chmod a+x speech.sh
$ sudo mv speech.sh /usr/local/bin
以上でRaspberry Piに音声合成させるためのソフトウェアの準備ができました。

3. Open JTalkの動作確認

Open JTalkで音声合成を行う際、USB接続のサウンドカードを用いていないならば、そのまま実行が可能です。ターミナルを起動し、例えば下記のようなコマンドを実行します。
$ speech.sh ラズベリーパイ
「ラズベリーパイ」の部分は前回の記事「Raspberry Pi + Julius + LIRC により家電製品を音声で操作する」でインストールしたMozcにより日本語入力を行い実現します。ここまでの流れが間違いなく実行できていれば、男性の声で「ラズベリーパイ」と発声されます。想像がつくように、「ラズベリーパイ」の部分を変更すれば、合成される音声もかわりますので試してみて下さい。また、音声の指示に半角空白を含ませたい場合、「speech.sh 'ラズベリー パイ'」のように「'」でくくる必要があります。

なお、USB接続のサウンドカードを用いている場合、プログラム実行前にプログラムの変更が必要です。ターミナルを起動し、実行スクリプトを編集用に管理者権限のleafpadで開きます。
$ sudo leafpad /usr/local/bin/speech.sh
その中で下記の部分を見つけてください。
# for the device on Raspberry Pi
aplay -q $TMPVOICE

# for USB sound card
#aplay -D plughw:1,0 -q $TMPVOICE
「aplay」と書かれた行が2行ありますが、1つめが有効になっており、2つ目は先頭に「#」があるため無効になっています。USB接続のサウンドカードを用いる場合はこれを下記のように変更してください。
# for the device on Raspberry Pi
#aplay -q $TMPVOICE

# for USB sound card
aplay -D plughw:1,0 -q $TMPVOICE
すなわち、1つ目のaplayに「#」をつけて無効化し、2つ目のaplayから「#」を削除して有効化するわけです。「#」は半角文字で記述しましょう。編集が終わったらファイルを保存してleafpadを閉じて構いません。この編集が終わったら、 ターミナルで「speech.sh ラズベリーパイ」などと実行することで、USB接続のサウンドカードでも音声合成が行えるはずです。

4. 音声の変更(お好みで)

デフォルトでは男性の声で音声合成されますが、これを女性の声に変更したい場合は、下記の手順に従ってください。 まず、ターミナルで下記のコマンドを実行し、実行スクリプトspeech.shを編集用に管理者権限のleafpadで開きます。
$ sudo leafpad /usr/local/bin/speech.sh
その中で、下記の「HTSVOICE」で始まる部分に着目しましょう。
HTSVOICE=/usr/share/hts-voice/nitech-jp-atr503-m001/nitech_jp_atr503_m001.htsvoice
#HTSVOICE=/usr/share/hts-voice/mei/mei_happy.htsvoice
#HTSVOICE=/usr/share/hts-voice/mei/mei_angry.htsvoice
#HTSVOICE=/usr/share/hts-voice/mei/mei_bashful.htsvoice
#HTSVOICE=/usr/share/hts-voice/mei/mei_normal.htsvoice
#HTSVOICE=/usr/share/hts-voice/mei/mei_sad.htsvoice
この部分では、音声合成する際に用いる音声を選択しています。先頭に「#」がついている行はコメント文となっており、無効な行です。「#」がついていない 1 行のみが有効となっており、これが男性の声だったというわけです。

有効とする行を変更し(「#」のつかない有効な行を1行だけとする)、leafpadで保存してから、もう一度「speech.sh ラズベリーパイ」などと実行してみましょう。
その際、leafpadを起動したターミナルとは別に新たにターミナルを開いて実行するのが良いでしょう。声がかわるのが分かるはずです。なお、女性の声に変更するためには、インストール時にMMDAgent_Example-1.7.zipをダウンロードして、必要なファイルを適切な位置にコピーしていることが必要ですのでご注意ください。

5. 応用1:天気予報機能付き温度計に喋らせる

さて、以上により、Open JTalkとそれを呼び出すスクリプトにより音声合成ができることがわかりました。あとはこの機能をどう活用するかですが、まずは本書第4章で作成した「天気予報付き温度計」に発話機能を追加してみましょう。対象となるのは、本書第4章でこの温度計を作成した方となります。温度計とLCDの両方がI2C通信を行うものを用いますので、I2Cがあらかじめ有効にされている必要があります。

まず、必要な回路は下記のようになります。本書と同様にLCDとして横8文字x縦2文字のAQM0802を用いる場合は下図のようになります。GPIO 23に接続したタクトスイッチが一つ増えているだけです。ただし、最近はAQM0802を用いる際に、特殊な対処法が必要になることが多いです。本書補足ページ「本書発売後の追加情報」の「完成品のLCDを購入しても認識されない場合の暫定的な対処法」をご覧ください。


また、同じく「本書発売後の追加情報」の「4章全般:利用できるLCDについて」で紹介したストロベリーリナックスの横16文字x縦2文字のLCDを用いる場合の回路図はこちらです。LCDのピン配置が異なるだけで、基本的には同じ回路です。


これらの回路を動かすためのプログラムをダウンロードするため、ターミナルで下記のコマンドを実行してください。
$ wget https://raw.githubusercontent.com/neuralassembly/raspi/master/speech-weather.py
このプログラムは、書籍と同じくLCDとしてAQM0802を用いる場合のプログラムとなっています。 ストロベリーリナックスの横16文字x縦2文字のLCDを用いる場合、プログラムを少し変更する必要があります。そのためには、このプログラムを編集用にleafpadで開きます。ターミナルで下記のコマンドを実行しましょう。
$ leafpad speech-weather.py
プログラム中で、211行目にある下記の部分に着目します。横16文字のLCDを用いる場合はこのうちchars_per_lineの数値を8から16に変更してください。また、contrastの値は、文字が薄い場合に40程度に変更してください。変更が終わったら保存してleafpadを閉じて構いません。
contrast = 32 # 0から63のコントラスト。通常は32、文字が薄いときは40を推奨
chars_per_line = 8  # LCDの横方向の文字数
display_lines = 2   # LCDの行数
さて、プログラムを実行するには、ターミナル上で、プログラムspeech-weatherがあるディレクトリ(フォルダ)にて下記のコマンドを実行します。
$ python speech-weather.py
書籍第4章で必要な設定を済ませている方ならば、冒頭の動画のように「左のタクトスイッチで温度計のモード切替」、「右のタクトスイッチで音声合成」という動作が実現されるはずです。

このプログラム中で動作のポイントとなっているのは、81行目から始まる下記の部分です。modeというのは温度計の4つのモードを決める変数なのですが、その値に応じて、話す内容を場合分けしているのが見て取れます。
    elif channel==23:
        if mode==0:
            s = u('今日の天気は')+weather_kanji
            args = ['speech.sh', s]
            try:
                subprocess.Popen(args)
            except OSError:
                print('no speech.sh')
        elif mode==1 or mode==3:
            s = u('現在')+'{0:.1f}'.format(temperature)+u('度')
            args = ['speech.sh', s]
            try:
                subprocess.Popen(args)
            except OSError:
                print('no speech.sh')
        elif mode==2:
            s = u('明日の天気は')+weather2_kanji
            args = ['speech.sh', s]
            try:
                subprocess.Popen(args)
            except OSError:
                print('no speech.sh')


6. 応用2:音声認識と組み合わせてオウム返しで喋らせる

最後に、音声認識と組み合わせ、音声認識の結果をオウム返しで喋る、という例を試してみましょう。こちらも冒頭の動画にて例示されていましたね。 この例は音声認識にかなりの計算パワーを必要としますので、Raspberry Pi 3を用いることを推奨します。Raspberry Pi 3を用いても、認識から発声まで5秒程度の時間がかかることがあることが動画から見て取れるでしょう。 さらに、ここから先の内容は「Raspberry Pi + Julius + LIRC により家電製品を音声で操作する」を一通り終えた方を対象とします。

まず、音声認識を行う上で、どの辞書を用いるかに注意しておきましょう。「Raspberry Pi + Julius + LIRC により家電製品を音声で操作する」を終えた状態では「テレビ操作用の辞書」を用いる設定になっています。 一方、冒頭の動画では「Juliusのディクテーションキットのデフォルトの辞書」を用いました。どの辞書を用いても実行は可能ですが、もしデフォルトの辞書に戻したいならば、まずターミナルを起動して下記のように設定ファイルをleafpadで編集用に開きます。
$ leafpad dictation-kit-v4.4/main.jconf
この中で、辞書選択部分を下記のように「model/lang_m/bccwj.60k.htkdic」を用いるようにするのでした(先頭に「#」がない行のみが有効です)。
## 単語辞書ファイル
##
-v model/lang_m/bccwj.60k.htkdic
#-v ../remocon.dic
編集が終わったら保存してleafpadを閉じます。これにより、デフォルトの辞書が用いられるようになりました(ちなみに、自分でカスタマイズした辞書の方が単語数が少ないので認識速度は速いです)。

次に、必要なプログラムをダウンロードするため、ターミナルを起動して下記のコマンドを実行します。
$ wget https://raw.githubusercontent.com/neuralassembly/raspi/master/recog-speech.py
このプログラムを実行するためには、事前に音声認識エンジンJuliusをモジュールモードで起動しておく必要があります。 そのためには、ターミナルを起動して下記のコマンドを実行するのでした。
$ julius -C dictation-kit-v4.4/main.jconf -C dictation-kit-v4.4/am-gmm.jconf -demo -module
その状態で、もう一枚別のターミナルを起動し、その上で下記のコマンドでプログラムを実行します。
$ python recog-speech.py
あとはマイクに向かって話せば冒頭の動画のような動作が実現します。動画にも注釈がありますが、音声合成の結果の音声をマイクが拾わないように注意してください。そうしないと、「認識」→「合成」→「認識」→「合成」→…が無限に繰り返されます(この現象の原因に気づくまでちょっと悩みました)

さて、このプログラムrecog-speech.pyのポイントは、38行目から始まる下記の部分です。 認識された語は「''」→「語1」→「語2」→…「語n」→「'。'」という順で届くのですが、これをひとまとめに 「語1語2…語n。」と結合してからspeech.shに渡しています。
# 認識された単語wordの中に、u('...') という文字列が含まれるかどうかを
# チェックし、文字列に応じたアクションを記述します。
# u('...')でくくるのは、python2とpython3の互換性を保つためです。

if word != u(''):
    recognized_word += word

if u('。') in word: 
    print(recognized_word)
    args = ['speech.sh', recognized_word]
    subprocess.Popen(args).wait()
    recognized_word = u('')
以上、お疲れさまでした。

2017年3月15日水曜日

Raspberry Pi + Julius + LIRC により家電製品を音声で操作する

 0. はじめに

本書の第5章において、LIRC(Linux Infrared Remote Control) というソフトウェアを用いてRaspberry Piをテレビなどの家電製品のリモコンにする方法を紹介しました。

さらに、本ページの追加コンテンツ「Raspberry Pi上のLIRCでエアコンを操作する」において、書籍では触れられなかったエアコンの操作方法も紹介しました。

これらにおいて、家電製品へ命令を送信する方法として下記の3つを用いました。
  1. ターミナル上でのirsendコマンドによる送信
  2. タクトスイッチによる送信
  3. WebIOPiによるブラウザ経由の送信
本ページではこれらの3つに加え、「音声による命令の送信」の方法を紹介します。音声認識のためには音声認識エンジンであるJuliusを用います。

応用的なコンテンツとなりますので、本書第5章の「ターミナル上でのirsendコマンドによる送信(5.4.1章)」までの演習を終え、内容を理解している方を対象とします。

また、用いるOSはNOOBS 2.3.0に含まれるRaspbianとします。少なくとも、Jessie(NOOBS 1.4.2以降)であることを前提とした解説がありますので、なるべく新しいバージョンのOSを用いてください。

家電製品の操作に興味がないという方でも、本ページを読むことで「音声認識の結果を取得してその結果をもとに何らかのアクションを起こす」方法を知ることができます。

Raspberry PiにサンワプライのUSBマイクを接続した様子

また、リモコンで操作できるLED照明に対して本ページの内容を適用したデモンストレーションの動画が下記になります。


1. 音声認識を行うために必要な物品

音声認識を行うためにはマイクが必要ですが、Raspberry Piにはマイクを接続する端子がありません。マイクをRaspberry Piに接続するためには、外部機器を購入する必要があります。

本ページでは、マイクを接続するためのデバイスとして下記の2つを試しました。これ以外のデバイスはサポート対象外としますのでご了承ください。
どちらもUSBデバイスであり、USB端子に接続すれば使えるようになります。

ただし、SB-PLAY2を用いる場合、さらにミニジャック接続のPC用マイクも必要となります。これはどのようなマイクでも問題ないと思いますが、例えば「iBUFFALO マイクロフォン スタンドタイプ 3極プラグ搭載 ホワイト BSHSMPM01WH」のようなものがあります。

2. 日本語入力メソッド mozc のインストール

以下の手順において、Raspberry Pi 上で日本語を入力しなければならない箇所があります。Raspberry Pi用のOSであるRaspbian(Jessie以降)で日本語を入力するため、Googleが開発した日本語入力システムMozcをインストールします。「Google日本語入力」のもととなったソフトウェアです。

LXTerminalを起動し、下記の 2 つのコマンドを順に実行することで、ネットワークからMozcをダウンロードしてインストールします。なお、2 つ目のコマンドの実行後に「続行しますか? [y/n]」などと聞かれた場合は、キーボードで「y」をタイプしてEnterキーを押して下さい。
$ sudo apt-get update
$ sudo apt-get install ibus-mozc
なお、1 つ目のコマンドは、インストールできるアプリケーションのリストを更新するためのものです。1 分程度かかる場合あります。2 つ目のコマンドで、Mozcをインストールしています。

インストールが終った後はまずRaspberry Piを再起動します。その後、下図のように「US」と書かれた部分をマウスでクリックし「日本語 - Mozc」を選択してください。あとは「半角/全角」キーで日本語入力のオンオフを切り替えられます。
動作チェックとして、ブラウザでGoogleなどにアクセスし、日本語で検索してみると良いでしょう。

3. 音声認識エンジンJuliusのインストール

ここからは、Raspberry Pi上で音声認識を行うために用いるソフトウェアであるJuliusのインストール方法を解説します。

まず、こちらより julius-4.4.2.tar.gz をダウンロードしてください。ブラウザでダウンロードすると、デフォルトでユーザーpiのDownloadsディレクトリ(フォルダ)にダウンロードされます。

さらに、こちらより、Juliusディクテーションキットの最新版である dictation-kit-v4.4.zip をダウンロードしてください。こちらは400MB以上のサイズがあり、解凍するとさらに800MBの容量が必要となります。事前にRaspberry PiのOSを格納したSDカードの容量に余裕があることを確認した方がよいでしょう。

ターミナルを起動し、dfコマンドに-kオプションを付けて実行することで、SDカードの残り容量をKB単位で知ることができます。
$ df -k
ファイルシス   1K-ブロック    使用 使用可 使用% マウント位置
/dev/root          6154176 5625008 193504   97% /
(以下略)
上記の表示は、8GBのSDカードを用いてJuliusのインスト―ルを全て終えた状態でのSDカードの容量を示しています。使用率97%、残り容量193.504MBであることを示しますので、ほぼギリギリです。ですので、Juliusを用いる際は16GB以上のSDカードを用いることを推奨します。

さて、ダウンロードが終わったら、 julius-4.4.2.tar.gz および dictation-kit-v4.4.zip をDownloadsディレクトリ(フォルダ)(/home/pi/Downloads)からユーザーpiのホーム(/home/pi)に移動しましょう。本書p.322の図A-1のようにファイルマネージャを用いるのが良いでしょう。

次に、ターミナルを起動して下記のコマンドを順に実行し、Juliusのインストールに必要なライブラリをインストールします。
$ sudo apt-get update
$ sudo apt-get install libasound2-dev
上記のコマンドが終わったら、以下のコマンドでJuliusをインストールします。
$ tar zxf julius-4.4.2.tar.gz
$ cd julius-4.4.2
$ ./configure --enable-words-int --with-mictype=alsa
$ make
$ sudo make install
次に、 dictation-kit-v4.4.zip を下記のコマンドでユーザpiのホームに解凍します。これは解凍のみで構いません。
$ cd
$ unzip dictation-kit-v4.4.zip
以上でJuliusの準備は終了ですが、最後に、導入したマイクをJuliusで用いるための設定を行います。下記のコマンドにより、環境設定ファイル .bashrc テキストエディタ leafpadで開きましょう。
$ cd
$ leafpad .bashrc
このファイルには様々な設定が書き込まれていますが、それを壊さないように注意しながら、ファイル末尾に下記の1行を追加しましょう。
export ALSADEV=plughw:1,0
書き込みが終わったらファイルを保存してからleafpadを閉じます。

以上が終わったら、Raspberry Piを一旦再起動しましょう。再起動の前に、(もし接続していなかったら)Raspberry PiにUSB経由のマイクデバイスを接続しておきましょう。

4. Juliusの動作確認

インストールしたJuliusの動作チェックをしてみましょう。ターミナルを起動し、下記のコマンドを実行します。
$ julius -C dictation-kit-v4.4/main.jconf -C dictation-kit-v4.4/am-gmm.jconf -demo
長い命令ですので、本書p.344で解説した「TABキーによるファイル名の補完」をうまく活用しないと入力は大変です。それも難しい場合、上記コマンドのコピー&貼り付けで実行しても良いでしょう(個人的には、TABキーによる補完をマスターすることをお勧めします)。

また、juliusコマンドに与えるオプションは、用いるディクテーションキットのバージョンに依存します。本ページではv4.4を用いた解説になっていますのでご注意ください。

実行して数秒待つと、ターミナルに下記の表示が現れます。
(省略)
Stat: adin_alsa: device name from ALSADEV: "plughw:1,0"
Stat: capture audio at 16000Hz
Stat: adin_alsa: latency set to 32 msec (chunk = 512 bytes)
Stat: "plughw:1,0": Device [USB PnP Audio Device] device USB Audio [USB Audio] subdevice #0
STAT: AD-in thread created
<<< please speak >>>
「<<< please speak >>>」の表示が出たら、マイクに向かって何か話してください。認識結果がターミナルに表示されます。下記は、マイクに向かって「こんにちは」、「ラズベリーパイ」と話したときの表示です。
(省略)
pass1_best:  こんにちは 。
sentence1:  こんにちは 。
pass1_best:  ラズベリー 杯 、
sentence1:  ラズベリー パイ 。
<<< please speak >>>
認識に失敗することもありますが、必ずしも認識率が高いわけではありませんので、あまり気にしなくても良いでしょう。

認識動作を終了したい場合、ターミナル上で「Ctrl-c」(Ctrlキーを押しながらcキーを押す)を実行してJuliusを終了してください。

なお、マイクの感度を調整したい場合、下記のコマンドをあらかじめターミナルで実行しておきます。「50」の部分は0%~100%の感度に相当する数字なので、適切な数字をいれます。100に近付く程感度が高いはずです。
$ amixer -c 1 sset 'Mic' 50

5. Juliusの辞書作成

ここまでで、Raspberry PiとJuliusを用いた音声認識が実現しました。これを本書第5章の内容と組み合わせ、テレビのリモコン操作を音声で行ってみましょう。マイクに向かって「電源」と話すと、テレビの電源のオン・オフが切り替る、などの動作です。

そのためには、まず音声認識の認識率を向上させる必要があります。デフォルトでなぜ誤認識が多いかというと、Juliusが提示する認識語の候補が多すぎるからです。Juliusが認識に用いる辞書を、テレビ操作に必要な語句のみに限定すると、(当然ながら)認識率が向上します。今回の目的にはこれで十分ですので、試してみましょう。

まず、テレビの操作に必要な語句を、下記の通りとします。左が表記、右が読みとします。

電源 でんげん
入力 にゅうりょく
いち
さん
よん
ろく
なな
はち
きゅう
10 じゅう
11 じゅういち
12 じゅうに
ボリュームアップ ぼりゅーむあっぷ
ボリュームダウン ぼりゅーむだうん
チャンネルアップ ちゃんねるあっぷ
チャンネルダウン ちゃんねるだうん

この語句のみを記した辞書を作成するため、まずは上記の内容を記したテキストファイルを作成する必要があります。名前は任意ですが、ここでは remocon.yomi としましょう。

下記のコマンドでremocon.yomiファイルを新規作成します。
$ leafpad remocon.yomi
なお、leafpadを用いない方のために記しておくと、このファイルはUTF-8の文字コードで記述する必要があります。 このファイルには、下記のように「表記」と「読み」を列挙します。
電源 でんげん
入力 にゅうりょく
1 いち
2 に
3 さん
4 よん
5 ご
6 ろく
7 なな
8 はち
9 きゅう
10 じゅう
11 じゅういち
12 じゅうに
ボリュームアップ ぼりゅーむあっぷ
ボリュームダウン ぼりゅーむだうん
チャンネルアップ ちゃんねるあっぷ
チャンネルダウン ちゃんねるだうん
上記の内容を記述する際には注意がいくつかあります。

まず、「表記」と「読み」の間は「半角空白」か「TAB」などを区切り文字として記入します。 ただし、「半角空白」を区切り文字として用いる方針にすると、間違って「全角空白」を入力してしまうことがあり、トラブルの元です。 そのため、個人的には「TAB」を区切り文字とすることを推奨します。 具体的には例えば1行目の記述において下記のようにキーボードのTABキーを入力する、ということです。
電源[TABキー]でんげん
次に、上記の内容を記入する際、空行があってはいけません。典型的には、末尾に空行を入れてしまうことはしばしば起こりますので、注意しましょう。

記入が終わったら、ファイルを保存してleafpadを閉じます。

保存した remocon.yomi を元に、辞書ファイルを作成します。まずは、その際に用いる補助コマンドをダウンロードしましょう。
$ wget https://raw.githubusercontent.com/neuralassembly/raspi/master/addsil.pl
$ chmod a+x addsil.pl
上記2コマンドの実行が終わったら、下記のコマンドにより、読みファイル remocon.yomi から辞書ファイル remocon.dic を作成します。
$ iconv -f utf-8 -t euc-jp remocon.yomi | ./julius-4.4.2/gramtools/yomi2voca/yomi2voca.pl  | iconv -f euc-jp  -t utf-8 | ./addsil.pl > remocon.dic
非常に長いコマンドなので、コピー&貼り付けで実行するのが無難でしょう。具体的には「remocon.yomi の文字コードをEUP-JPに変換」→「yomi2voca.pl コマンドにより読みをローマ字に変換」→「文字コードをUTF-8に変換」 →「ファイル先頭に休止状態の情報2行を追加」→「remocon.dic を保存」という流れで処理が実行されます。

念のため、 remocon.dic の中身を確認しておきましょう。下記のコマンドで中身をleafpadで確認できます。UTF-8で記述されています。
$ leafpad remocon.dic
中身は下記のようになっているはずです。
<s>     []      silB
</s>    [。]    silE
電源    d e N g e N
入力    ny u u ry o k u
1      i ch i
2      n i
3      s a N
4      y o N
5      g o
6      r o k u
7      n a n a
8      h a ch i
9      ky u u
10    j u u
11    j u u i ch i
12    j u u n i
ボリュームアップ        b o ry u: m u a q p u
ボリュームダウン        b o ry u: m u d a u N
チャンネルアップ        ch a N n e r u a q p u
チャンネルダウン        ch a N n e r u d a u N
読みがローマ字に変換されているのが yomi2voca.pl の効果、先頭2行が追加されているのが addsil.pl の効果です。確認が終わったらleafpadを閉じて構いません。

なお、完成済みの辞書ファイル remocon.dic を下記のコマンドでダウンロードできますので、作成が面倒だという方はご活用ください。
$ wget https://raw.githubusercontent.com/neuralassembly/raspi/master/remocon.dic
なお、既に remocon.dic が存在する場所で上記コマンドを実行すると、ダウンロードされたファイルの名前は remocon.dic.1 などと自動的に変更されますのでご注意ください。

以上でテレビ操作用の辞書ファイルを用意できましたので、Juliusがこれを用いるよう変更してみましょう。そのためには、julius を実行する時に利用する設定ファイル dictation-kit-v4.4/main.jconf を編集する必要があります。

下記のコマンドで dictation-kit-v4.4/main.jconf を leafpadにより開きましょう。
$ leafpad dictation-kit-v4.4/main.jconf
この中に、辞書ファイルを指定している下記の場所があるので見つけてください。
## 単語辞書ファイル
##
-v model/lang_m/bccwj.60k.htkdic
これを下記のように編集してください。元からあった辞書指定行に「#」を追記して無効化し、新たに一行追加するわけです。全て半角で記述するよう注意しましょう。
## 単語辞書ファイル
##
#-v model/lang_m/bccwj.60k.htkdic
-v ../remocon.dic
なお、ここでの解説は、ディクテーションキットが /home/pi/dictation-kit-v4.4 に、作成した辞書ファイルが /home/pi/remocon.dic にあることを前提としています。追記した行にある「../」とは「一つ上の階層のディレクトリ(フォルダ)」を意味します。 ついでに、 dictation-kit-v4.4/main.jconf でもう一か所変更しておきましょう。下記の場所を見つけてください。
-rejectshort 800 # 指定ミリ秒以下の長さの入力を棄却する
これは、800ミリ秒以下の入力を無視する設定なのですが、この設定のままだと「に」や「ご」などのように短い音声の認識に失敗することが多くなります。 そこで、下記のようにこの数値を400に変更しましょう。半角で記述するよう注意しましょう。
-rejectshort 400 # 指定ミリ秒以下の長さの入力を棄却する
以上の変更が終わったら保存をしてからleafpadを閉じましょう。 そして、上と同様のjuliusコマンドで音声認識を試してみましょう。今度は上で列挙したテレビ操作用の単語しか認識されないはずです。 

下記は「でんげん」、「いち」、「ぼりゅーむあっぷ」と話したときの様子です。警告(WARNING)は出ていますが、正しく認識されていることがわかります。
pass1_best:  電源 。
WARNING: 00 _default: hypothesis stack exhausted, terminate search now
sentence1:  電源 。
pass1_best:  1 。
WARNING: 00 _default: hypothesis stack exhausted, terminate search now
sentence1:  1 。
pass1_best:  ボリュームアップ
WARNING: 00 _default: hypothesis stack exhausted, terminate search now
sentence1:  ボリュームアップ 。

6. moduleモードでのJuliusの実行

ここまででJuliusによる音声認識が実現できましたが、これを実現しているのは、配布されたファイルをインストールしてできたjuliusコマンドでした。

しかし、我々が実現したいのは、音声認識の結果を自分で作成したプログラムから利用することです。それができて初めて、「『電源』という音声が認識されたら、テレビの電源をオンするための命令を送信する」などの動作が可能になるのです。

そのためには、Juliusをmoduleモードと呼ばれるモードで動作させる必要があります。moduleモードの概念図を示したのが下図です。左側に描かれたmoduleモードで動作するjuliusがサーバーとなり、右側に描かれたクライアント(jcontrolコマンドや自作プログラム)からの認識の問い合わせに応答する、という仕組みです。


イメージをつかむために、moduleモードの動作を試してみましょう。まず、下記のコマンドでjuliusをmoduleモードで起動しましょう。これまでとの違いは、末尾に「-module」がつくだけです。
$ julius -C dictation-kit-v4.4/main.jconf -C dictation-kit-v4.4/am-gmm.jconf -demo -module
しばらく待つと、ターミナルに下記の表示が現れます。juliusがサーバーとして動作し、クライアントからの接続を待ち受けていることが記されています。
(省略)
Stat: server-client: socket ready as server
///////////////////////////////
///  Module mode ready
///  waiting client at 10500
///////////////////////////////
moduleモードのjuliusが動作するターミナルはそのままにしておき、 もう一つ別のターミナルを起動しましょう。そこで下記のコマンドを実行します。jcontrolはjuliusに付属するコマンドで、moduleモードのjuliusに接続し結果を表示することができます。「localhost」とはjuliusが動作しているRaspberry Piを表わすホスト名です。
$ jcontrol localhost
すると、そのターミナル上では下記のように表示されます。
connecting to localhost:10500...done
> <STARTPROC/>
> <INPUT STATUS="LISTEN" TIME="1489549742"/>
一方、moduleモードのjuliusが動作するターミナル上の表示は下記のように変化します。
(省略)
STAT: AD-in thread created
その状態で、これまで通りマイクに何か話してみましょう。先ほどと同様「でんげん」、
「いち」、「ぼりゅーむあっぷ」と話したとき、jcontrolコマンドを実行したターミナルには、例えば下記のように表示されます。
(省略)
>   <SHYPO RANK="1" SCORE="-2573.104004">
>     <WHYPO WORD="" CLASSID="<s>" PHONE="silB" CM="0.958"/>
>     <WHYPO WORD="電源" CLASSID="電源" PHONE="d e N g e N" CM="0.978"/>
>     <WHYPO WORD="。" CLASSID="</s>" PHONE="silE" CM="1.000"/>
>   </SHYPO>
(省略)
>   <SHYPO RANK="1" SCORE="-1995.357666">
>     <WHYPO WORD="" CLASSID="<s>" PHONE="silB" CM="0.927"/>
>     <WHYPO WORD="" CLASSID="1" PHONE="i ch i" CM="0.864"/>
>     <WHYPO WORD="。" CLASSID="</s>" PHONE="silE" CM="1.000"/>
>   </SHYPO>
(省略)
>   <SHYPO RANK="1" SCORE="-2783.654053">
>     <WHYPO WORD="" CLASSID="<s>" PHONE="silB" CM="0.953"/>
>     <WHYPO WORD="ボリュームアップ" CLASSID="ボリュームアップ" PHONE="b o ry u: m u a q p u" CM="0.967"/>
>     <WHYPO WORD="。" CLASSID="</s>" PHONE="silE" CM="1.000"/>
>   </SHYPO>
これまでとは形式がかなり異なりますが、「電源」、「1」、「ボリュームアップ」が認識されていることは見て取れるでしょう。 

jcontrolを終了するには、jcontrolを実行しているターミナルで「Ctrl-c」を実行します。そうすると、moduleモードのjuliusは再びクライアントからの接続を待機する状態に戻ります。 moduleモードのjuliusを終了するには、やはりそのターミナルで「Ctrl-c」を実行してください。

さて、以上の動作確認により、目指すべきことがわかりました。jcontrolのようにmoduleモードのjuliusに接続し、得られた認識結果に応じてアクションを起こすプログラムを書けば良いのです。

そのためのPythonプログラムを作成してみましたので、ダウンロードして試してみましょう。下記のコマンドで recog-TV.py をダウンロードできます。
$ wget https://raw.githubusercontent.com/neuralassembly/raspi/master/recog-TV.py
これを実行するため、あらかじめmoduleモードのjuliusを起動しておきます

そして、別のターミナルを開き、下記のコマンドでrecog-TV.pyを実行します。
$ python recog-TV.py
実行後にすぐ「socket error」と表示される場合はmoduleモードのjuliusが起動されていませんので注意してください。

エラーがでなければ、マイクに向かって話しかけてみましょう。

LIRCを既にインストール済みだが起動されていない方ならば下記のように表示されるでしょうし、
電源
irsend: could not connect to socket
irsend: No such file or directory
1
irsend: could not connect to socket
irsend: No such file or directory
ボリュームアップ
irsend: could not connect to socket
irsend: No such file or directory
LIRCをインストールされていない方ならば下記のように表示されるでしょう。
電源
command not found.
1
command not found.
ボリュームアップ
command not found.
いずれにせよ、音声認識結果「電源」、「1」、「ボリュームアップ」が表示されていることがわかります。 

このプログラム recog-TV.py は、音声が認識されたときに、テレビを操作する信号を出力するように作られています。 その準備ができていれば上記のエラーメッセージは出ないのですが、LIRCが起動していないときやLIRCがインストールされていない場合には 上記のようなメッセージが現れるというわけです。

LIRCの準備は本書第5章の5.4.1までを終えれば完了します。すなわち、「irsend SEND_ONCE TV power」などのコマンドでテレビが操作できるようになれば良いわけです。その状態で「moduleモードのjulius」および「recog-TV.py」が適切に起動されれば、エラーがでず、音声によりテレビを操作できるようになります。

もちろん、音声認識の結果をテレビの操作以外に用いることもできます。例えば、認識された言葉を合成音声でRaspnberry Piに発話させることも可能です。 その方法を、本ページの続編的な内容である「Raspberry Pi + Open JTalkによる音声合成で天気予報付き温度計に喋らせる」にて紹介しておりますので、是非ご覧ください。

7. 若干のコードの解説

サンプルファイル recog-TV.py を全て解説するのは難しいですが、このプログラムを
改造したいという方のために重要な部分のみを解説します。 

ポイントとなるのは以下の部分です。Web上での見やすさのためインデント(字下げ)は一部省略します。
# 認識された単語wordの中に、u('...') という文字列が含まれるかどうかを
# チェックし、文字列に応じたアクションを記述します。
# u('...')でくくるのは、python2とpython3の互換性を保つためです。
# 「対象となる文字が含まれているか」を調べていますので、
# 先に「『1』が含まれるか」をチェックすると
# 10~12がすべて「1」と判定されてしまいます。
# そのため、10~12のチェックを先に行っています。

if u('10') in word:
    print(word)
    args = ['irsend', '-#', '1', 'SEND_ONCE', 'TV', 'ch10']
    try:
        subprocess.Popen(args)
    except OSError:
        print('command not found.')
elif u('11') in word:
    print(word)
    args = ['irsend', '-#', '1', 'SEND_ONCE', 'TV', 'ch11']
    try:
        subprocess.Popen(args)
    except OSError:
        print('command not found.')
(以下略)
この部分ではwordという変数の中に、認識された語句が格納されています。それをif~elif文により分岐させ、認識された語句ごとに実行する処理を変えている、というわけです。

この部分をうまく書き換えることで、処理を色々と変えることができるでしょう。

8. 自動起動

最後に、ここで試したmoduleモードのjuliusとrecog-TV.pyを、Raspberry Pi起動時に自動で実行する方法を記しておきましょう。

自動起動用のファイル/etc/rc.localにコマンドを追記します。まず、管理者権限のleafpadで/etc/rc.localを編集用に開きます。
$ sudo leafpad /etc/rc.local
そして、末尾にある「exit 0」の手前に下記の3つのコマンドを記述し、保存します。
ALSADEV=plughw:1,0 julius -C /home/pi/dictation-kit-v4.4/main.jconf -C /home/pi/dictation-kit-v4.4/am-gmm.jconf -demo -module &

sleep 10

python /home/pi/recog-TV.py &

exit 0
ポイントは、下記の通りです。
  • .bashrcに書いたALSADEVについての設定は/etc/rc.localでは読み込まれないので、直に書く
  • main.jconfやam-gmm.jconfは「dictation-kit-v4.4/main.jconf」のような相対パスではなく「/home/pi/dictation-kit-v4.4/main.jconf」のような絶対パスで書く
  • juliusの起動が終了するのを待つため、sleep文を挿入する
  • recog-TV.pyも絶対パスで書く
保存したらleafpadを終了し、Raspberry Piを再起動してみてください。自動で音声入力を受け付けるモードになっているはずです。

 以上、お疲れさまでした。