Twilio API 勉強会 Vol.13 - 電話と音声合成エンジンのコラボでより広がる可能性!に参加してきました #twilioapistudy

おはようございます。

2014年の2月26日に行われたTwilio API 勉強会に初めて参加してきました。

アジェンダは以下の通りです。

  • 19:30 - 19:40 : Twilioの使い方
  • 19:40 - 20:00 : AITalk® Web APIの使い方
  • 20:00 - 21:30 : もくもく〜(ハンズオン)

Twilio(http://twilio.kddi-web.com/

Twilioはたったの4行のxmlファイルを作成して読み込むだけで動作するWebAPIです。
非常に簡単に音声通話などが実現でき、アプリケーションにAPIを組み込んで電話の機能が使えます。 また、クラウド型のサービスであり多額の初期投資がいらず、使いたい時に使いたいだけ利用できてその分の支払いでできるのも便利だと思います。

AITalk(http://www.ai-j.jp/

人間らしく自然な音声で自由な音声合成ができる音声合成エンジンです。 特徴として、 以下の3つがあります。

  • 人間の声に近い自然な音声
  • 豊富な話者のラインナップ。好みに合わせて利用可能
  • タレントさんや声優さん等、オリジナル話者もご要望に応じて作成可能

作成してみて、実際に人間が発生した声と何ら変わりなくて本当に驚きました。
このAlTalkは音声対話としてだけでなく、警報システムなどの現場で利用されているとのことです。
テキストから音声を作成することができるため、汎用性が非常に高く幅広い場面で利用できそうで、イメージするだけでも大変面白かったです。

ハンズオン

まず、AlTalkを使って音声合成をブラウザから行いmp3ファイルを作成。文章をテキストで書くだけで非常に人間に近い音声合成ができました。作成する音声も自由で、自分の好みの音声が作成できるだけでなく、テキストから音声合成を行っているため自由に読み上げてくれます。

次に、Twilioの方の設定を行いました。
アカウントを登録した時点で1つ番号が割り当てられており、その番号に掛けると読み込むxmlをサーバーに配置して公開します。そのxmlファイルをTwilioの画面でRequest URLで指定してあげることで中に書いてある処理を行うようです。上で書いた通り、このxmlファイルの作成も非常に簡単で実際に音声を流すだけであれば4行コードを書くだけで実現できました。
最初はSay動詞を使い、xmlファイル内で書いた文章をTwilioが音声化しました。こちらもAlTalkと同じ音声合成ですが、聞いた感じどうしても機械っぽさが拭えませんでした。
そこでTwilioとAlTalkを組み合わせることで、より自然な人間に近い音声を電話で再生することができるというのを次のステップで行いました。
Play動詞を使って音声ファイルとループ回数を指定してあげることでmp3のファイルが電話越しに再生されます。
xmlファイルに記述を追加してあげることでAlTalkで作成した、「より人間に近い自然な音声」を「簡単に電話で再生」することができました。
Twilioの動詞には他にもGather(プッシュした番号を認識)動詞や沢山の機能があるので触れていきたいです。
また、今回この2つの組み合わせは実際に触ってみて非常に面白かったです。
音声に興味を持ちながら今までこの手の勉強会に参加していませんでしたが、次回の音声のテキスト化も非常に興味があるので是非参加したいと思います。