Interface　2018年4月号『AIスピーカの仕組み／音声信号の科学』

■特集案内

　インターフェース 4月号の特集1では，昨今話題のAIスピーカの仕組みと，自作AIスピーカを解説します．また，特集2は，AIスピーカの礎とも言える音声信号について解説します．さらに，特集3では，IoTやAIで使用するGoogleクラウドを紹介いたします．今回も盛りだくさんなインターフェースをお楽しみください．

　2014年の11月にアマゾンがAmazon Echoと呼ぶAIアシスタント付きのタワー型のWi-Fiスピーカを発表しました．そのスピーカにはAlexaというAIアシスタントが搭載されており，ディープ・ラーニングを応用して高めた「音声認識精度」と「会話能力」から，AIスピーカまたはスマート・スピーカと呼ばれ，注目されるようになりました．当時はアップルのSiriや，グーグルのGoogle Nowなどがあり，大手しか開発に携われない印象でした．

　ここではスマート・スピーカに使われている基礎技術について解説します．おおまかに言ってしまえば，
ステップ1・・・人が話した言葉をテキストに変換
ステップ2・・・自然言語処理によって要求を理解
ステップ3・・・要求を処理した結果を音声で返す
という流れになります．

　世間ではアマゾンのAlexaを搭載したスピーカAmazon Echoが注目を集めています．また，家電機器が「Alexa」から操作できるようになったというニュースもあります．Alexa Serviceはアマゾンの音声認識サービスの総称です．Alexa Serviceには大きく2つのフレームワークがあります．

　グーグルのスマート・スピーカ端末をGoogle Homeといいます．このスマート・スピーカを実現するために以下を公開しています．
1，デバイス側で動作するGoogle Assistant SDK
2，アプリケーション側のフレームワークとしてActions on Google

　アマゾンのSkillと同じように，Google AssistantにはActionがあります．本章ではActionの作り方を解説します．これでMy装置を音声で操作できるようになります．ここではラズベリー・パイを用いて，赤外線を使って家電の操作を行います．赤外線での家電操作には前章のラズベリー・パイ環境に追加で，赤外線送信モジュールが，さらにコードを学習させる場合は受信モジュールが必要となります．

　現在では，コンピュータを使ったサウンド信号のリアルタイム処理は，身近なところでも盛んに使われています．例えば，携帯電話で音声のやり取りをする場合でも，音声というサウンド信号の処理が欠かせません．最近話題のスマート・スピーカ（AIスピーカとも呼ばれる）でも音声信号処理が行われています．

　アマゾンやマイクロソフトなど，数多くのクラウド・ベンダが，IoT向けのクラウド・サービスを提供し始めています．その中で，ここで紹介する「Google Cloud」は，グーグルが提供するクラウド・サービスです．
　クラウドのトップ企業であるグーグルが，世界中に展開する強力なインフラや，集めてきた膨大なデータを使って作成されたAIサービスを，ユーザが簡単に利用できます．