音声によるインターフェース

手で操作しなくても、話せばその通り動いてくれる、応えてくれるというのは、まるでSF映画の世界のような華やかなインターフェースです。 しかし、音声認識はユーザーインターフェースの主流になり得るのだろうか?と思う部分もあります。

まず、場所を選びます。電車の中でスマートフォンを使っている人をたくさん見かけますが、この人達がスマートフォンに向かって話しかけるようになるとは到底思えません。 むしろ、電車の中でスマートフォンに向かって発話するようになったら、通話はご遠慮くださいどころの騒ぎではなくなるでしょう。

家の中でも、一人暮らしならともかく家族も一緒にいるリビングでテレビに向かって話しかけるとか恥ずかしくてできません。また、人がテレビを見ている隣でタブレットに向かって話しかける家族も迷惑です。このように考えれば、音声で操作するのに向いているシチュエーションはかなり限定されることになります。

もうひとつの課題として、操作する対象の機能をすべて理解して、それを音声で指示できなければならない、ということが挙げられます。たとえば、現在スマートフォンなどで使われているアプリを音声で操作するためには、そのアプリで何ができるのか?どんな機能が備わっているのか?を予め知っておく必要があります。そうでなければ、そのアプリに向かって何を話せば良いのかわかりません。

タッチ操作であれば、操作の対象は画面上に表示されていますので、とりあえず片っ端からボタンを押していけば、どんな機能があるのか?どんなことができるのか?を知ることができますが、発話だけで指示するのであれば、事前に操作の対象を十分に理解しておかなければなりません。

iPhoneに搭載されているSiriでは、認識がうまくいかない場合にどのように話しかければいいのかを例示してくれますが、そういった弱点を補うためのものなのです。

このことから考えて、GUI(グラフィカルユーザーインターフェース)よりも、CUI(キャラクタユーザーインターフェース)に似ていると言えます。最近では「黒い画面」と呼ばれていることが多い、コマンドをキーボードから入力する操作のことです。

GUIでは、主に画面のアイコンやメニューを順に操作して目的の機能に到達するのに対して、CUIは実行したい機能を直接呼び出すことができるというメリットがあります。 一方で、コマンドを習得しておかなければならないというデメリットもあり、これらの特徴は音声認識にも共通しています。 もちろん、音声認識の場合は多少の揺れを許容することが多く簡単とは言えますが、その一方でCUIには入力補完やヘルプ機能などの支援機能がありますので、指示のしやすさという意味ではほぼ同じレベルと言えます。

音声認識インターフェースの用途

まとめると、「音声による機器の操作」というのは「利用するシチュエーションが限定される」「操作対象の機能を把握していなければならない」という二つの条件を満たしている時に使えるものになると考えられます。

この2つの条件を満たす具体的な例として挙げられるのが、車の中での機器の操作。 車の中は閉じた空間ですし、操作する対象はカーナビやオーディオなどの限られた機器、しかもそれらの機能はおおよそ把握できているか、想起できるものばかりで、あらためて習得することはほとんどありません。なるほど、AppleやGoogleが車載機器へ進出している理由も納得できます。

インターフェースの棲み分け

どうやら、音声認識は「機器操作」を目的とした場合、GUIを置き換えるものではなく、一部の分野で有効なインターフェースとなりそうです。

しかし、それはあくまでも「機器操作」に限った場合であって、検索のように特定の発話内容に寄らないものであれば、GUIに置き換わるものになる可能性はあるかもしれません。

現在の検索でも、検索キーワードの入力途中で候補が出てくるように、まだまだ文字入力の方が便利に使えそうですが、対話によって自然にユーザーの意図をくむようになれば音声認識の方が使いやすいということになるような気がします。

「聴く」ことはもちろん、「いかに上手く話すか」の課題を解決して「応答速度」と「応答精度」が上がり、利用者との対話がスムーズに進むようになれば「音声認識」はもっと実用的なインターフェースになるのでしょう。この部分についてはもう少し考えてみたいと思っていますが、もし何か良いアイデアが出てきそうなら紹介させていただきます。