いまさら聞けない音声UI

普及期にある音声UI。

Apple社のスマートスピーカーであるHomePodが日本にようやく上陸しました。これにより、すでに一般家庭に普及しつつあるAmazon社のAmazon EchoとGoogle社のGoogle Homeと合わせて、IT大手3社のスマートスピーカーが出揃った形となります。

スマートスピーカー市場は全世界で拡大を続けており、Voicebot社が米国の成人に対して実施した調査において、四人に一人が所有しているという結果が報告されています。日本での普及率は6%程度と言われており、まだこれからという感じですが、サービスの拡充とともに普及が進むものと思われます。2019年は後にスマートスピーカー元年と呼ばれるかもしれません。

また、スマートスピーカーの普及とあわせて音声UIの利用も進んでいます。Gartner社の調査によると、音声UIによる情報検索である音声検索が、2020年には全検索の30%に達するとのことです。かつてのPCのグラフィカルユーザーインターフェース(Graphical User Interface:GUI)やスマートフォンのタッチUIがそうであったように、音声UIには従来のUIの多くを置き換える可能性があります。

そこで、いまさら感はあるものの、音声UIとはそもそも何で、どのような特長があるのかについて改めておさらいしつつ、未来の可能性について言及してみようと思います。なお、今回はユーザーインターフェース(User Interface:UI)情報設計(Information Architecture:IA)の視点にフォーカスするとし、テクノロジーや人工知能(Artifical Intelligence:AI)の視点は次回の「いまさら聞けない音声AI」に譲るとします。

”ながら”を可能とする。

音声UI(Voice User Interface:VUI)とは文字通り音声を基軸としたUIであり、人間が発する音声情報としての自然言語により機械を操作することを目的とします。

実は音声UIの歴史は長く、1960年代初期にIBM社により開発されたShoeboxがそのルーツだと言われています。とはいえこれは音声UIというよりは音声認識装置でしょう。音声を正しく認識することを目的としており、これにより機械を操作することを目的としていないからです。

音声UIとして明確に商品化されたのはそこから約半世紀後のこと、Apple社が2011年に発売したiPhone 4Sに搭載された音声UIのSiriがそれです。ただし、この時点では音声認識の精度が低く、かつスマートフォンの利用機会の多くが自宅外であったため、音声による操作が定着することはありませんでした。

しかしながら、スマートフォンネイティブな世代が増えるにつれ自宅内でのスマートフォン利用が進み、さらにAmazonとGoogleが低価格でスマートスピーカーを提供したことも手伝って、現在では音声UIの利用が定着化しつつあると言えます。また、2012年以降に深層学習(Deep Learning:DL)の技術が発達し、実用化されたことで音声認識の精度が格段に向上していることも、音声UIの普及を後押ししていると言えるでしょう。この点については次回「いまさら聞けない音声AI」で触れたいと思います。

ところで、GUIを中心とした従来UIと比較した場合の音声UIの特長とは何でしょうか。それは大きく二つあります。ひとつは、手を使わずに操作できるという点です。これにより、料理をしながらレシピを調べる、子供の面倒を見ながらタクシーを呼ぶ、などの“ながら”行動が可能になります。また、スマートスピーカーの利用機会として最も多いのは音楽を聴くことらしいですが、それそのものが音声情報であり、必ずしも視覚情報を必要としないため、音声UIが適しているのは必然と言えるでしょう。

もう一つは、視覚情報を表示するためのモニターや、GUIを操作するためのタッチパネルが不要であるという点です。これは今後のIoTの普及には不可欠の要素と言えるでしょう。小さなデバイスにモニターを装備することはできませんし、利用者側としても全てをタッチパネルで操作しなければならないのは非常に不便です。

もっとも、上記の問題の解決には音声UI以外にも、ジェスチャーや視線による操作、あるいは脳直結インターフェースなどのUIも実用に向けて研究開発が進んでいるため音声UI固有の特長ではありませんが、比較的容易に実現できるという点で実用面ではリードしていると言えるでしょう。

ただし、音声UIは自宅以外での利用にやや抵抗感がある、あるいは音声UIデバイスが近くに複数ある場合に操作対象を特定しづらいなどの欠点もあります。したがって今後は、様々な形態のUIが適材適所で採用されていくのではと考えられます。

音声UIが変えるユーザー体験。

最後に、音声UIは私たちの生活やユーザー体験をどのように変化させるのでしょうか。前述のとおり、音声UIの特長は手を使わずに操作できるという点であり、それにより”ながら”行動が可能となるということは、直接的にもたらされる変化と言えます。一方で、それとは別に間接的にもたらされる変化もあります。

そのひとつは、情報検索体験でしょう。冒頭で音声UIによる情報検索が増加しているということをお伝えしましたが、これは明らかに従来とは異質なものです。PCからスマートフォンへと情報検索デバイスの主役が変化する中で、より小さな画面でどのように検索をしやすくするか、あるいは検索結果を表示するか、などが検討され、最適化されてきましたが、それ同様あるいはそれ以上の変化が生じます。具体的には、音声情報には視覚情報のような情報の一覧性が当然ながら存在しないため、複数の情報は順次に伝達するほかありません。したがって、検索結果の優先順位の決定はより重要な課題となります。

また、検索結果が期待するものでなかった場合、検索条件をそこに追加するのか、あるいはいったんクリアして最初から検索し直すのか、などの細かい操作がGUIでは簡単ですが、音声UIで言葉だけで操作するのは極めて困難です。したがってそれをサポートするようなインタラクションが必要です。このように、音声UIによる情報検索体験は従来とは全く異なるため、最適化が必要であり、音声検索最適化(Voice Search Optimization:VSO)と呼ばれています。

もうひとつの大きな変化は、音声アシスタントによるコミュニケーション体験でしょう。音声アシスタント(Voice Assistance)とは、音声情報としての自然言語による問いかけや要求に対し、適切に回答したり、動作したりする機能・サービスのことで、Apple社のSiri、Google社のGoogle Assistant、Amazon社のAlexaがその代表例です。前述のとおり、音声UIによる情報検索はGUIと比較して不便なことも多くサポートを必要としますが、それには利用者の検索意図を理解したり、あるいは趣味嗜好に合わせて検索結果を最適化するなどの能力や学習が求められます。一方で、それらを理解すると、単に利用者の要求に回答するだけでなく、利用者の行動を代行することが可能となります。

2018年5月のGoogle I/Oで、Google Assistantの電話代行サービスであるGoogle Duplexが発表され、そこで行われたデモは世界に衝撃を与えました。これはまさに、利用者が飲食店や美容室に電話予約を入れるという行動を代行するものです。一方で、自動音声応答装置(Interactive Voice Response:IVR)による電話受付の自動化も進んでおり、近い将来、音声アシスタントとIVRによる人が関与しない通話コミュニケーションが実現するでしょう。このように音声UIには、ユーザー体験を根底から変えてしまう可能性があるわけです。