いまさら聞けない音声AI

人が関与しないコミュニケーション。

2018年5月のGoogle I/Oで、音声アシスタント(Voice Assistance)のGoogle Assistantの拡張サービスとして、電話代行サービスであるGoogle Duplexが発表され、そこで行われたデモは世界に衝撃を与えました。それはAIが利用者に代わって飲食店や美容室に電話予約を入れるというもので、やりとりの音声だけを聞くと、どちらが人間かもわからないくらいに自然な会話となっており、従来の一問一答のものとは一線を画していることがわかります。

一方で、自動音声応答装置(Interactive Voice Response:IVR)による電話受付の自動化も進んでおり、近い将来、音声アシスタントとIVRによる人が関与しない通話コミュニケーションが実現するかもしれません。

このような新しいユーザー体験が実現する背景には、音声認識技術の進歩があります。そこで今回は、音声認識を中心としたテクノロジーや人工知能(Artifical Intelligence:AI)の、現在の動向や未来の可能性について言及しようと思います。

隠れマルコフモデルによる音声認識。

そもそも音声認識(Voice Recognition)とは、人間が発する音声情報としての自然言語をコンピューターに認識させることであり、音声情報を文字情報に変換したり、発言者や発言内容の特徴をとらえて識別するなどの機能を実現します。

音声認識技術の歴史は長く、前回の「いまさら聞けない音声UI」でも触れた通り、1960年代初期にIBM社により開発されたShoeboxがそのルーツだと言われています。それが消費者向けに商品化されたのはそこから約半世紀後のこと、Apple社が2011年に発売したiPhone 4Sに搭載された音声アシスタントのSiriがそれでしょう。ただし、当時は音声認識の精度が低く、実用にはまだ遠いものであったことも事実です。

それがここ数年で状況が大きく変化し、音声認識の精度は格段に上昇しました。それに伴い、前述のGoogle社のGoogle Assistantや、Amazon社のAlexaなど、大手IT各社の音声アシスタントが登場し、今なお発展と進化を続けています。その背景では、どのようなブレイクスルーが起きていたのでしょうか。

音声認識技術の本質は、空気の振動である音声からパターンや特徴を抽出し、発言者や発言内容を識別することにあります。その際、過去のデータから学習したモデルをもとに推論を行うわけですが、そこでは主に隠れマルコフモデルが利用されています。隠れマルコフモデル(Hidden Markov Model:HMM)とは、直前の結果のみから次の結果が確率的に求まるというマルコフ性を仮定して事象をモデル化する手法です。これにより、最後に発話された言語の要素から次に発話される言語の要素を確率的に推論することで認識精度を向上させることが可能となります。

ただし、この手法は確率に基づく推論モデルを事前に構築しておく必要があります。すなわちエキスパートシステム(Expert System)1)再考するエキスパートシステムでいう知識ベース(Knowledge Base)が必要であり、その構築には膨大な時間と労力を要します。

またそれゆえに、会議やプレゼンのような比較的正確な文法や標準的な語彙が使われるビジネス会話には対応できますが、文法的に崩されたりスラングが多用される日常会話に対応することが極めて難しいという欠点があります。

深層学習による音声認識。

その欠点を克服する技術として、いま急速に進化しているのが、深層学習による音声認識です。深層学習(Deep Learning)2)いまさら聞けない深層学習は、人間の脳を模倣した多層ニューラルネットワーク(Deep Neural Network:DNN)を用いた機械学習の手法で、コンピューターが自ら特徴表現を行うことが最大の特長です。これにより、モデルの中身がブラックボックス化されるという欠点はあるものの、多用な文法表現や語彙表現に対応する推論モデルの構築が可能となり、日常会話のような自然な会話においても実用レベルになりつつあります。

深層学習により、音声認識の技術レベルは格段に上がりました。あとは多様なデータからモデルの多様性や精度を向上させたり、あるいは学習や推論にかかるコストを下げることでさらに実用性が向上していくものと思われます。これは音声認識技術そのもののブレイクスルーというよりは、例えば音声データのノイズを除去する技術や、音声データを高速に通信する技術などの周辺技術に依存するものと言えるでしょう。

とはいえ、ここでいう音声認識とはあくまで音声をパターンとして認識することであって、意味を理解するということではありません。現在のAIは「小さい子供の服」と言った場合に「小さい」が「子供」にかかるのか「服」にかかるのかを識別できません。人間であれば、慣習やそれまでの話の流れ、あるいは周囲の環境などの多様な情報からその意味を識別できます。

意味の理解については、音声認識だけではなくAI全体の課題であり、その実現に向けては越えるべき技術的な壁が多くあります。とはいえ、意味を理解するための背景や周辺の多様なデータは集まりつつあり、それを高速に学習する技術も向上しています。実現に向けて少しずつ近づいて行っていることは間違いないでしょう。

脚注   [ + ]