いまさら聞けない深層学習

学習とは”分ける”こと。

機械学習(Machine Learning)1)いまさら聞けない機械学習の手法に、ニューラルネットワーク(Neural Network:NN)のアルゴリズムを用いたものがあります。これは人間の脳を模倣したモデルであり、この着想は1950年代ごろからあるものの、さまざまな問題から実用化には至りませんでした。その様相に変化が起きたのは2012年のことです。

きっかけのひとつが米Googleによるネコの認識です。YouTubeに投稿された動画から1000万枚の画像を取り出しでニューラルネットワークに入力し、そこに内在するネコたる特徴を自動的に抽出して抽象化することに成功しました。

もうひとつが2012年に開催された世界的な画像認識コンテスト「ILSVRC:ImageNet Large Scale Visual Recognition Challenge」において、カナダ・トロント大学のジェフリー・ヒントン教授のチームが開発したSuper Visionが優勝したことです。ここでは、画像に写っているものが何かを自動で判別する際の誤り率を競うわけですが、前年の優勝記録である25.8%から16.4%へと約四割も削減し、二位以下を大きく離す圧勝でした。

このSuper Visionに勝利をもたらした技術こそが深層学習です。深層学習(Deep Learning)は、人間の脳を模倣した多層ニューラルネットワークを用いた機械学習の手法で、コンピューターが自ら特徴表現を行うことが最大の特長です。

最近はやや落ち着いた感がありますが、人工知能(Artificial Intelligence:AI)あるいは機械学習という言葉を聞かない日はないくらいにバズワード化しています。これは第三次AIブームと呼ばれ、その火付け役がこの深層学習であることはいうまでもありません。すでに多くの文献や書籍でその解説が行われているため、いまさら感はありますが、機械学習や特徴表現、そしてニューラルネットワークについておさらいしつつ、深層学習とは何か、またその可能性について考えてみたいと思います。

いまさら聞けない機械学習」でも触れたとおり、機械学習は人間がもつ学習能力をコンピューターで実現する技術や手法のことです。人間のあらゆる能力を対象とするのがAIであるとするならば、機械学習はその一部にすぎません。

学習(Learning)の意味は文脈により異なりますが、とりわけ脳科学や人工知能の領域では”分ける“処理を意味します。ある事象について判断する、それが何かを認識する、などはすべて分ける処理であり、うまく分けることができれば、ものごとを理解・判断し、行動することが可能となります。また、いったん分ける基準や方法がわかれば、未知の事象を予測することも可能です。

自ら特徴表現を行う。

機械学習のアプローチの中に、人間の脳を模倣することで学習能力を実現しようとするものがあります。脳の内部ではニューロン(Neuron/神経細胞)がシナプスの結合によりネットワーク構造となっており、そこに電気が流れて情報を処理するコンピューターのようになっていることが知られています。その情報処理機構を数理モデルにしたものが多層ニューラルネットワークであり、それを用いた機械学習の手法が深層学習です。

多層ニューラルネットワーク(Deep Neural Network:DNN)の仕組みをもう少し詳しく説明します。あるニューロンは他のニューロンからの電気刺激をシナプスを経由して受け取り、それが一定以上たまると発火して次のニューロンに電気刺激を伝えます。これを数理モデルで表現すると、あるニューロンが他のニューロンから0か1の値を受け取り、その値に何らかの重みをかけて足し合わせ、それが一定の閾値を超えれば1、超えなければ0になり、それが次のニューロンに伝播するということになります。このモデルをニューラルネットワークといいます。ニューラルネットワークの階層は大きく、入力層隠れ層出力層の三つからなり、入力データは、入力層から隠れ層へ、隠れ層から出力層へと伝播されます。この隠れ層を多層にし、人間の脳の動きにより近づけたものがDNNです。

DNNを用いた深層学習の最大の特長は、コンピューターが自ら特徴表現をすることにあります。機械学習を用いた分類や予測において、正解を決定づける要因のことを特徴量(Feature Quantity)といい、それを抽出・抽象化することを特徴表現と言います。前述のGoogleのネコの認識でいうと、ネコをネコであると識別する上で、それを決定づける特徴をつかむことです。他の機械学習ではこれを人間が行う必要がありますが、無数の変数から特徴をつかむ作業が困難、あるいは想定していない特徴をつかむことができないなどの問題があり、自動化には大きな意味があります。

これを可能にしているのが、オートエンコーダ(Auto Encoder/自己符号化器)という次元圧縮の技術です。従来、ニューラルネットワークを作るには、正解である教師データを人が与えて学習させるという訓練フェーズが必要でした。たとえば、入力に手書きの「7」という画像を与える場合、出力に「7」という正解の識別情報を与える必要があるということになります。

一方でオートエンコーダでは、出力に入力と同じものを与えることで、入力を再現するデータを出力するようコンピュータ自身に訓練させるということを行います。つまり、入力に手書きの「7」という画像を与える場合、出力には全く同じ手書きの「7」を与えればよく、自動で行うことが可能です。そしてオートエンコーダは、出力が入力にできるだけ近いものになる、専門用語でいうと復元エラーが最小になるような特徴表現を自動的に探してくれます。

これはMNISTと呼ばれる0〜9の手書き数字の画像のデータセットでオートエンコーダを動かした場合の例です。上が入力データ、下が出力データですが、ほとんど同じような手書き数字が出力されていることがわかります。

DNNを用いた機械学習の発想は古くからあり、現在の深層学習につながる世界的に最も先駆的な研究に、日本のNHK放送技術研究所の福島邦彦氏によって1979年に発表されたネオコグニトロンがあります。これにはコンピューターが自ら学習することによってパターン認識能力を獲得する自己組織化機能があり、応用例として手書き文字データベースから自己学習によって手書き文字認識能力が獲得されることを実証しました。

しかしながら、当時は手書き文字認識方式の一つと誤解され、その重要性が世間に認識されませんでした。また、大量データと膨大な計算を行う超高性能なコンピューターを必要とするために実用化には至りませんでした。それらが克服されたことと、長年の研究によるアルゴリズムの進化が融合し、深層学習として具現化され、まさにいま盛り上がりを見せています。

一方で、「UXモデリングって?」でも触れたとおり、深層学習には大量の学習データが必要である導出されたモデルがブラックボックス化するなどの欠点があります。また過学習による汎化性能低下の問題もあります。いま現在において深層学習が実用化されているのは、大量の学習データを獲得しやすく、かつモデルを単純化しやすい画像処理などの一部の領域に限られているというのが現実です。

人の”目”となる深層学習技術。

そうだとしても、多くの問題解決に深層学習が有効であることが認められており、実用化が進んでいます。とりわけ重要なのは人の”目”の代わりになることであり、人手不足や働き方、高齢化などが大きな社会問題となる中で、もはや欠かすことができない技術となりつつあります。

大手コンビニエンスストアでは、24時間営業を見直す検討がなされており、既に数百店舗での実証実験が行われています。人手不足や加盟店の過酷な労働環境を是正することが目的ですが、一方で24時間営業をやめると利便性が低下し、他のチェーンや店舗に顧客を奪われるリスクもあるため、大きなジレンマに陥っています。そこで期待がかかるのが無人店舗の実現です。

米Amazon.comの「Amazon Go」が話題となり、中国でも無人コンビニが増加していますが、国内でもレジなし店舗を実現するための技術や製品の開発が進んでいます。2017年11月に、東日本旅客鉄道(JR東日本)の大宮駅にレジなし店舗が登場しましたが、これはサインポスト社が開発した「スーパーワンダーレジ」の実証実験店舗です。利用者が棚から商品を取ると、棚などに取り付けられたカメラがその状況を捉え、AIが識別して購入金額を自動的に計算します。利用者はレジで交通系ICカードをタッチするだけで精算が完了します。ここに深層学習の画像識別技術が活用されています。

出典:日経 xTECH

また最近では高齢者による自動車事故が相次いでおり、連日報道されるなど、社会問題として顕在化しつつあります。実際には高齢者よりも若年層のほうが事故率が高く、流通している情報や分析に偏りが見られるものの、今後の超高齢化社会では高齢者の母数が増大するため、率以上に数が問題となることは明白です。

環境問題も含めると、そもそもマイカーに依存しない交通インフラを目指すべきという考え方もあります。一方で、電気や水道などの生活インフラと同様、人口減少に伴う維持コストの問題もあり、コンパクトシティの実現と合わせて考える必要があります。日本よりも一足先に高齢化社会に突入したドイツやフランスなどの欧州各国では、トラム(路面電車)を中核としたコンパクトシティ構想を国家レベルで実証実験しています。日本でも取り組みは進められているものの、実現には多くの時間とコストを要します。

それを待たずして到来する超高齢化社会における交通問題に対して、現時点でもっとも有効かつ現実的な解が自動運転です。大手自動車メーカーはIT企業と協力しながら自動運転の実用化に向けた研究開発を進めていますが、当然ながらここでも人の”目”の代わりになる技術が重要となります。

本田技研工業(ホンダ)はすべての人に事故ゼロと自由な移動の喜びを提供するために自動運転の研究開発に取り組んでおり、マイカーのレベル4自動運転技術の確率を目指しています。レベル4自動運転技術とは、緊急時にも運転手が対応せず、コンピューターが主体として全責任を持つ、すなわち運転手が運転操作に参加することを前提としないというものです。ただし限定エリア内の制限があるため、エリア外での運転を想定し、ハンドル・アクセル・ブレーキなどは設備します。

ホンダは車体の前・左前・右前に設置された三台のカメラで視覚情報を取得し、深層学習により物体や距離の識別を行うことで、自動運転のための状況の理解と判断を実現しようとしています。

出典:レスポンス

このように深層学習は、人の”目”となることで、現代社会が抱える問題を解決し、生活をサポートする技術として高い可能性を秘めています。AIが人の仕事を奪うということがうるさく言われていますが、すべての技術革新は何らかの形で従来の仕事を自動化・代替してきたわけであり、AIだけが特別なものではありません。人間がやらなくてもよい作業をAIに代替させ、より創造的なことに時間を使えるようになるということです。

脚注   [ + ]

1. いまさら聞けない機械学習