スパースモデリングって?

特徴を決定づける要素はわずか。

2019年4月10日、物理学・天文学における快挙が発表されました。世界で初めてブラックホールの撮影に成功した、というものです。アインシュタインの一般相対性理論によりその存在は知られていたものの、その実体を視覚的に捉えることはできませんでした。なぜなら、極めて大きな天体であるため、観測するには地球ほどのサイズの望遠鏡が必要となるからです。しかしながら、世界8箇所の望遠鏡で同時に観測したわずかなデータから、スパースモデリングという画像解析技術でその実体を浮かび上がらせることに成功しました。(※2019年4月11日に加筆)

出典:国立天文台

スパースモデリング(Sparse Modeling)は、物事に潜むスパース性を利用した情報抽出技術で、いま注目されている技術のひとつです。スパースとは「まばらな」を意味し、スパース性とは物事の本質的な特徴を決定づける要素はわずかであるという性質を示します。

写真の画像データを例にすると、画像は画素の集合ですが、隣り合う画素間で値が大きく異なるところはわずかで、写っている物質が変化する境界線の部分だけになります。このような場合に、スパース性があるといいます。

スパースモデリングには以下の三つの特長がありますが、ここであることに気づきます。

  • データが不足している状態でも分析ができる
  • 大量データをスパースにすることで分析の時間やコストを圧縮できる
  • 複雑なデータ構造をわかりやすく表現できる

UXモデリングって?」でも触れたように、ビッグデータ(Big Data)1)再考するビッグデータによる機械学習(Machine Learning)2)いまさら聞けない機械学習には、大量の学習データが必要である、導出された予測モデルのメカニズムがブラックボックス化して説明しづらくなるという欠点があります。つまりスパースモデリングの特長は、ビッグデータによる機械学習の欠点の裏返しであり、補完できることを意味します。

スパースモデリングは、機械学習のもつ変数選択と予測モデルの説明の難しさの問題を、高次元なデータを数学的に説明可能な次元まで落として、シンプルな数理モデルにすることで解決してくれます。数学的に説明可能というとわかりづらいですが、連立方程式の問題としてとらえると比較的わかりやすいでしょう。

連立方程式の問題。

連立一次方程式の問題で考えてみます。

問1:以下の数式を満たすx, yを求めよ。

$$2x+3y=7\\x-y=1\\$$

答えは (x, y) = (2, 1) で、何の問題もありません。では次の問題。

問2:以下の数式を満たすx, yを求めよ。

$$2x+3y=7\\$$

この問題は解くことができません。正確には、答えが (x, y) = (2,1)、(x, y) =(5,-1) など無数にあるため一意に特定できない、ということになります。これは未知数の数に対して数式の数が足りないことが原因です。ここで欲しくなるのが、数式の数が足りない連立方程式から一意の解を見つける手法です。次の問題を考えてみます。

問3:以下の数式を満たすx, y, zを求めよ。ただしx, y, zのうち0でないものは1つだけである。

$$x+y+2z=1\\x-2y-z=-2\\ $$

答えは (x, y, z) = (0, 1, 0) となります。未知数の数に対して数式の数が足りないにもかかわらず、「x, y, zのうち0でないものは1つだけ」というヒントにより一意の解が得られることになります。このヒントのことをスパース条件といいます。

つまり、物事の本質的な特徴を決定づける要素はわずかであるという性質(スパース性)を、スパース条件として表現できれば、未知数の数に対して数式の数が足りなくても、答えを導出できることになります。この原理が、データが不足している状態での分析や、大量データをスパースにした分析を可能にします。

ちなみに、スパース条件の変数選択との違いは、いくつの未知数を無視できるかがわかればよく、どの未知数を無視できるかがわからなくても答えが得られるという点です。これは非常に大きな違いです。なお、未知数を無視するとは、存在しないものとすることで、数学的には0として扱うことを意味します。

スパースモデリングを応用する。

この非常にシンプルな連立方程式の理論が、スパースモデリングのひとつである圧縮センシング(Compressed Sensing)という技術を支えています。圧縮センシングとは、観測対象データがある表現空間にはスパース性があると仮定して、必要とする未知数の数よりも少ない観測データから、あるスパース条件の下で対象を復元する手法です。

観測データを大量に獲得することが難しいケースがあります。そもそも物理的に取得できない場合はもちろんですが、たとえば医療の現場では、一刻を争うような患者の診断を行う場合に、患者の負担軽減なども含めて、MRIの撮影にかかる時間はなるべく短縮したいというニーズがあります。

京都大学医学部では、スパースモデリングを使ってMRIの撮影にかかる時間を短縮させる研究が行われており、MRIのデータが80%欠損していても、ほぼ正確な画像を復元することに成功しています。これには、物質と物質の境界線のみで画素値が大きく変化するというMRI画像の特性が利用されています。

京都大学大学院医学研究科 放射線医学講座
(画像診断学・核医学)提供
出典:ZDNet Japan

今後の応用分野として注目されるのは、マーケティングでしょう。ユーザーの行動データから未来の行動を予測したいという欲求は常にありますが、5GとIoTの普及により行動データが大量かつ広範囲にわたって収集されることになり、そのニーズはさらに加速する一方で、分析は非常に難しくなります。

UXモデリングって?」でも書いたとおり、人間は実にいろいろな要因に影響を受けて意思決定を行います。つまり考慮すべき変数が異常に多いわけです。機械学習や深層学習で予測モデルや特徴量の抽出が機械的に行われたとしても、そのモデルのメカニズムを説明することは困難です。この問題に対するスパースモデリングの有用性が期待されます。

また、スパース条件を事前確率ととらえれば、スパースモデリングがベイズ推定(Bayesian Inference)3)いまさら聞けないベイス推定の一つであることがわかります。ベイズ推定は、目の前に現れる事実と、これまでの経験(事前確率)から、知りたいことを少ない情報で推定する手法で、幅広く応用されています。

最後に、この記事を書くにあたり、日高昇治氏・松下亮祐氏・楠田哲也氏による著書「スパースモデリングって何だ?―データ構造を解き明かす先端技法」を参考にさせていただいたことをお伝えします。スパースモデリングの本質や理論がとてもわかりやすく解説されていますので、興味のある方はぜひ読んでいただきたいと思います。

脚注   [ + ]