ビッグデータによる機械学習の欠点。
ユーザーの行動データから意思決定プロセスなどの行動特性をとりだして、似たようなユーザーの未来の行動を予測したい。あるいはこちらの意図した行動を再現したい。こういったニーズはビジネスシーンではよく起こります。
これに対し、ユーザーの行動データを観察することは有効なアプローチです。クロスハックでは、データエスノグラフィ(Data Ethnography) 1)データエスノグラフィって?という、一人ひとりの行動データをミクロ視点で観察し、時系列に追うことで、ユーザーの意思決定プロセスの理解や発見を行なう技術を研究開発しています。とはいえ、大量のデータから観察すべきユーザーを見つけることは容易ではなく、マクロ視点での分析も求められます。
真っ先に思いつく解決手段として、機械学習(Machine Learning)2)いまさら聞けない機械学習があります。データを基にした予測・分類・回帰などの問題に対して、機械学習は有効な手段です。とりわけ深層学習(Deep Learning)に代表されるビッグデータ(Big Data)3)再考するビッグデータによる機械学習は、コンピュータやネットワークの技術革新により、大量データの収集や分析が容易になったことで、その有用性が非常に注目されています。
一方で、ビッグデータによる機械学習には大きく二つの欠点があります。ひとつは、大量の学習データが必要なこと。もうひとつは、予測結果は出せるものの、導出された予測モデルのメカニズムがブラックボックス化して説明しづらくなることです。
前者は、データ蓄積が充分でない場合や、発生がまれでデータ量が確保できない場合に困ります。たとえば大地震の発生や株価の大暴落の予測を、ビッグデータによる機械学習で行うのは難しいでしょう。後者は、変数が多い場合に、機械学習によって作られる予測モデルが複雑化するために起こる現象です。予測精度は悪くないものの、メカニズムを説明できないため、再現性への疑問が払拭できない、ということになるわけです。
では、ユーザーの行動を予測して再現したい場合はどうでしょう。かつてない新商品の購買行動を機械学習で予測することはできません。学習データが存在しないからです。一方で学習データが大量にある場合はどうでしょうか。人間は実にいろいろな要因に影響を受けて意思決定を行います。つまり考慮すべき変数が異常に多いわけです。はたして機械学習は有効な手段なのでしょうか。
複雑なユーザー行動をシンプルに。
意思決定プロセスなどの複雑なユーザー行動をデータから取り出してモデル化する場合には、解釈や説明をしやすいシンプルで汎用性のあるモデルにする必要があります。クロスハックではこれをUXモデリング(UX Modeling)と呼んでいます。モデリングとは、事象を抽象化し、数学的に扱える形の数理モデル(Mathematical Model)にすること意味します。
ある瞬間の意思決定にフォーカスすれば、機械学習は有効かと思われます。たとえばECサイトで商品をレコメンドした際の購買の予測などがそれです。意思決定の要因となる変数を、初めからかなり限定できるからです。年齢・性別などのデモグラフィック属性、過去の購買履歴から導出した嗜好性、レコメンドした商品の特徴などから、比較的シンプルなモデルを作成できるでしょう。
一方で、月や年単位におよぶ購買行動の変化や、自動車や住宅などの検討期間が長い商材の購買意思決定などはどうでしょう。意思決定の要因となる変数は、時間とともに雪だるま式に増えるため、とても複雑なものになりそうです。
変数を選択するための手法。
ここで問題となるのが、変数をどのように選択するのかということです。これは次元圧縮(Dimensionality Reduction)ともいわれ、統計やデータサイエンスの根本課題でもあります。主成分分析や多次元尺度構成法なども次元圧縮の手法ですが、これは人間が視覚的に認識できるよう低次元(三次元以下)に落とすことを目的としています。ここでいう次元圧縮は、高次元なデータを数学的に説明可能な次元まで落として、シンプルな数理モデルにすることを意味します。連立方程式にできれば数学的に捉えることができる、といえば何となくイメージできるかと思います。
変数選択や次元圧縮の問題に対して、いま注目されている手法にスパースモデリング (Sparse Modeling)4)スパースモデリング って?があります。スパースは「まばらな」を意味し、希薄なデータから目的の情報をとりだしたり、複雑なデータをスパースにすることで本質を浮かび上がらせる手法です。
この他にも、変数の多い複雑なデータをシンプルな数理モデルで捉えるための手法やアプローチはたくさんあります。さまざまな手法を試しながら、複雑なユーザー行動をシンプルなモデルにするUXモデリングの方法論を体系化して行きたいと思っています。
関連する記事
須川 敦史
UX&データスペシャリスト
クロスハック 代表 / uxmeetsdata.com 編集長
脚注
1. | ↑ | データエスノグラフィって? |
2. | ↑ | いまさら聞けない機械学習 |
3. | ↑ | 再考するビッグデータ |
4. | ↑ | スパースモデリング って? |