おむつとビール。
データマイニング(Data Mining)は、統計学や人工知能(Artificial Intelligence:AI)などの手法を使って大量のデータから知識を取り出す技術のことで、文字通り知識を採掘(Mining)するイメージです。
このデータマイニングという技術や言葉が普及するきっかけになったのが、有名な「おむつとビール」の話です。1992年に大手スーパーマーケットチェーンのOsco DrugsがPOSデータを分析したところ、おむつとビールが併売されることが多いことがわかりました。このような併売傾向を分析する技術を、買い物かごにみたててバスケット分析(Basket Analysis)といい、事象間の相関の強さを分析する技術であるアソシエーション分析(Association Analysis)1)アソシエーション分析入門の、マーケティング領域における代表的な実用例となっています。
同じくマーケティング領域においては、1to1マーケティングとよばれる、数百万人の顧客をいくつかのセグメント(似た者同士)に細分化し、それぞれのセグメントに対して個別にマーケティング施策を行うことで、ビジネス成果を最大化するアプローチがありますが、このセグメントの分類手法として、教師なし機会学習の代表手法でもあるクラスタリング(Clustering)2)いまさら聞けない機械学習がよく用いられます。
データマイニングの手法や技術の多くは、機械学習と一致します。ビッグデータ化にともなう機械学習の進化は、すなわちデータマイニングの進化を意味します。一方で、データマイニングという言葉の盛り上がりは、かつて2000年代中頃にあったものより鎮静化しているように思います。それはなぜなのでしょうか。そして今後はどうなるのでしょうか。再考してみたいと思います。
データマイニングへの期待と失望。
データマイニングのもつ価値は、前述の「おむつとビール」の話に代表されるように、想像もしていなかった知識を発掘することにあります。まさか、おむつとビールがよく併売されるとは思わないからです。このことが、データマイニングの期待を高めることになるわけですが、同時に期待を裏切ることにもなります。
期待を裏切るポイントは大きく二つあります。ひとつは、想像もしない知識が発掘されたとして、実際の施策に展開しづらいことが多いこと。もうひとつは、結果として想像の範囲内の知識しか得られないことが多いことです。
前者については、これも「おむつとビール」が典型例です。おむつとビールが併売されることがわかったとして、実際に同じ売り場に置くわけにはいきません。もっとも、おむつ売り場とビール売り場の動線上に、さらに併売傾向が見られる商品をうまく配置する、などの施策につながる可能性はあります。
やっかいなのは後者で、そもそもデータの中に想像もしない知識が埋もれているという保証はありませんし、あったとして、大量のデータからそれを拾い上げるのは非常に困難です。分析結果に何らかの知識が隠されていたとしても、結局それを解釈するのは人間であり、そこには深い経験と膨大な労力がかかります。魔法の杖のように自動的に知識がもたらされるという幻想をいだいていると、必ず期待を裏切られることになります。このことが、データマイニングという言葉の盛り上がりを鎮静化させた要因です。
重要なのはスパイラルモデル。
データ分析には大きく、検証的アプローチと発見的アプローチの二つのアプローチがあります。検証的アプローチとは、あらかじめ存在する仮説が正しいかを検証することで、例えば、あるコンテンツXの閲覧とある商品Yの購入に因果関係があるのではないか、という仮説を、実証実験などで検証するアプローチがこれです。この仮説検証を繰り返すことで分析精度が上がるわけですが、欠点が二つあります。ひとつは、もともとの仮説の精度が低いと、仮説検証に膨大なコストがかかること。もうひとつは、想像の範囲内の仮説しか立てられないことです。
この検証的アプローチの欠点を補うのに、発見的アプローチが有効となります。発見的アプローチにより、比較的精度の高い仮説を抽出できたり、想像の範囲を超える仮説を発見できることがあります。つまり、この二つのアプローチは、どちらをとるべきか、ではなく補完関係にあり、行き来しながらスパイラルモデルを描くことで、効率的に分析精度を高めることができます。そして、この発見的アプローチに有効な手法こそがデータマイニングなのです。
ビッグデータ化により、大量であることはもちろん、多様なデータが収集可能となりました。その中で、一部の人間の経験や能力に頼った仮説設定は、本当に重要な要素を見逃す危険性を高めてしまうでしょう。そこでデータマイニングは有益なヒントを与えてくれる可能性があります。かつてデータマイニングに幻想と失望をいだいたのであれば、その観点で見直してみるのはいかがでしょうか。
関連する記事
須川 敦史
UX&データスペシャリスト
クロスハック 代表 / uxmeetsdata.com 編集長
脚注
1. | ↑ | アソシエーション分析入門 |
2. | ↑ | いまさら聞けない機械学習 |