UXモデリング入門 #02

SPMによるUXモデリング。

頻出する事象の組み合わせを抽出する手法を総称して頻出パターンマイニング(Frequent pattern mining)といいます。その代表的な手法がアソシエーション分析(Association Analysis)1)アソシエーション分析入門であり、「商品Xを購買した顧客は商品Yも購買している」というような向きのある相関関係を得られることが特徴ですが、一方で時系列的な順序が考慮されないという欠点があります。

アソシエーション分析の一種であるバスケット分析(Basket Analysis)は、文字通り同じ買物かごに含まれる商品の組み合わせのパターンを分析する手法ですが、このように”同時“に発生する事象については問題ないものの、複数回の買物で購買商品がどのように推移したかというような、時系列の概念を含むパターンを分析することには向かないわけです。

そこで、時系列を考慮した頻出パターンマイニングである系列パターンマイニング(Sequential Pattern Mining:SPM)が、1995年にIBM研究所のR.AgrawalとR.Srikantによって提唱されました。また、このSPMがUXモデリングの比較的簡単なアプローチのひとつとして適用可能であることは、前回の「UXモデリング入門 #01」で説明した通りです。

そこで今回は、SPMを使ったUXモデリング実践の入門編をご紹介したいと思います。なお、分析ツールはGoogle BigQueryTableau DesktopGoogle Cloud Datalabの三つを用いて進めます。それぞれについては「BigQueryではじめるSQL」「TableauではじめるBI」「アソシエーション分析入門 #02」を参照してください。

UXモデリングの手順。

UXモデリングは以下の手順で進めます。

  1. 分析の背景の整理目的の明確化
  2. データ準備基礎分析
  3. 行動パターンのモデリング
  4. 対象ユーザーの抽出と観察

データ分析に限らず、何らかの課題解決をするには、まずその背景を整理し、目的を明確化する必要があります。当たり前の話ですが、失敗するデータ分析の多くは、ここをあいまいにしたまま、とにかく何らかの有用な知識を獲得したいという思いのみで行われており、時間とコストを浪費する結果となっています。

またデータは「存在する」状態と「分析できる」状態では全く異なります。そして多くのデータは分析することを目的に収集されておらず、そもそも構造化されていない、あるいは欠損・異常値・表記揺れ(同義だが異句の状態)を含むこともあります。それらを加工し「分析できる」状態にすることをデータ準備(Data Preparation)といいます。

さらに、あまねく全てのデータを準備することはできないため、必然的に選択が行われ、偏りが必ず発生します。これを選択バイアス(Selection Bias)といいます。例えば、プリペイドカードの購買履歴には、カードの入金額の上限を超える高額商品の購買履歴がそもそも含まれていません。おそらくクレッジトカードなどの他の決済手段で購買しているのでしょう。このような偏りのあるデータで無邪気にRFM分析などを行うと、ミスリード(Misslead)を起こします。

選択バイアスを無くすことが理想ですが、現実には不可能であるため、データの全体像を俯瞰して分布と偏りを把握し、分析を進める上での前提条件として捉えておくことが重要です。その作業を基礎分析(Basic Analysis)といいます。

ここまで完了してようやくUXモデリングが実施可能となります。今回はUXモデリングの比較的簡単なアプローチとして系列パターンマイニング(Sequential Pattern Mining:SPM)を用い、時系列を考慮したユーザーの典型的な行動パターンをモデリングします。

最後に、獲得した行動パターンに基づいて、観察対象とするユーザーを抽出し、行動を観察します。すなわちデータエスノグラフィ(Data Ethnography)2)データエスノグラフィって?を行うわけです。UXモデリングにより獲得したモデルは、あくまで機械的に抽出された行動パターンに過ぎません。ユーザーの行動の因果関係を把握し、意思決定プロセスを理解するには、やはり一人ひとりの行動データをミクロ視点で観察し、時系列に追う必要があります。UXモデリングはそれを効率化する手法という位置付けです。

購買商品の時系列変化を捉える。

では、UXモデリングの実践を進めて行きましょう。まずは分析の背景の整理目的の明確化を行います。

今回は「データエスノグラフィ入門」と連動し、総合ECサイトの会員の購買商品の時系列変化のパターンを捉え、優良化のヒントを獲得するという設定で進めます。分析対象データは、とある総合ECサイトの会員の購買履歴データとし、概要は以下のとおりです。

  • 種類:総合ECサイトの会員の購買履歴
  • 期間:2005年1月〜2013年12月(9年間)
  • 会員数:639,777人
  • 購買数:7,599,650件(平均11.9件/人)

データソースは以下の3つを使用します。なお、こちらはすでにBigQueryに投入済みとします。また、データセット名とテーブル名は任意ですが、ここでは「データエスノグラフィ入門」と合わせるため、データセット名を「DE」、テーブル名はファイル名をそのまま設定します。

データソース 変数 ダウンロード
会員マスタ
mst_members
会員ID, 年齢, 性別, 居住地など [↓]105MB
商品マスタ
mst_products
商品ID, 商品カテゴリなど [↓]53MB
購買履歴
trx_orders
会員ID, 商品ID, 注文日, 価格 [↓]698MB

これらのデータを使用し、ユーザーの購買商品の時系列変化の典型的なパターンをモデリングして行きます。なお、データ準備と基礎分析のプロセスは「データエスノグラフィ入門 #02」と同様であるためここでは割愛し、次回は行動データのモデリングの実践を行います。

脚注   [ + ]