アソシエーション分析入門 #04

アソシエーションルールを可視化。

Cloud Datalabにてアプリオリ・アルゴリズムの拡張モジュールであるmlxtendを用いて作成したアソシエーションルールを、BigQueryに書き出し、Tableauで可視化しながらアソシエーション分析を行います。

まずは前回の続きで、以下のコードを入力エリアに記述し、実行してみましょう。なお「to_gbq」関数の引数には、アソシエーションルールを格納したデータフレーム、書き込み先のテーブル名、GCPのプロジェクトIDを指定します。

なお、BigQueryへの書き出しがうまく行かない場合は、以下のコードでCSVファイルに書き出し、GCS(Google Cloud Storage)経由でBigQueryに取り込みます。

以下のように、BigQueryのデータセット「DE」の中に「sum_rules_aso」というテーブルが作成されていることを確認します。

続いて、テーブル「sum_rules_aso」をTableauに取り込んで分析します。Tableau Desktopであれば、スタート画面の[接続]にあるメニュー[Google BigQuery]から選択するだけでシームレスに連携できます。Tableau Publicであれば、GCS(Google Cloud Storage)経由でCSVファイルとしてエクスポートしてから取り込みます。

Tableauへの取り込みが完了したら、以下の手順でクロス集計表を作成し、アソシエーションルールを可視化します。

  1. フィールドの「X」を[行]、「Y」を[列]シェルフにそれぞれドラッグ&ドロップ。
  2. フィールドの「Confidence」を[マーク]カードの[色]にドラッグ&ドロップ。
  3. [マーク]カードのプルダウンで[四角]を選択。
  4. 右上に表示される「合計(Confidence)」カードの右上の▼のメニューで[色の編集…]を選択。
  5. [色の編集]モーダルで[ステップド カラー]チェックをオン、[詳細]ボタン押下で表示される[中央]チェックをオンに設定。
  6. フィールドの「Confidence」「Support」「Lift」を順に[マーク]カードの[テキスト]にドラッグ&ドロップ。
  7. フィールドの「Confidence」「Support」「Lift」のそれぞれについて、ピルの右端の▼のメニューで[フィルタを表示]を選択。

事象間の相関性を分析。

では、この表をもとに事象間の相関性を分析してみましょう。「アソシエーション分析入門 #01」でも触れたとおり、アソシエーションルールの指標の中でも、信頼度(Confidence)は、商品Xを購買した顧客が商品Yも購買する確率のことで、事象間の相関性を分析する基本指標となります。

とはいえこのままでは「X」「Y」の項目数が多く、分析しやすい状態とは言えません。これは支持度の閾値設定が低すぎることによるものです。支持度(Support)は、全体の購買の中で商品Xと商品Yのどちらも購買される確率のことで、アソシエーションルール作成時点では閾値を0.1に設定しましたが、少し上げることにします。右側の「合計(Support)」のフィルタからわかるとおり、支持度は0.1003から0.3910までの分布となっています。そこで左側の最小値設定を0.2に変更すると、以下のように表示が切り替わります。

ここで、ある特徴に気づきます。まず列方向に見ると「エレクトロニクス・コンピューター」「家庭・ガーデニング用品」「スポーツ・アウトドア」が軒並み高い信頼度となっています。次に行方向に見ると、さきほどの三つの商品カテゴリが軒並み低い信頼度となっています。

これは、この三つの商品カテゴリが他の商品との併売が強いことを意味しています。ただ注意したいのは、下図のとおり他の商品カテゴリと比較して、そもそもの購買件数が多いということです。このように、支持度には発生件数が多い事象を上位にスコアリングしてしまう特性があります。

成功確率が高い提案。

そこで注目するのがリフトです。リフト(Lift)は、全体の購買の中で商品Yが購買される確率に対する、商品Xを購買した顧客が商品Yも購買する確率(信頼度)の割合で、商品Xの購買が商品Yの購買に与える影響力の強さを示します。

これにより、ただ商品Yの購買件数が多いからではなく、商品Xの購買に影響を受けて信頼度が高くなった組み合わせを抽出することができます。右側の「合計(Lift)」のフィルタからわかるとおり、リフトは1.077から3.920までの分布となっています。そこで左側の最小値設定を1.3に変更すると、以下のように表示が切り替わります。

行方向に見ると「自動車・工業」の信頼度・リフトがともに高く、「エレクトロニクス・コンピューター」「家庭・ガーデニング用品」「スポーツ・アウトドア」を中心とした他の商品カテゴリの購買を押し上げる力が強いことがわかります。

この結果から、新たな商品カテゴリの提案は、「自動車・工業」購買経験者に対し「エレクトロニクス・コンピューター」「家庭・ガーデニング用品」「スポーツ・アウトドア」を軸に購買経験のないカテゴリを提案することが最も併売の成功確率が高いことがわかります。

このように、アソシエーション分析により「商品Xを購買した顧客は商品Yも購買している」という向きのある相関関係を抽出することで、併売戦略のヒントやエビデンスを獲得することが可能となるわけです。