UXグロース入門 #03

因果推論とABテスト。

大きなPDCAから小さなPDCAに落とし込む流れについて前回説明しましたが、ここからは小さなPDCAの推進に欠かすことのできないABテストによる実験・評価・改善アクションの実践的なメソッドを見ていきます。

ABテストは、正式にはランダム化比較実験(Randomized Controlled Trial:RCT)というもので、因果推論の代表的な手法です。因果推論(Causal Inference)1)いまさら聞けない因果推論とは二つの事象間に因果関係があるかどうかを明らかにするための考え方や手法を言います。

その詳細は「いまさら聞けない因果推論」に詳しいのでここでは触れませんが、二つの事象間に因果関係があることを証明する手法に、事実と反事実の比較があります。反事実(Counterfactual)とは、その事象が発生しなかった場合のことです。そして、原因の事象Xが発生したという事実における結果の事象Yと、原因の事象Xが発生しなかったという反事実における結果の事象Y’を比較し、有意差(Significantly Different)が見られる場合に因果関係があると結論づけます。この場合の有意差とは、事象Yと事象Y’の間の統計的に偶然とはいえない差のことで、それを因果効果(Causal Effect)といいます。また、事実と反事実の比較により因果関係を説明することを反事実モデル(Counterfactual Model)といい、その代表的な手法がRCTすなわちABテストです。

たとえば新薬の臨床試験において、病気のネズミを無作為に二つのグループに分け、片方のグループにのみ投薬したとしましょう。そこで投薬したグループのほうが治癒率が高ければ、因果効果があると言えます。なお、投薬したグループを介入群(Intervention Group)、投薬しなかったグループを対照群(Control Group)といいます。また、グループを無作為に分けるのは、比較する二つのグループの間に介入した事実以外の違いが存在すると、違いを生んだ原因がどちらであるかを説明できなくなるからです。

行動特性から仮説を見出す。

前回と同じケースで考えていきます。あなたは、とある総合ECサイトのCRM担当者で、会員の継続化をミッションとしており、目標はF2転換率を一年間で20%向上させることです。なお、ECサイト全体の目標は年間獲得利益の10億円伸長であり、F2転換率の向上はその主要成功要因(Key Success Factor:KSF)のひとつです。

ECサイトでは、F2転換率が重要であると言われています。この”F”は購買頻度(Frequency)のことで、F2転換率とは初回購買から二回目購買への転換率(Conversion Rate)を意味します。一般的に、新規会員の獲得よりも、既存会員のリピート購買促進のほうがコスト効率が高いため、F2転換率は重要な指標となります。

現時点ではF2転換率を向上させる確実な方法はわかっていないため、ABテスト小さなPDCAを回しながら目標に近づけていくアプローチをとります。二回目購買キャンペーンなどの安易な施策が脳裏をかすめますが、裏付けなしの仮説で闇雲にやっても非効率ですし、たとえそれでF2転換したところで、キャンペーンに反応する会員に高いLTVは見込めません。

そこで、より効果を見込める仮説発見のために、まずは会員の行動特性を分析します。具体的には、F2転換する会員と離反する会員の違いはどこか、何がきっかけでF2転換するのかといった特性の違いを分析していきます。行動特性を分析する手法にはエスノグラフィ(Ethnography)2)エスノグラフィとは(UXリサーチ入門 #03)などがありますが、ECサイトの長期間の行動分析には向きません。一方で、ECサイトであれば閲覧や購買の行動データが存在するため、データエスノグラフィ(Data Ethnography)3)データエスノグラフィ入門が有効な手段となります。そこでデータエスノグラフィを実施し、以下の二つの事実を見出したとします。

  1. 初回購買から一ヶ月以内に再訪問した会員はF2転換率が高い。
  2. 二回目は初回と異なる商品カテゴリを購買する確率が高い。

これらの事実から「初回購買から一ヶ月以内に、初回とは異なるカテゴリのおすすめ商品を提案すると、F2転換する可能性が高い」という仮説が浮かび上がります。また、具体的な施策として以下が想定されるかと思います。

  1. 再訪問した会員に対して、ランディングページにて、初回とは異なるカテゴリのおすすめ商品を提案する。
  2. 初回購買から一ヶ月間購買のない会員に対して、メールニュースにて、初回とは異なるカテゴリのおすすめ商品を提案する。

施策1は再訪問した会員のF2転換の確度を向上するための施策となります。施策2は再訪問の機会そのものを創出することで、施策1では取りこぼしてしまう会員を取り込む施策となります。これらはどちらも高い効果が見込めるので、同時に実施したくなりますが、このように複数の接点で施策が想定される場合の鉄則として、以下の二つを念頭に入れておくべきです。

  1. 同時には実施しない
  2. 実施順序は目標に近い接点から

まず同時に実施するのは避けるべきでしょう。なぜならば、一部の会員は両方の施策を体験することになり、効果があった場合にどちらの施策による効果なのかを判別しづらくなるからです。

次に実施順序ですが、それは目標に近い接点からになります。この場合でいうとF2転換に近い接点ということで、施策1がそれに当たります。理由は二つありますが、ひとつは目標に近い接点のほうが成功確度が高く、成果に結びつきやすいという点です。これには、小さなPDCAを回す際に、早い段階で成果が出ると次の施策を実施する動機が高まるという効果があります。

ただ、より重要なのはもうひとつの理由で、それは目標に近い接点のほうが外部要因が少ないという点です。外部要因が少ないほど、結果に対する施策の効果を説明しやすくなります。逆に目標から遠くなると、目標までの体験すなわち外部要因が増え、施策の効果を説明しづらくなります。

ABテストとセグメンテーション。

では施策1「再訪問した会員に対して、ランディングページにて、初回とは異なるカテゴリのおすすめ商品を提案する」の、F2転換への因果効果を検証するABテストについて検討していきます。

ABテストによる因果効果の検証では、テスト対象者を介入群(Intervention Group)対照群(Control Group)の二つのグループに分け、介入群にのみ施策を実施することで、結果に有意差(Significantly Different)が生まれるかどうかを検証します。ここでは、介入群が対照群に比べてF2転換率が高く、かつ有意差があることがわかれば因果効果を説明できます。

テスト対象は初回購買のみの会員で、サイトへの訪問時に最初に訪れるページすなわちランディングページ(Landing Page:LP)において、介入群に対しては、初回購買とは異なるカテゴリのおすすめ商品を提案します。それに対し、対照群には何も提案しません。ABテストとして実施する内容はこれだけです。ただし、ここで二つの疑問が生じます。

  1. 介入群と対照群の比率をどうするか。
  2. 介入群にどの商品カテゴリを提案するか。

1については、テストの観点では結果の有意差を評価するのに十分なN数が、介入群と対照群の両方で確保されていることが絶対条件で、あとはビジネスの観点で介入群をどれだけ増やしたいかにより決定すればよいでしょう。

2については、どの商品カテゴリがF2転換に対して効果的であるかが会員の購買特性により異なるため、介入群をいくつかのサブグループにセグメンテーション(Segmentation)し、サブグループごとに実験や評価を分ける必要があります。そして1の有意差を検証するのに十分なN数が、介入群の各サブグループ単位で確保されている必要があり、それも考慮して比率を決定します。

介入群のセグメンテーションには、実験段階であらかじめ行う実験時セグメンテーションと、実験段階では行わずに評価段階で行う評価時セグメンテーションの二つがあります。

実験時セグメンテーションでは、あらかじめ何らかの方法で会員の購買特性を分析し、サブグループの分類基準各サブグループに提案する商品カテゴリの定義を行います。当然ながら、サブグループと提案する商品カテゴリの間には、高いF2転換率を発生させる強い関連性があることが前提となります。すなわちセグメンテーションと因果効果の仮説が不可欠となりますが、逆にそれが存在すれば実験初期から高い因果効果が期待できます。分析アプローチとしては、検証的アプローチ(Verifying Approach)と言えます。

評価時セグメンテーションでは、実験段階でのセグメンテーションは行わず、介入群に対してどの商品カテゴリを提案するかは無作為に決定します。商品カテゴリ数が9であれば、介入群を無作為に9つのサブグループに分割し、それぞれに異なる商品カテゴリを提案します。そして、評価段階において介入群を様々な切り口でセグメテーションし、実際に提案された商品カテゴリとF2転換率の相関を分析しながら、因果効果の高い組み合わせを探索します。したがって、実験段階では想像していなかった因果効果を評価段階で発見する可能性があります。ただし、細かくセグメンテーションしても評価に耐え得るN数が必要となります。分析アプローチとしては、発見的アプローチ(Discovering Approach)と言えます。

セグメンテーションを実験時と評価時のどちらにするのかは、それぞれの特徴を理解した上で適切に選択するとよいでしょう。以下に特徴の違いをまとめておきます。

実験時セグメンテーション 評価時セグメンテーション
分析アプローチ 検証的アプローチ 発見的アプローチ
セグメンテーションと因果効果の仮説 必要 不要
因果効果の期待値 高い 低い
因果効果の発見性 低い 高い
必要なN数 比較的少ない

※各サブグループごとの評価に必要なN数
比較的多い

※細かいセグメンテーションの評価に耐え得るN数

ここではセグメンテーションと因果効果に関する明確な仮説がないため、評価時セグメンテーションを選択します。直近一ヶ月間で獲得した会員5万人のうち、初回購買のみの約4万人をテスト対象とし、介入群を無作為に分けた9つのサブグループと対照群に、それぞれ10%ずつの約4,000人を割り当て、それぞれ異なる商品カテゴリを提案するABテストを実施します。

グループ N数(比率) 提案商品カテゴリ
介入群1 4,010人(10%) おもちゃ・子供・赤ちゃん
介入群2 4,010人(10%) 映画・音楽・ゲーム
介入群3 4,010人(10%) 本・聞く本
介入群4 4,010人(10%) スポーツ・アウトドア
介入群5 4,010人(10%) エレクトロニクス・コンピューター
介入群6 4,010人(10%) 美容・健康・食料品
介入群7 4,010人(10%) 自動車・工業
介入群8 4,010人(10%) ファッション・ジュエリー
介入群9 4,010人(10%) 家庭・ガーデニング用品
対照群 4,007人(10%)

次回の「UXグロース入門」最終回では、上記で実施したABテストの評価手法と改善アクションへの落とし込みについて見ていきます。

脚注   [ + ]