単純集計で因果効果を俯瞰。
初回購買のみの会員を対象に、評価時セグメンテーションによるABテストを実施するところまでを前回取り上げましたが、今回はその実験結果の評価手法と改善アクションへの落とし込みについて見ていきます。
ABテストの評価に使う分析手法は、基本的にはクロス集計とカイ二乗検定のみです。まずは単純集計(Simple Tabulation)で因果効果を俯瞰します。一ヶ月間のABテストの集計結果が以下であった場合、どのような因果効果を見出すことができるでしょうか。
グループ | 提案商品カテゴリ | F2転換数(率) |
介入群1 | おもちゃ・子供・赤ちゃん | 439人(10.9%) |
介入群2 | 映画・音楽・ゲーム | 445人(11.1%) |
介入群3 | 本・聞く本 | 451人(11.2%) |
介入群4 | スポーツ・アウトドア | 441人(11.0%) |
介入群5 | エレクトロニクス・コンピューター | 437人(10.9%) |
介入群6 | 美容・健康・食料品 | 442人(11.0%) |
介入群7 | 自動車・工業 | 423人(10.5%) |
介入群8 | ファッション・ジュエリー | 440人(11.0%) |
介入群9 | 家庭・ガーデニング用品 | 444人(11.1%) |
対照群 | ー | 399(10.0%) |
まずこの結果から、以下の因果効果を読み解くことができるかと思います。
- 総じて介入群は対照群よりもF2転換率が10%程度高く、おすすめ商品を提案することの因果効果は存在する。
- 介入群の各サブグループ間にはF2転換率の差がほぼ見られず、おすすめ商品の違いによる因果効果は存在しない。
とはいえ統計的に意味のある差、すなわち有意差(Significantly Different)があるとは言えず、因果効果を証明できていません。それには有意差検定を行う必要があります。
クロス集計で因果効果を切り分け。
また、おすすめ商品を提案することの因果効果が存在するとして、初回購買とは異なるカテゴリのおすすめ商品を提案したことによる効果なのか、あるいは単におすすめ商品を提案したことによる効果なのかの切り分けがこの段階ではできておらず、仮説である「初回購買から一ヶ月以内に、初回とは異なるカテゴリのおすすめ商品を提案すると、F2転換する可能性が高い」の検証には至っていません。
そこで、提案商品が初回購買とは異なるカテゴリかどうかで介入群の各サブグループをセグメンテーションし、介入群の各サブグループと提案商品が初回購買とは異なる商品カテゴリかの二軸によるクロス集計(Cross Tabulation)を行います。
サブグループ/提案商品 | 初回購買とは異なる商品カテゴリ | F2転換率 |
介入群1 おもちゃ・子供・赤ちゃん |
真 | 10.8% |
偽 | 12.1% | |
介入群2 映画・音楽・ゲーム |
真 | 10.9% |
偽 | 12.8% | |
介入群3 本・聞く本 |
真 | 11.0% |
偽 | 13.1% | |
介入群4 スポーツ・アウトドア |
真 | 11.2% |
偽 | 10.5% | |
介入群5 エレクトロニクス・コンピューター |
真 | 11.0% |
偽 | 10.6% | |
介入群6 美容・健康・食料品 |
真 | 11.2% |
偽 | 10.4% | |
介入群7 自動車・工業 |
真 | 10.4% |
偽 | 10.9% | |
介入群8 ファッション・ジュエリー |
真 | 10.9% |
偽 | 11.7% | |
介入群9 家庭・ガーデニング用品 |
真 | 11.2% |
偽 | 10.4% |
どうでしょうか。確かに初回購買とは異なる商品カテゴリが提案された場合のほうがF2転換率が高いサブグループもありますが、逆に介入群2「映画・音楽・ゲーム」や介入群3「本・聞く本」などは”偽”すなわち同じ商品カテゴリが提案された場合のほうがF2転換率が高くなっています。これらの商品カテゴリは趣味性が強く、同じカテゴリを提案し続けたほうが再購買の確率が高いのかもしれません。
いずれにせよ「必ずしも初回購買とは異なる商品カテゴリを提案することがF2転換率を高めるということにはならない」と言えそうです。ただし、これについても有意差が確認されていないため、有意差検定を行う必要があります。
カイ二乗検定で有意差を確認。
有意差検定(Significance Test)とは、二組の標本について統計的に意味のある差すなわち有意差が存在するかを検定することで、t検定やカイ二乗検定などの統計的検定法を用います。
t検定(t-Test)は、帰無仮説が正しい仮定のもと、統計量がt分布に従うことを利用する検定法の総称です。t分布(t-Distribution)は連続確率分布のひとつで、正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に、二組の標本の平均の有意差検定に用います。
カイ二乗検定(Chi-Square Test)は、帰無仮説が正しい仮定のもと、統計量が近似的にカイ二乗分布に従うことを利用する検定法の総称です。カイ二乗分布(Chi-squre Distribution)は自由度が大きくなるほど大きな値をとる確率が増えて正規分布に近づく、右に歪んだ分布で、クロス集計表の有意差検定に用います。
F2転換数 | 非F2転換数 | |
介入群 | 3,962 | 32,128 |
対象群 | 399 | 3,608 |
今回のABテストの結果は上記のクロス集計表で得られるため、カイ二乗検定を用います。 では、さきほどの因果効果に関する仮説「総じて介入群は対照群よりもF2転換率が10%程度高い」の有意差を検定してみましょう。
その前に統計的検定の進め方の基本を理解しておく必要があります。それは差がないという仮説を否定することで、差があるという仮説を証明するというものです。差がないという仮説を帰無仮説(Null Hypothesis)、差があるという仮説を対立仮説(Alternative Hypothesis)といいます。
今回のケースでは、初回購買のみの会員に対して何も提案しなかった場合のF2転換率は10.0%であり、おすすめ商品の提案を行った場合のF2転換率が10.0%と差がないという仮説が帰無仮説、差があるという仮説が対立仮説となります。そして帰無仮説が棄却できれば、有意差があることが証明されます。
帰無仮説を棄却するには、p値が有意水準を下回る必要があります。p値(p-Value)とは、帰無仮説が正しい仮定のもと、今回のような差が発生する確率のことで、それが小さいほど帰無仮説が正しくないことの根拠となり、有意水準を下回ると帰無仮説は棄却されます。有意水準は一般的に5%に規定しますが、慣習的なもので実はあまり根拠はありません。とはいえここでも有意水準5%で検定を行います。
カイ二乗検定におけるp値の計算方法についてはここでは触れませんが、Pythonの拡張モジュールであるScipyにより以下のプログラムで計算可能です。そしてp値は4.9%となり、有意水準5%を下回るため、帰無仮説が棄却され「総じて介入群は対照群よりもF2転換率が10%程度高い」の有意差が証明されます。
同様に「必ずしも初回購買とは異なる商品カテゴリを提案することがF2転換率を高めるということにはならない」についても有意差検定を行うことが可能です。
- 初回購買から一ヶ月以内におすすめ商品を提案するとF2転換する可能性が高い。
- 必ずしも初回購買とは異なる商品カテゴリを提案することがF2転換率を高めるということにはならない。
これまでの実験と評価からこの事実が証明されました。ここから改善アクションにつなげて小さなPDCAを回すわけですが、具体的にはどの会員にどの商品カテゴリを提案すればF2転換に効果的かの仮説を会員の行動特性から見出し、実験時セグメンテーションによるABテストを改めて実施するとよいでしょう。
大きなPDCAから小さなPDCAに落とし込み、ABテストによる実験・評価・改善アクションを行う実践的なメソッドを、具体的なケースを交えて紹介しました。あらゆるUXグロースはこれを基本に進めることが可能なので、実践の参考にしてもらえればと思います。
関連する記事
須川 敦史
UX&データスペシャリスト
クロスハック 代表 / uxmeetsdata.com 編集長