【必見】GoogleオプティマイズのABテストでの検定方法とその課題
2021年5月6日

 

今回の記事ではABテストの判定方法について解説するとともに、メジャーになってきたGoogleオプティマイズABテストについて、その検定における課題も含めて考えていきたいと思います。

1.ABテストの判定方法

ABテストとはオジリナルに対してテスト案(CVRの向上や改善のための施策案)の比較を行い、実際に改善されるかどうかを確かめる検証テストです。
しかしABテストの結果、テスト案のCVRや改善率が良かったとして、それだけで結論付けられるものなのでしょうか。
VWOのABテストでは、単なるCVRや改善率等の数値を単純に比較して、その結果が多いか少ないか、高いか低いかで判断しているのではなく、統計的手法を用いてどちらに勝敗があるのかを判断しています。

この統計的手法が検定と呼ばれているもので、最近ではVWOのようにベイズ検定を用いることが主流となっています。ベイズ統計学にいてはVWOのヘルプセンターに解説した記事があります。

しかし、前回コラムの[解説] ABテストの検定(カイ2乗検定)と仮説検証の必要性でもご紹介したように、カイ2乗検定といった手法を用いるケースもあります。

ベイズ統計では、母集団自体を確率変数(解明できていない数値)と仮定して観測されたデータを定数として扱います。一方でカイ2乗検定のような頻度統計は観測されたデータ自体が確率変数となり、それをピンポイントに分析することで検定結果を導き出します。

実際のベイズ検定では、ベイズの定理のような方程式で検定結果を算出するのではなく、ベイズの定理の考え方を取り入れて、それに当てはまるような連続確率分布や確率分布のサンプリングを行うアルゴリズム(MCMC等)を用い算出しています。つまり、ベイズの定理の考え方に当てはまりそうな確率分布を作り出す手法を利用して、ベイズ的な検定(いわゆるベイズ検定)に仕立て上げているのです。またベイズ検定の結果については事前条件の有無や採用する確率分布とアルゴリズムなどの種類により、数%の違いが生じる場合があります。一般的に頻度統計は数式により検定を行うので、結果の違いが生じるのは小数点の処理程度のことです。

方程式に基づき、きっちりとした結果が導き出せる頻度統計の方がよいという考え方もあるかもしれませんが、最近ではABテストでも採用されるようになったようにベイズ統計の人気が高まっています。その理由のひとつがベイズ検定の利便性です。そのようなABテストにおけるベイズ検定の利点について、次から順を追って解説いたします。

2.Googleオプティマイズを用いた結果の判定方法の課題

ここで最近使われることが増えてきたGoogleオプティマイズと検定方法について触れたいと思います。
GoogleオプティマイズABテストを実施した場合に検定も行えますが、VWOのように、すべてのKGIKPIに対しGoogle側で検定結果まで用意されているものではないことに気をつけなければなりません。ベイズ検定はメインのゴール数点に限られるのです。

Googleオプティマイズの無料版では、目標3点までベイズ検定を行うことができます。
また有料版の「Google オプティマイズ360」では、目標10点までベイズ検定が用意されています。
いずれにしてもCTAボタンやハンバーガーメニューなど、数多いゴール(KPI)に対してベイズ検定まで行うことはできないのが現状です。

検定を行わなくても、CVRや改善率がわかればよいのではないかと思いがちですが、実際にはベイズ検定を用いて判断することが重要になります。


3.ABテストにおける検定の重要性

ABテストであってもアンケート調査であっても、すべての対象者を検証しているわけではありません。すべての対象者を検証するのは現実的には難しく、時間や費用のこともあり、一部の対象者に対して一定の期間内でABテストやアンケート調査は実施されています。

では、なぜ一部の対象者に対し実施した結果で、テスト案の良し悪しが判断できるのでしょうか。
ひとことで言えば、実際に起こった結果を統計的に検証しているからです。統計的に検証することは単純に多い少ないではなく、その結果が偶然なのか、そうでないのかを判断するのに重要です。その統計的な検証方法がカイ2乗検定ベイズ検定なのです。

カイ2乗検定は頻度統計で観測されたデータ(確率変数として扱う)に基づいて優劣を確率で推定する方法論です。ただし、頻度統計においてデータ数が少ない場合は観測データを確率変数として扱うため許容誤差が大きくなり、はっきりとした有意差を得られない場合があります。

ABテストにおいてカイ2乗検定を用いた場合、有意差が出るまで必ずしも十分なテスト期間を確保できるとは限らないので、使いづらいということも事実です。それは頻度統計全体に言えることです。

頻度統計では、仮説のもとで観測したデータが生じる確率で判定します。判定方法として、たとえば100回に5回などめったに起こらないケースが起きた場合に差がある(有意に大きい)と判断します。統計学的には「帰無仮説を棄却する」という表現で結果を示します。

それに対し、100回に95回起こるケースを95%信頼区間と言います。つまり観測したデータが正規分布としたとき、95%信頼区間に入っていれば有意差なしと判断します。逆にそこから外れていれば有意差ありということになります。


4.ABテストは、なぜベイズ検定なのか

ABテストの検定では、前回コラムの[解説] ABテストの検定(カイ2乗検定)と仮説検証の必要性で紹介させていただきました。
このとき図1ABテストの施策を行った事例(要素クリック:ハンバーガーメニュー)で、カイ2乗検定を行いました。

結果としては図1にあるようにテストケースの改善率は172.23%となり、カイ2乗検定では98%の有意性でテストバターン > オリジナルの差が有るという結果になりました。またVWOのベイズ検定結果でもテストバターンが勝利する確率は99%でした。

図1.ABテストの施策を行った事例(要素クリック:ハンバーガーメニュー)

それでは、オリジナルとテストバターンでハンバーガーメニューをクリックしなかった人・した人のすべての数値を半分にしたらどうでしょうか。

図2のように、CVRはもとより改善率は172.23%図1と同じです。このときのカイ2乗検定のカイ2乗値は3.12となり、92%の有意性でテストバターンとテストケースでは95%までの有意差はありませんでした。(有意性:図3参照)
しかし、ベイズ検定ではテストバターンが勝利する確率が96%でした。

図2.図1のABテストの施策を行った事例でクリックしなかった人・した人を半分にしたケース

※VWOにはテスト結果の数値をインプットしベイズ検定だけ計算する機能がないため計算値はなし。

図3.図2のカイ2乗検定での有意性

このようにABテストにおいてはCVRや改善率だけでなく、オリジナルとテストバターンのどちらが良いかを検定を用いて判断することが重要となります。

そして、ここで注目してほしいのは改善率が172.23%と同じケースにおいて、ベイズ検定では図1図2ともにテストバターンが勝利する確率は95%以上と判定した点です。
カイ2乗検定のような頻度統計では、観測データを確率変数としその誤差が考慮された有意差となるため、サンプル数が少ないと明確な判定にはならない可能性が出てきます。つまり観測データが小さくなるほど誤差の範囲が大きくなり、改善率は同じでも逆に観測データが小さくなればカイ2乗値も小さくなるからです。

ABテストにおいて、直感的には観測データの大きさの影響を受けにくい、ベイズ検定の方がわかりやすい検定と言えます。


5.まとめ

ABテストにおいて検定の重要性やベイズ検定の方がわかりやすい点(ベイズ検定の利便性)などを述べました。

ベイズ統計ではベイズ理論を使い、カイ2乗検定とは違ったアプローチで検定を行っています。
しかしGoogleオプティマイズではいくつかの目標値に対してベイズ検定を行うことができますが、多くのKPIに対してのベイズ検定結果を得られません。そのまま多くのKPIに対して検定を行わず、CVRや改善率だけで判断してよいのでしょうか。

ABテストの結果は多いか少ないか、高いか低いかを把握することも必要ですが、それであると、どのレベルを基準にして優越を判定してよいかが曖昧になってしまいます。
人によってはテスト施策の改善率が102%程度である場合、テスト施策がよいと言える改善率ではないと思うかもしれません。

たとえば90,000人の訪問者に対し、訪問者を半分に分けてオリジナルの販売方法とテスト施策で、同じ商品がどれくらい売れるのかを同じ期間でABテストしたとします。
オリジナルは12,200人が、テスト施策は12,500人がその商品を購入した場合、テスト施策の改善率は102.5%となります。ベイズ検定を行うとテスト施策の方の勝率は98%という結果になり、テスト施策を選択したらよいかはだれがみてもはっきりします。

ABテストの判定にベイズ検定カイ2乗検定が用いられる理由はそこにあり、どちらがどれくらい有意性があるのかを統計的に判定することが重要なのです。

我々アッション(現・SHIFT)はGoogleオプティマイズでのABテスト支援サービスも行っております。このサービス支援は設定代行ABテストLPO・CRO支援までのワンストップサービスになっています。

そしてサービス構築においてアッション(現・SHIFT)ではベイズ検定ツールを自社独自で開発いたしました。
その結果、googleオプティマイズにおけるABテストのすべてのKGI・KPIで制限なくベイズ検定ができ、VWOと遜色ないABテスト支援サービスの提供が可能となりました。

このようにアッション(現・SHIFT)ではVWOとともに、お客様のニーズに合わせてGoogleオプティマイズでも進化させたLPO・CRO支援サービスの提供を積極的に展開してまいります。


ご質問やお問合せに関して

お客様のCROのどんなお悩みでも我々アッション(現・SHIFT)はいつでもお力添えさせていただきますので、
小さなお悩みだったとしても、お気軽にご相談ください。

また、googleアナリティクスに関するデータ分析や、多変量解析含む各種マーテケィングデータ分析などのサービスも行っております。
各種データ分析に関しても、お力添えさせていただきます。問合せ・ご相談のほど、よろしくお願いいたします。

 

 

 

一覧へ戻る