『効果検証入門〜正しい比較のための因果推論/計量経済学の基礎』を読んだ感想

『効果検証入門〜正しい比較のための因果推論/計量経済学の基礎』を読んだ感想

遅ればせながら読みました。
本書は各効果検証手法の説明が丁寧で、実サービスで運用する際の注意点も詳細に書かれています。
因果推論系の本を読むのは初めてでしたが、私のような入門者や実サービスへの導入を検討している方にも有用な本だと思いました。
また、因果推論のアプローチによって経済的な事象の効果を評価する計量経済学という分野にも興味が湧きました。

本書では、RCT(randomized controlled trial)が行われていない状況でもセレクションバイアスの影響が少ない分析結果を得られる方法を紹介しています。
以下、備忘録として、利用できるデータに応じた手法を列挙します。

※2020/5/22に弊社ブログにて『新型コロナの影響で今年のインフルエンザ感染者数はどれくらい減ったのかを検証してみた』というタイトルの記事をかいています。CausalImpactを利用した効果検証を用いています。

そもそもRCTとは

RCTはrandomized controlled trialの略で、web系の企業ではA/Bテストとも呼ばれています。
施策評価として日常的にA/Bテストを使っている方も多いのではと思います。

さて、RCTは単純な集計と検定で効果の検証が可能である一方で、介入(※)がランダムに割り当てられるという状況を作る必要があります。
※介入とは、何らかの指標に与えられた影響のことをいいます。広告出稿などのアクションと思ってもらえれば良いです。
ちなみに、RCTで使われる検定について知りたい方は以下の記事をご参照ください。

特に昨今は機械学習系の施策によって、介入の割り当てがランダムではなく、より効果が高められるような対象に介入を意図的に振り分けているケースがあります。
(例えば、ECサイトでユーザにメールで販促する場合、より購買する可能性の高いユーザに優先的にメールが送られたりするなど。)
こういったセレクションバイアスが入ることで純粋な介入による効果を測定できなくなるため、実際の効果よりも過大or過小に評価されることになります。
しかし、だからと言って分析の都合を最優先させた介入の割り当てを行うと、ビジネスの観点においては多くのコストが発生してしまいます。

介入グループと非介入グループの両方に同じような特徴をもつサンプルが含まれる場合

RCTが行われていない状況でも、介入グループと非介入グループの両方において、同じ特徴を持つサンプルが含まれる場合には回帰分析と傾向スコアを利用した効果検証が有効です。

回帰分析

重回帰分析を利用して介入効果を推定する方法です。
セレクションバイアスを発生させていると考えられる変数を重回帰モデルの説明変数に組み込むことで、セレクションバイアスを軽減できます。

傾向スコア

介入が行われた仕組みに着目して、介入グループと非介入グループのデータの性質を近くして、近似的にRCTを行う手法です。
傾向スコアとは、各サンプルにおいて介入が行われる確率のことです。

回帰分析と傾向スコアの使い分け

回帰分析は馴染みある手法で取り組みやすいものの、セレクションバイアスを軽減させる説明変数の選定が一筋縄にいきません。
目的変数がどのようなしくみで決定されているのかについて十分な情報を得られない場合は、説明変数が目的変数に対して線形なのか非線形なのかも分かりません。
一方、傾向スコアを利用した手法は、目的変数に対するモデリングを行う必要がありません。
より情報を入手しやすい介入の決定方法に関する調査やヒアリングだけで済ませることができます。

介入、非介入のそれぞれのグループに同質なサンプルが存在しない場合

例えば、ある地域のユーザ全員に一斉に広告出稿するなど、介入グループと非介入グループで同質なサンプルが存在しない場合は、DIDやDIDを拡張したCausalImpactという手法が有効です。

DID(difference in difference)

介入グループと非介入グループにおいて、介入が行われる前後の情報を利用することで効果を推定する方法です。
ただし、DIDには次の欠点があります。

  • 介入を行った対象のデータしか保持していない場合は利用できない
  • 平行トレンド仮定を満たすように非介入グループのデータを調整する必要がある

DIDのこれらの欠点を補完した手法が次に紹介するCausalImpactです。

CausalImpact

CausalImpactは上で説明したDIDの2つの欠点を補った手法です。
介入グループにおいて、もし介入されなかった場合はどのような結果になるのかを、様々なデータを用いて予測し、その予測結果と介入結果を比較することで効果を検証します。

介入の割り当てが決定論的なルールで決まっていて、特定のサンプルには必ず介入が行われる場合

例えば、女性で年齢25~35才のユーザにコスメ商品のレコメンドするなど、介入の割り当てが条件として明文化されていて、その条件に合致したサンプルに必ず介入が行われる場合は回帰不連続デザイン(RDD)という手法が有効です。

回帰不連続デザイン(RDD)

介入グループと非介入グループのサンプルの傾向が常に異なり、回帰分析も傾向スコアも使えず、介入前後の情報がないためにDIDやCausalImpactも使えない場合に回帰不連続デザイン(RDD)を使用します。
回帰不連続デザイン(RDD)は、介入する条件の閾値付近のサンプルに関してはほぼ同質のサンプルの状態とみなすというアイデアに基づいています。
例えば、例えば、女性で年齢25~35才のユーザにコスメ商品のレコメンドする場合を考えます。
このとき、35才の女性(介入対象)と36才の女性(非介入対象)といった介入条件の閾値付近のユーザについてはほぼ同質と言えます。
このように介入条件の閾値付近のサンプルは限定的にRCTを行ったデータとみなせるということです。

最後に

本書だけでもかなり満足できますが、ビジネスへの適用事例などをもっと知りたいという方には『データ分析の力 因果関係に迫る思考法 (光文社新書)』もオススメです。
本書は『効果検証入門〜正しい比較のための因果推論/計量経済学の基礎』よりもかなりライトに効果検証手法を説明していますが、これでも概要を抑えることは可能です。