『データは騙る: 改竄・捏造・不正を見抜く統計学』を読んだ感想

『データは騙る: 改竄・捏造・不正を見抜く統計学』を読んだ感想

前から気になっていた『データは騙る』を買って読んでみました。

海外の著者の翻訳本のため、海外の研究・論文事例が多くて、私含めて日本人にとっては即座に理解しにくい箇所が多いです。
しかし、今後自分がデータ分析していくなかでの自戒であったり、第三者の分析結果を批判的にみるための良い契機となりました。

本書を読んで特に良いキーワード(自戒や他者の分析批判に活かせる事項)は以下になります。

自己選択バイアス

ざっくりというと、ある選択が複数の要因が関連して起っていることを意味します。
例えば、海外留学を経験した場合としなかった場合の新卒の初年収を比較するとします。
データを見たわけではありませんが、十中八九、海外経験を経験した場合の方は新卒の初年収は高いと思われます。
ただし、これは純粋に海外留学による要因とは考えることができません。
海外留学に至るためには、留学費用を捻出できること、留学水準を満たした学力を有していることなど、留学以前の要因が複数絡んでいるからです。
本書で著者は以下のように述べています。

自己選択バイアスは人の行動を観察してデータを集める観察データにつきものだ。人はその行為を自分で選択して行っているのだからその選択には人の人となりが反映されると考えても良い。この自己選択バイアスは実験に際して被験者をランダムに分けてしてもらう行動を割り当てれば避けることができる。

実験の都合上、被験者をランダムに分けることは難しいかもしれませんが、常に頭の片隅においておくべきでしょう。

生存者バイアス

ある程度のスパンを経て、最終的に残ったデータをもとに分析をしていく場合に注意が必要になります。
例えば、離職率低下を食い止める施策を考えるために、現在企業で活躍している人材(例えば若手の管理職)のプロフィール属性を分析する場合を考えます。
分析した結果、定性情報としてやりがいのスコアが他のスコアよりも低いことが判明したとします。
このとき、短絡的に「やりがいのスコア」を伸ばせばもっと離職率が下がると考えるのは安直です。
現在残っている人材(生存者)に着目するだけではなく、離職した(死亡者)にも注目しなければ客観的な分析とはならず、生存者にとって偏った解釈となってしまいます

本書で著者は以下のように述べています。

目に見えないデータにも意味があり、場合によっては目に見えるデータより重要な意味を持つこともある。生存者バイアスを避けるには、過去からスタートして見ていくことだ。20年前に採用された従業員、爆撃に出たすべての戦闘機、40年前に存在していた企業を対象とし、それからそれらに何が起きたのか見ていくといい。

これについてもデータの都合上、生存者(webサービスとかで言えば退会者アカウントは除かれる)しか詳しいプロフィール情報が残っていない環境は多々見受けられます。
このようなデータで分析を進めても解釈によっては生存者バイアスにとらわれてしまい、全体の一部分しか見られていないこともあるということを留意しておく必要があります。

まとめ

本書で述べられている統計的な騙りは、著名でかなり優秀な研究者であっても起こしてしまうものです(意図しているかどうか定かではないが)。
私みたいな統計学を少しだけ知っている人であればなおさらこういった統計的な騙りには気をつけるべきだし、周囲もこういった統計的な騙りに騙されないリテラシーをつけていく必要があると思った今日この頃です。