no pat answer, no grapevine

一見正しそうなことや噂になんか流されない。

【書評】データ分析の力ー因果関係に迫る思考法ー(光文社新書,2017年)

 AIによってビッグデータを分析して意思決定に活用する動きが拡がっている。AIが導き出した結果をもとに,現代の社会問題を解決しようとするテレビ番組も先日放送された。

 このように,データ分析に接する機会が増えている。しかしながら,誰しもが十分にこうした知識を身に付けているわけではない。専門家であっても誤ったデータに基づいて判断してしまう可能性はゼロではない。

 一番大切なのは,誤った意思決定をしないことである。例えば,「広告を出したら売上が伸びた」という分析結果をみて,また広告を出せばよいという話にはならない。(データが正しいという前提で)その分析結果に因果関係がないと誤った行動をとりかねない。

 本書は,具体例を交えつつ,統計的に因果関係ありとされる分析手法を平易なかたちで解説している良書である。因果関係を判断するに当たっては,「そうではなかった場合」を想定する必要があるが,そうした情報は実在しないので捕捉しようがない。こうした「実際には起こらなかった潜在的な効果を測定できない」ことが統計的に因果関係を判断する難しさを生み出している。これは「因果的推論の根本問題」と呼ばれているらしいが,こうした問題を克服するかたちでさまざまな分析手法が生み出されてきた。

 代表例としてランダム化比較実験(Randomized Controlled Trial)ないしはABテストを挙げることができる。多くのサンプルをランダムに介入グループ(treatment group)と比較グループ(control group)に分類し,結果を比較するという手法である。オバマ前大統領が選挙広告の戦略を立案する際に用いたことで有名らしい。内的妥当性をもっとも担保している手法であるが,外的妥当性はパネルデータ分析に劣る。

 RCTは費用がかかるため常に実施できるわけではない。自然実験(Natural Experiment)と呼ばれる手法で代用されることがある。代表的な3つの手法が本書では紹介されている。

  • RDデザイン(Regression Discontinuity Design)…例えば日本の医療制度は,70歳を境に医療費の自己負担額が変わる。RDデザインはこうした非連続の変化に着目する手法である。非連続な変化をもたらす要因が他にはないことを,できるだけ示す必要があるという難点があるほか,境界線以外の者にも適用できるかどうかは自明ではない(外的妥当性の問題)といったことに留意する必要がある。

 

  • 積分析(Bunching Analysis)所得税累進課税や燃費規制など階段状の規制を利用して因果関係の有無を分析する。境界線で非連続な変化が起きていることに着目することで,あたかもRCTが起こっているような状況を利用する点ではRDデザインと類似している。しかし,対象主体が変数を操作できる(例えば燃費規制の上限ギリギリの自動車が増える)点が異なる。

 

  • パネルデータ分析(Panel Data Method)…介入グループと比較グループがたまたま形成されていた場合に,「介入開始後の両グループの差」から「介入前の両グループの差」を引くという「差分の差分」を求めることで,因果関係の有無を確認する手法である。その際,「平行トレンドの仮定」が重要となる。この仮定を完全に満たすことは難しく,介入開始前に平行トレンドの仮定が成り立っていることを示すとともに,介入後に介入グループだけに影響を及ぼす他の事象がないかを丹念に調べることで,一応成り立っていることを示す必要がある。パネルデータ分析は利用できる場面が他の手法よりも多い一方で,比較グループのデータ収集を行っていない(例えば補助金を受給していない世帯のデータ)とか,介入開始後のデータしか収集していないなど,適切な分析を行えないことも少なくない。


 いずれの手法にも長所と短所があることには留意せねばならない。とりわけ外的妥当性を考える時には慎重にならないといけない。今後,日本においてもこうした分析がさまざまな場面で利用されることは想像に難くないわけで,本書をきっかけに自らの統計やデータ分析に関するリテラシーを高めていく必要があるだろう。