読者です 読者をやめる 読者になる 読者になる

統計学が最強の学問である

統計学が最強の学問である
西内 啓
ダイヤモンド社
売り上げランキング: 43

統計学が最強かどうかはおいておくとして、統計学が科学が扱える領域を広げたという点はそのとおりであろう。なぜなら、誤差と因果関係を定量的に扱う手段を与えたからである(第3章)。データのビジネスに使う際、著者によれば、次の問いに答えられない分析には価値がない。

  1. 何かの要因が変化すれば利益は向上するのか?
  2. そうした変化を置こすような行動は実際に可能なのか?
  3. 変化を起こす行動が可能だとしてそのコストは利益を上回るのか?

このような問いに答える分析、つまり「買ってくれる/くれないの差をコントロールする方法(裏ワザ)」を見付けるポイントは以下。難しい手法のまえにデータサンプリング+クロス集計、という意見は、実務家たちからよく聞くところである。

  1. クロス集計->これだけではただの皮算用(p.78)
  2. ランダム化比較実験とカイ二乗検定
  3. 「適切な比較」とは何か->目指すゴールを達成したものとそうでないもの

本書は、統計学の父ロナルド・A・フィッシャーによる、「因果関係の向き」という大問題への、の2つの解決法が中心となっている。

  1. フェアに条件を揃える=ランダム化(第4章)
  2. フェアな比較を行う=真値というアイディア(第5章)

真値というアイディアにより、「たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せる」ようになる。ネルダー、ウェダーバーンらによって一般化線形モデル(Generalized Linear Model)として体系化されている。

 分析軸(説明変数)
2グループ間の比較多グループ間の比較連続値の多寡で比較複数の要因で同時に比較
比較したいもの(結果変数)連続値 平均値の違いをt検定 平均の違いを分散分析 回帰分析 重回帰分析
あり/なしなどに二値 集計表の記述とカイ二乗検定 ロジスティック分析

重回帰分析では、回帰係数は「お互いに相乗効果がなかったとすれば」という仮定のもと、説明変数が結果変数にどの程度の影響を与えるかを示している。

ロジスティック分析では、同じく回帰係数は「お互いに相乗効果がなかったとすれば」という仮定のもと、何倍そうなりやすいか(オッズ比)を示している。

このように、一般化線形モデルでは、回帰係数に解釈が可能なため、予測結果から今後何をすべきか議論することもできる。また、「お互いに相乗効果がなかったとすれば」という仮定がくずれる場合には、交互作用項(2つの変数を掛けあわせた新しい変数)を加えるテクニックを使うこともできる。

第6章では、社会調査、疫学・生物統計学、心理統計学データマイニングテキストマイニング、計量統計学のねらいの違いと、これに起因する考えかたや好んで使うテクニックの違いなどを解説している。また、頻度論者とベイズ論者の違いについても述べている。異なる学問領域の間での相容れない主張が一人称で書いてあり、思わず「あるある」と苦笑い。

最終章は、統計学に関わらない人々にもぜひ知ってもらいたい。仮説の検証には膨大なコストを要するが、メタアナリシス/統計的レビューを受けた、さまざまな問題に対する結論は、すでにデータベース化されている。また、ランダム化比較実験レベルの検証を得た仮説をGoogleで検索する調査例も参考になる。

 

キーワード:

  • フラミンガム研究(コホート研究 p.143)、ケースコントロール研究
  • 標準誤差(p.51)=「サンプルから入られた割合(たとえば失業率)に対して標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲真の値が含まれている信頼性が95%、という値」
    • sqrt( (全体の人数-サンプルの人数)/(全体の人数-1) × 真の割合(1-真の割合))/サンプルの人数 )
  • クロス集計->これだけではただの皮算用(p.78)
  • p値=「実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率(p.84)
  • A/Bテスト=ランダム化比較実験(p.81)
  • ダミー変数(p.176)
  • シンプソンのパラドックス(p.180)=「全集団同士での単純比較は、その内訳となる小集団同士との比較の結果と矛盾することもある」
  • 傾向スコア(byローゼンバウム、ルービン)
  • 相関係数(byゴルドン、ピアソン)
  • 因子分析(byスピアマン)->お互いに相関している複数の値から、それらすべてとよく相関する新しい合成変数(因子,factor)を埋み出す。
  • パス解析 <- 心理統計学
  • バスケット分析 <- データマイニング
  • プロビット回帰 <- 行動経済学
  • 頻度論者 vs ベイズ論者
  • メタアナリシス/系統的レビュー

メモ:

(p.30) ポジティブな建前としては、この十分すぎる性能を使って「いかに価値を埋み出すか」という考えかたが必要になる。またネガティブな本音としては「価値を埋み出そうがなんだろうが、大量の処理が必要になる使い道」を提案しなければならないし、それを売り込むためには「一見ビジネスの役に立ちそうなお題目」

 

(第4章) 統計学的の裏付けもないのにそれが絶対正しいと決めつけることと同じくらい、統計学的な裏付けもないのにそれが絶対誤りだと決めつけることも愚か

 

論文データベース: