前作に続いて、西内啓さんの「統計学が最強の学問である[実績編]」を読んで自分用のメモ。
洞察の統計学とは・・・?
作中では、ある結果に対してそれがなぜそうなるのか(どのような要因で、どの程度そうなるのか)を明らかにすること、すなわち因果関係を明らかにするための統計学を「洞察の統計学」と呼んでいる。
簡単に言えば、ある結果yを引き起こす要因であるxの、y=ax+bを明らかにする統計学だということ。
対比して、統計学の目的には「洞察」以外に、「現状の把握」と「今後の予測」の2が存在し、後者の2つは作中ではほとんど扱わないと謳っているが、個人的にはそれらも全て一つ(作中の言葉だと「洞察の統計学」)に集約されるのでは?と思ったりする。
「現状の把握」とはクロス集計や平均値、分散・標準偏差で収集したデータがどのような値・ばらつき・傾向を持っているかを見ることと言えるが、これは洞察を得る前の下準備だ。「今後の予測」は因果関係を洞察した結果、じゃあ将来的にはどうなるだろうという予測を立てることに繋がる。
要は、ある結果の因果関係を明らかにすると、自然と「現状の把握」もその先の「今後の予測」も付いてくるよね?という話と理解。
で、洞察の統計学って結局どうするの?何するの?というと、要はビジネス上の結果・目的(アウトカム)の要因となる説明変数を明らかにし、それがどの程度アウトカムに寄与するかを明らかにするということである。
すなわち、
- 目的変数(アウトカム)の設定(例えば売上だったり成約率だったり)
- それに影響を与えうる要因(説明変数)の洗い出し
- 説明変数が目的変数に与える影響度合いの算出(もしくは結果の最大化)
である。1は説明不要。2は候補となる説明変数の洗い出しだが、ここが大変。なんでもかんでも候補にするわけにはいかないし、そのままだと変数として扱えない候補もあると思うので変数化が必要であり、分析屋の手腕が問われる。3は手法の話であり回帰分析や機械学習によるモデル化が考えられる。(ただし機械学習の場合は因果を明らかにするというよりも結果を最大化するという予測に近しいので、本書の筋とは少し外れる)
データの分布を把握するための指標値
平均値
量的変数の平均値と、質的変数の割合は本質的には同じものである。
量的変数は年齢や収入、売上などの数字で表されるもの。対して質的変数は性別や製品のモデル名など、文字で表されるもの。
なぜ平均値と割合が本質的には同じものかというと、
1という値を60人分足し、さらに0という値を40人分足して100人という全体の人数で割る。そうすると60÷100で0.6というのがこの「男性である度合い」の平均値ということになる。
ということらしい。つまるところ、この例で言えば割合というのは男性ダミー変数の平均値ということ。
これは2値の質的変数にしか使えない訳ではなく、例えば母集団の職業の割合という場合には、会社員度合い(会社員ダミーの平均値)0.4であれば母集団100に対して、会社員40%、専業主婦度合い(専業主婦ダミーの平均値)0.2であれば20%という風に解釈できる。
正規分布(ガウス分布)と中心極限定理
正規分布自体は知っているので割愛。
中心極限定理は、「元データが正規分布に従ってなくても、そのデータをサンプル抽出していくつか足し合わせたものはたいてい正規分布に従う」というもの。
言い換えれば、母集団から「サンプル抽出した和」という確率変数の確率分布は正規分布に従うと言っても良い(はず)。これも感覚的にはわかる。
で、問題はだからなんなの!?という話。
正しい理解かわからないけど、この後に出てくる分散とか標準偏差とかそれらを用いた区間推定(95%信頼区間)とかは、その元となるデータが正規分布に従っていることが全ての前提にあるはず。
なので、この考え方を理解しておけば、「このデータは母数(サンプル数)がある一定量を超えているので中心極限定理により正規分布に収束仕切っていると思われる。よって平均や標準偏差を用いて区間推定してOK」的な判断ができるようになるということだと思う。(その逆もしかりで、足し合わせれば中心極限定理により正規分布に従うので、平均や標準偏差を用いてサンプルサイズ設計ができると判断してOK)
作中にも以下のような文章があるが、数百件〜数千件のデータが取れている状態であればそれほど気にする必要性はないのだろうが、取得できているデータの件数が少ない状態で、正規分布に従っていると目暗で判断して平均や標準偏差使うのは危険ということと理解。
四分位点
執筆中
分散と標準偏差
執筆中