とあるエンジニアの作業ブログ

Analytics ビジネス書要約

『統計学が最強の学問である[実績編]』を読んで自分用メモ

投稿日:

前作に続いて、西内啓さんの「統計学が最強の学問である[実績編]」を読んで自分用のメモ。

洞察の統計学とは・・・?

作中では、ある結果に対してそれがなぜそうなるのか(どのような要因で、どの程度そうなるのか)を明らかにすること、すなわち因果関係を明らかにするための統計学を「洞察の統計学」と呼んでいる。
簡単に言えば、ある結果yを引き起こす要因であるxの、y=ax+bを明らかにする統計学だということ。

対比して、統計学の目的には「洞察」以外に、「現状の把握」と「今後の予測」の2が存在し、後者の2つは作中ではほとんど扱わないと謳っているが、個人的にはそれらも全て一つ(作中の言葉だと「洞察の統計学」)に集約されるのでは?と思ったりする。
「現状の把握」とはクロス集計や平均値、分散・標準偏差で収集したデータがどのような値・ばらつき・傾向を持っているかを見ることと言えるが、これは洞察を得る前の下準備だ。「今後の予測」は因果関係を洞察した結果、じゃあ将来的にはどうなるだろうという予測を立てることに繋がる。
要は、ある結果の因果関係を明らかにすると、自然と「現状の把握」もその先の「今後の予測」も付いてくるよね?という話と理解。

で、洞察の統計学って結局どうするの?何するの?というと、要はビジネス上の結果・目的(アウトカム)の要因となる説明変数を明らかにし、それがどの程度アウトカムに寄与するかを明らかにするということである。
すなわち、

  1. 目的変数(アウトカム)の設定(例えば売上だったり成約率だったり)
  2. それに影響を与えうる要因(説明変数)の洗い出し
  3. 説明変数が目的変数に与える影響度合いの算出(もしくは結果の最大化)

である。1は説明不要。2は候補となる説明変数の洗い出しだが、ここが大変。なんでもかんでも候補にするわけにはいかないし、そのままだと変数として扱えない候補もあると思うので変数化が必要であり、分析屋の手腕が問われる。3は手法の話であり回帰分析や機械学習によるモデル化が考えられる。(ただし機械学習の場合は因果を明らかにするというよりも結果を最大化するという予測に近しいので、本書の筋とは少し外れる)

データの分布を把握するための指標値

平均値

量的変数の平均値と、質的変数の割合は本質的には同じものである。
量的変数は年齢や収入、売上などの数字で表されるもの。対して質的変数は性別や製品のモデル名など、文字で表されるもの。

なぜ平均値と割合が本質的には同じものかというと、

「男性である度合い」という量的変数を考えてみよう。この「男性である度合い」は、調査の結果自分が男性であると回答した人なら1、そうでなければ0という値になるものとする。この平均値はどのような値になるだろうか。
1という値を60人分足し、さらに0という値を40人分足して100人という全体の人数で割る。そうすると60÷100で0.6というのがこの「男性である度合い」の平均値ということになる。

ということらしい。つまるところ、この例で言えば割合というのは男性ダミー変数の平均値ということ。
これは2値の質的変数にしか使えない訳ではなく、例えば母集団の職業の割合という場合には、会社員度合い(会社員ダミーの平均値)0.4であれば母集団100に対して、会社員40%、専業主婦度合い(専業主婦ダミーの平均値)0.2であれば20%という風に解釈できる。

正規分布(ガウス分布)と中心極限定理

正規分布自体は知っているので割愛。
中心極限定理は、「元データが正規分布に従ってなくても、そのデータをサンプル抽出していくつか足し合わせたものはたいてい正規分布に従う」というもの。
言い換えれば、母集団から「サンプル抽出した和」という確率変数の確率分布は正規分布に従うと言っても良い(はず)。これも感覚的にはわかる。

で、問題はだからなんなの!?という話。

正しい理解かわからないけど、この後に出てくる分散とか標準偏差とかそれらを用いた区間推定(95%信頼区間)とかは、その元となるデータが正規分布に従っていることが全ての前提にあるはず。
なので、この考え方を理解しておけば、「このデータは母数(サンプル数)がある一定量を超えているので中心極限定理により正規分布に収束仕切っていると思われる。よって平均や標準偏差を用いて区間推定してOK」的な判断ができるようになるということだと思う。(その逆もしかりで、足し合わせれば中心極限定理により正規分布に従うので、平均や標準偏差を用いてサンプルサイズ設計ができると判断してOK)

作中にも以下のような文章があるが、数百件〜数千件のデータが取れている状態であればそれほど気にする必要性はないのだろうが、取得できているデータの件数が少ない状態で、正規分布に従っていると目暗で判断して平均や標準偏差使うのは危険ということと理解。

「データの分布の確認もせず(10件やそこらのデータで正規分布への収束を前提にして)平均値を使うのか?」というツッコミは正しいが、数百件や数千件のデータが当たり前に存在している状況でも毎回こうしたツッコミで知ったかぶりをする、というのはあまり褒められたものではない。

四分位点

執筆中

分散と標準偏差

執筆中

-Analytics, ビジネス書要約
-,

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

【入門】専門じゃない人のためのデータ分析でよく使う用語まとめ

データ分析とか統計の本を読んでいるとよくでてくる用語で、数学とか統計とかそういう畑を出てない自分にとって馴染みの薄いものを備忘的にまとめていくメモ。 用語 概要 因子 因果関係の原因となる項目。 e. …

中心極点定理ぃぃぃ????

【備忘】中心極限定理に関する自分なりの解釈

中心極限定理を自分なりに腹落ちするためのメモ。 要するにの中心極限定理の理解は、 元データが正規分布に従ってなくても、そのデータをサンプル抽出していくつか足し合わせたものはたいてい正規分布に従う とい …

改めてリーンスタートアップの要点まとめ(1/3) 全体概要&第1部

ここ2、3年の仕事はプロジェクトをアジャイルで進めることが多く、かつ今度リーンスタートアップで提唱されているプロセスを採用するということで改めてリーンスタートアップを読んでみた。 以前読んだときは自分 …

Python3.7.1で文章間の類似度判定

python3.7.1でMeCabとWord2Vecを使い文章間の類似度判定を行います。 結構類似の記事があったんですが、pythonのバージョン互換の問題かなんかでそのままだと動かなかったので自分な …

Kubernetes入門 ~Kubernetes完全ガイドを読んで~

Kubernetesを学ばないとだんだん話についていけなくなってきたので止む無く勉強を始めた。 とりあえずKubernetes完全ガイドという、今のところ日本語だと一番良いと聞いたのでそいつで勉強。 …