とあるエンジニアの作業ブログ

Analytics コンサル 備忘

【備忘】中心極限定理に関する自分なりの解釈

投稿日:

中心極限定理を自分なりに腹落ちするためのメモ。
要するにの中心極限定理の理解は、

元データが正規分布に従ってなくても、そのデータをサンプル抽出していくつか足し合わせたものはたいてい正規分布に従う

というもの。
正規分布に従ってれば、平均とか標準偏差とか使って95%信頼区間とかが簡単に求められるということだと思うが、この「足し合わせたもの=和」の部分が自分の肌感として理解できなかったのでそこをもう一段腹落ちしたい。

選挙の出口調査で使われていると聞いたので、それを簡易化して考える。

A党、B党、C党の3つの党のそれぞれの得票率を出口調査するケースにおいて、そのサンプルサイズ設計するシーンを考える。

実際は、母集団=国内の有権者(正確には有権者×投票率)だが、単純化のために母集団=20として、その真値が仮に以下のような状態であったと仮定する。

1 A党 11 C党
2 B党 12 A党
3 C党 13 B党
4 A党 14 C党
5 A党 15 C党
6 B党 16 A党
7 A党 17 B党
8 C党 18 A党
9 B党 19 A党
10 A党 20 C党
  • A党の得票率 45.00%
  • B党の得票率 25.00%
  • C党の得票率 30.00%

この時に、出口調査では上記20人からサンプリングされた有権者がどの党に投票したかがヒアリングされる。
また、A党の得票率は、
$$\frac{サンプリングされた有権者がA党に投票したかどうかの和}{サンプル数}$$
で計算される。

これは、20人の中からランダムに抽出された有権者がA党に投票した確率分布に従うので、例えば2人に対して出口調査すると、A党の得票数(得票率)という確率変数は以下のようになる。(当たり前だが、実際には母数も真値も事前にはわからないのでこの確率分布を前もって計算することはできない。あくまでも上記のような真値があると仮定した場合の話である。)

0(0%) 1(50%) 2(100%)
$$\frac{(20-9)}{20}\times\frac{(19-9)}{19}\\=0.2894$$ $$\frac{(20-9)}{20}\times\frac{(9)}{19}+\frac{(9)}{20}\times\frac{(19-8)}{19}\\=0.5219$$ $$\frac{(9)}{20}\times\frac{(8)}{19}\\=0.1895$$

上記の例で示された通り、このA党の得票数(得票率)という確率変数は、サンプリングされた有権者がA党に投票したかどうかの和であり、すなわち中心極限定理に従いその確率分布はガウス分布の形を取ると判断できる。
(ちなみに、A党の得票率というのは母数に対するA党に投票した割合、すなわち、A党に投票した場合は1、それ以外は0というダミー変数(A党ダミー)の母平均と考えることができる。)

A党の得票数(得票率)がガウス分布に従うということがわかれば、その標準誤差を求めることによりサンプルサイズ設計が行える。
すなわち、
$$A党の得票率の標準誤差 = \sqrt{\frac{A党の得票率\bar{x}_a(1 – \bar{x}_a)}{サンプル数 n}} < 目標とする標準誤差(0.001等)$$ で目標とする標準誤差以内にするにはどれだけのサンプル数が必要かということがわかる。 なお、出口調査から推定されるA党の得票率\(\bar{x}_a\)は調査しながら値が変動するため、その度に適切なサンプルサイズも変動するが、\(\bar{x}_a=0.5\)の時に標準誤差は最大となるので、目標サンプルサイズの最大値を計算することが可能。

-Analytics, コンサル, 備忘
-,

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

【備忘】dockerグループに一般ユーザーを追加する

EC2のUbuntuにdockerをインストールすると、そのままだと、 Got permission denied while trying to connect to the Docker daem …

【備忘】gitのglobal userとlocal user使い分け

Macで初めてgit commitした時に、「お前は誰だ?」的な感じで怒られた。

でユーザー名とメールアドレスを指定する必要があるらし …

改めてリーンスタートアップの要点まとめ(3/3) 第3部

リーンスタートアップの第3部のまとめ。 第1部、第2部のまとめは以下から。 第1部 第2部 目次 リーン実践にあたっての案件サイズ(バッチサイズ) :本書 9、11章に対応 事業拡大において注力すべき …

筑波大学 佐久間 淳先生の機械学習講義の学習メモ ~ 第1回 機械学習概論と単回帰 (2) ~

筑波大学 システム情報系教授 佐久間 淳先生の機械学習の講義を見て勉強したので学習メモ。 第2回 1. 機械学習概論と単回帰 (2)。 用語メモ 平均二乗誤差 一つのデータに対する Error(誤差) …

【備忘】MacのExcelの自分的よく使うけど忘れがちなショートカット

MacのExcelのショートカット備忘録。個人的によく使うけど忘れがちなショートカットのみメモ。(感覚的にWindowsとほぼ同じやつは記載割愛) 作業内容 ショートカット セルの編集モードに入る c …