とあるエンジニアの作業ブログ

Analytics コンサル 備忘

【備忘】中心極限定理に関する自分なりの解釈

投稿日:

中心極限定理を自分なりに腹落ちするためのメモ。
要するにの中心極限定理の理解は、

元データが正規分布に従ってなくても、そのデータをサンプル抽出していくつか足し合わせたものはたいてい正規分布に従う

というもの。
正規分布に従ってれば、平均とか標準偏差とか使って95%信頼区間とかが簡単に求められるということだと思うが、この「足し合わせたもの=和」の部分が自分の肌感として理解できなかったのでそこをもう一段腹落ちしたい。

選挙の出口調査で使われていると聞いたので、それを簡易化して考える。

A党、B党、C党の3つの党のそれぞれの得票率を出口調査するケースにおいて、そのサンプルサイズ設計するシーンを考える。

実際は、母集団=国内の有権者(正確には有権者×投票率)だが、単純化のために母集団=20として、その真値が仮に以下のような状態であったと仮定する。

1 A党 11 C党
2 B党 12 A党
3 C党 13 B党
4 A党 14 C党
5 A党 15 C党
6 B党 16 A党
7 A党 17 B党
8 C党 18 A党
9 B党 19 A党
10 A党 20 C党
  • A党の得票率 45.00%
  • B党の得票率 25.00%
  • C党の得票率 30.00%

この時に、出口調査では上記20人からサンプリングされた有権者がどの党に投票したかがヒアリングされる。
また、A党の得票率は、
$$\frac{サンプリングされた有権者がA党に投票したかどうかの和}{サンプル数}$$
で計算される。

これは、20人の中からランダムに抽出された有権者がA党に投票した確率分布に従うので、例えば2人に対して出口調査すると、A党の得票数(得票率)という確率変数は以下のようになる。(当たり前だが、実際には母数も真値も事前にはわからないのでこの確率分布を前もって計算することはできない。あくまでも上記のような真値があると仮定した場合の話である。)

0(0%) 1(50%) 2(100%)
$$\frac{(20-9)}{20}\times\frac{(19-9)}{19}\\=0.2894$$ $$\frac{(20-9)}{20}\times\frac{(9)}{19}+\frac{(9)}{20}\times\frac{(19-8)}{19}\\=0.5219$$ $$\frac{(9)}{20}\times\frac{(8)}{19}\\=0.1895$$

上記の例で示された通り、このA党の得票数(得票率)という確率変数は、サンプリングされた有権者がA党に投票したかどうかの和であり、すなわち中心極限定理に従いその確率分布はガウス分布の形を取ると判断できる。
(ちなみに、A党の得票率というのは母数に対するA党に投票した割合、すなわち、A党に投票した場合は1、それ以外は0というダミー変数(A党ダミー)の母平均と考えることができる。)

A党の得票数(得票率)がガウス分布に従うということがわかれば、その標準誤差を求めることによりサンプルサイズ設計が行える。
すなわち、
$$A党の得票率の標準誤差 = \sqrt{\frac{A党の得票率\bar{x}_a(1 – \bar{x}_a)}{サンプル数 n}} < 目標とする標準誤差(0.001等)$$ で目標とする標準誤差以内にするにはどれだけのサンプル数が必要かということがわかる。 なお、出口調査から推定されるA党の得票率\(\bar{x}_a\)は調査しながら値が変動するため、その度に適切なサンプルサイズも変動するが、\(\bar{x}_a=0.5\)の時に標準誤差は最大となるので、目標サンプルサイズの最大値を計算することが可能。

-Analytics, コンサル, 備忘
-,

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

AML(Anti Money Laundering)入門

仕事でAMLの知識が必要になったので勉強した内容のメモ。 目次 マネーロンダリングとAML/CFTとは マネーロンダリング/テロ資金供与の実例 AML/CFTの仕組み 全体概要(KYC、経済制裁対応、 …

改めてリーンスタートアップの要点まとめ(2/3) 第2部

リーンスタートアップの第2部のまとめ。 第1部のまとめはこちら。 目次 構築→計測→学びのサイクルと事業拡大/転換 :本書 5、6、7、8章に対応 構築・検証プロセスにおける特記 :本書 6章に対応 …

改めてリーンスタートアップの要点まとめ(3/3) 第3部

リーンスタートアップの第3部のまとめ。 第1部、第2部のまとめは以下から。 第1部 第2部 目次 リーン実践にあたっての案件サイズ(バッチサイズ) :本書 9、11章に対応 事業拡大において注力すべき …

【備忘】gitのglobal userとlocal user使い分け

Macで初めてgit commitした時に、「お前は誰だ?」的な感じで怒られた。

でユーザー名とメールアドレスを指定する必要があるらし …

リスクベースドテストにおけるリスク定義方法

リスクベースドテストにおけるリスク定義方法のメモ。 主に、リスク定義する上でのリスク算出要因(影響度(Damage), 発生確率(Probability of Failure))と重みづけ方法、及びリ …