当確の仕組み

こんにちは。namakemonoです。
本日は選挙の「当確」の仕組みを解説します。


選挙などで開票が始まってすぐ「当確」が表示されて
「まだほんの一部しか開票していないのに、なぜ当選者がわかるのだろう?」
と思ったことはありませんか?
今日はその「当確」を判断している裏側をご説明します。

そもそも「当確」とは?

「当確」とは、テレビなどのマスメディアが発表する、「極めて当選する可能性が高い」というサインです。
しかし、放送局が一度、当確を出して取り消しというとなると、局の信頼性が問われます。
そこで、実際は、出口調査のほかに、事前アンケートや過去の実績などさまざまな要因を組み合わせて判断しています。
今回は「出口調査」を例にとって、当確判定の裏側を説明します。

カギを握るのは「統計的推定」

統計的推定とは、一部のデータ(標本)から、全体(母集団)を推定する方法です。
みなさん料理をする際に味見をしますよね?料理全体の味を、一部分を食べて判断しますよね?
それと同じ考え方です。
068

シミュレーションしてみると。。。

標本を抽出する際は無作為に抽出すればするほど、推定の精度は高くなります。
特に選挙となると、年齢、性別、仕事など、有権者の様々な属性(特徴)によって票が分かれます。
そのため、出口調査する対象を選別する必要があります。
今回は、シミュレーションなので、属性は考慮しません。


【前提条件】
・Excelのrand関数を利用して、0~2数値を発生させます。(round(rand()*2,0)で発生させます。)
・上記の乱数で、0を立候補者A、1を立候補者B、2を立候補者Cとします。
・総投票数は10万とし、標本として1000票を抽出します。



まず、どのような値になったのかを見てみましょう。
今回も分析にRを利用します。
変数xに、今回のデータを格納しています。

> pareto.chart(table(x[[2]]))

Pareto chart analysis for table(x[[2]])
Frequency Cum.Freq. Percentage Cum.Percent.
1 497 497 49.7 49.7
2 260 757 26.0 75.7
0 243 1000 24.3 100.0

069


続いて、区間推定を行います。
区間推定とは、ある確率で、母集団の値が存在する区間を推定する方法です。(1つの値で推定する方法は点推定と呼びます)
Rではbinom.test関数を利用します。binom.test(度数,サンプルサイズ)で利用できます。


立候補者Aです。95%の確率で、21.7%~27.1%の範囲に収まります。

> y<-table(x[[2]]) > binom.test(y[[1]],length(x[[2]]))

Exact binomial test

data: y[[1]] and length(x[[2]])
number of successes = 243, number of trials = 1000, p-value < 2.2e-16 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2167058 0.2708164 sample estimates: probability of success 0.243



立候補者Bです。95%の確率で、46.6%~52.8%の範囲に収まります。

> y<-table(x[[2]]) > binom.test(y[[2]],length(x[[2]]))

Exact binomial test

data: y[[2]] and length(x[[2]])
number of successes = 497, number of trials = 1000, p-value = 0.8744
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.4655586 0.5284591
sample estimates:
probability of success
0.497



立候補者Bです。95%の確率で、23.3%~28.8%の範囲に収まります。

> y<-table(x[[2]]) > binom.test(y[[3]],length(x[[2]]))

Exact binomial test

data: y[[3]] and length(x[[2]])
number of successes = 260, number of trials = 1000, p-value < 2.2e-16 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2330531 0.2883677 sample estimates: probability of success 0.26



この結果から、立候補者Bが当確と推測されます。

さて、今度は10万件サンプルデータを作成した場合どうなるか試してみましょう。
先ほどと同様に、10万件のデータをExcelで作成して取り込みます。

> x100000<-read.xlsx(file="Rdemo.xlsx",sheetIndex=2,encoding="UTF-8") > pareto.chart(table(x100000[[2]]))

Pareto chart analysis for table(x100000[[2]])
Frequency Cum.Freq. Percentage Cum.Percent.
1 49840 49840 49.840 49.840
2 25102 74942 25.102 74.942
0 25058 100000 25.058 100.000



立候補者Aは25.1%、立候補者Bは49.8%、立候補者Cは25.1%となり、推定した区間内に入っていますね。
したがって、標本でサンプリングした通り、立候補者Bが当確ですね。


今回は抽出した標本も、母集団も同じ関数で作成したため、推定がうまくいきました。
しかし、現実では1人1人考え方が異なるため、母集団と同じ特徴の標本を抽出することは難しく、出口調査だけでは根拠になりえません。
(精度を上げるため、地区ごとに年齢や性別で対象人数を決めているそうですけど。。。)
そこで、事前調査や過去の実績など様々な要因を加味して判断しているみたいです。

最後に

私たちの身近なところには、様々な場面で統計学が利用されています。
これからも興味をもって、記載していきたいと思います。
ではでは。


コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA