2016年11月1日火曜日

「2016米大統領選における男女の分断」という分析はクリントン氏有利に働き得る

#少し鮮度の落ちた話になるが、米大統領選挙前であるので、時機を逸したことにはならないであろうから、公開することにした。わが国に思考の本拠を置く陰謀論者にとって、本年10月は混迷の極みにあった。昨日のFBIによるクリントン氏への捜査は、アメリカに良心ある組織人がいることの証拠ということであろうか。


候補者の資質は性別によるものではないが、性別は土俵の設定に悪用され得る

日経は、男性票だけではトランプ氏有利であるが、女性票を加えるとクリントン氏有利という、ネイト・シルバー氏の予測を掲載している[1, 2]。自社グループから出版した『シグナル&ノイズ』のつながりによるものと思われる。この分析は、十分に後追い可能なデータが(日経の紙面上で)提示されないから、何ら面白みのないものである。しかし、この分析の怪しさを定性的に指摘することは可能であるし、その過程で、本件分析がクリントン氏への鞍替えを促すことを狙ったものであることを示せるので、今回、この点を考察しておきたい。今後、集団的自衛権等に基づき海外派兵するという展開をわが国が迎えた場合、現時点の米国大統領選挙と同様の構図が生じないとも限らないためである。

シルバー氏の指摘には、性別上の対立を煽るという一次的な効果があるが、この一次的効果は、[(投票者に影響を与える)周囲の人物(の性別)]と[投票者自身の性別]という二種類の属性の組合せから、投票行動を変更させる効果がある。[周囲の人物]は、友人でも家族でも良い。態度を決めかねている独身者で、同性とつるむことの多い人物は、自身の性別と共通の候補に投票するかも知れない。他方で、妻を持つ男性の場合、妻を慮り、トランプ氏への投票意向を翻意することもあろう。逆に、夫がトランプ氏支持であるかを問わず、この記事に接するだけで、女性がトランプ氏に鞍替えするという効果は考えにくい。この分析だけを提示された場合、トランプ氏からクリントン氏へ乗り換えようとする投票者が出てきても不思議ではないが、逆に、クリントン氏からトランプ氏へ乗り換える投票者は、相対的に少数となろう。

女性がトランプ氏に鞍替えする可能性が高くなるのは、青年期の息子と母親という組合せのように、男性が兵役に就く可能性の高い家庭であり、かつ、女性がクリントン氏の好戦性に気が付いている場合である。ヒラリー・クリントン政権は、必ずや米国を海外派兵に導くであろう。この点を知る女性投票者は、よりマシな人物を選択することを迫られることになる。結局、候補者の政策こそが重要である。にもかかわらず、シルバー氏は、この点をすっ飛ばして、候補者の下半身に話を収斂させるかのように、候補者の性別のみを問題とするのである。

女性という生物学的性のみを強調するという方針は、大メディアによる作為であると認められる。『報道ステーション』10月21日に登場したオーストラリア人女性のマルチタレントにしても、現都知事の「活躍」にしても、わが国の女性閣僚3名にしても、ヒラリー・クリントン氏を女性として持ち上げる効果を有する。もっとも、最後の点については、むしろ個人の資質を問う声を報じる報道もあり、政治分野における野心的な女性一般の資質に対して疑問符を抱かせるものにもなり得る。ここでも、政治家としての適性は生物学的な性別やジェンダーにもよらず、個人に帰属することを繰り返して指摘する必要がある。

このシルバー氏の分析は、選挙に影響を与えうるという意味で問題を含むものである。


単回帰直線を2名の候補の得票数に当てはめるという「土俵」に乗る必要はなかった

シルバー氏のブログには、2009年イラン大統領選挙についても、専門家にふさわしくない検討を行う記事が見られる。以下では、シルバー氏の記事がなぜ専門家としてふさわしくない内容であるのかを検討する。その際、同氏の記事で用いられている回帰分析とはいかなる分析方法であるのかを、改めて確認しておく必要がある。回帰分析の意味が理解されずに、Excelに実装された機能が誤用されている節が認められるためである。

回帰分析(regression analysis)は、変数XとYからなるデータがあるとき、Xによって、Yを定量的に説明するための、回帰方程式と呼ばれる式を求める方法である。Xを独立変数(independent variables)や説明変数(explanatory variables)、Yを従属変数(dependent variables)や被説明変数という※1。回帰分析は、XとYとの間に関係があるか否かを分析の目的とする相関分析とは異なる。また、分析者は、XによってYを説明するという因果関係を暗黙裏に設定していることになる。なお、回帰分析で求められた回帰方程式は、将来の類似したデータに対する予測にも用いることができる。

シルバー氏[3]は、ムハンマド・サヒミ氏(Muhammad Sahimi)による2009年6月のイラン大統領選挙の回帰分析[4]を取り上げ、不正の証拠であるとするサヒミ氏の見方を否定している。サヒミ氏は、説明変数をアフマディネジャド氏の得票数、被説明変数を対立候補のムサビ氏の得票数とする単回帰直線※2を作成し、決定係数(R-Squred)※3が0.998という高い数値となったことを挙げる。これに対して、シルバー氏は、2008年のオバマ氏対マケイン氏の2008年米大統領選挙の得票経過を同様の方法で分析してみせて、決定係数が0.9959となったが、米大統領選挙に不正があったとは言わないであろう、と指摘した。私から見れば、不正選挙の虞は得票数の並び方と必ずしも関係しないし、サヒミ氏の方法は回帰分析の誤用である。このため、専門家であるシルバー氏が同じ土俵に乗ったこと自体に違和感を覚える。

サヒミ氏と同様の方法は、「不正があるから、斉一的な得票数の伸びとなった」というサヒミ氏の命題を否定する論拠とはならない。シルバー氏の指摘は、せいぜい、「斉一的な得票数の伸びを見せる正当な選挙結果もある」という命題が並立するという根拠を示すものに過ぎないからである。両氏の論証の形式は、ともにアブダクション[5]であり、一つの結果(斉一的)に対して複数の原因(不正がある・ないの両方)を許すものである※4。事の真偽を確認するためには、われわれは、シルバー氏の意見の当否についてはともかく、サヒミ氏の意見の当否そのものを検討しなければならない。

つまり、シルバー氏は「不正な選挙なら、得票数の伸びが斉一的になる」という命題に対して、「公正な選挙でも、開票以外のプロセスに不正があったとしても、理想的な開票作業においては、得票数の伸びが斉一的な方向に向かう」ことを反論し、方法の不適切さを真正面から否定すべきであった。シルバー氏の論理は、2009年イラン大統領選挙の真偽こそ断定しないものの、2008年米大統領選挙が不正なものであるという可能性を認めるものにもなりかねない。「2008年米大統領選挙について、不正が行われなかった証拠を挙げよ」という反論に対して、シルバー氏の論法は、有効な防御の難しいものである。


理想的な開票作業の下では、得票数の伸びは二項分布に従う

理想的な開票作業が行われている限り※5選挙の開票が進むにつれ、各候補の得票数は、斉一的な伸びを見せる他方で、開票の途中から、主要候補の得票数の伸びが大きく変化する候補については、選挙管理委員会による何らかの作業が影響していることが考えられる。それは、単にその候補者に対する検票作業が入念に行われているだけかも知れない※6。全国選挙である場合には、都市部の有権者数の人数が多数であるため開票作業に遅れが生じ、都市部住民の意向が相対的に遅れて反映されているのかも知れない。もちろん、途中から、実際に不正な票の水増しや廃棄が行われているかも知れない※7

得票数の伸びの斉一性を説明するモデルとして最も基礎的なものは、二項分布をそのまま用いたモデルである※8。このモデルの下では、$n$名の候補者がいる選挙において、時刻$t (0 \leq t \leq s)$における特定候補$i$の開票済み票数$x_{it}$は、その候補者の得票率$p_{is}$と開票済み票の総数$x_t = \sum_{i = 0}^{n} x_{it}$を母数とする二項分布に従う。$i = 0$は、無効票・白票などとしておこう。このモデルを措定したとき、任意の候補者の予想得票数$x_{it}$を実現値$X_{it}$と組にして散布図を作成すると、何も不正がなければ、両者の形状はおおよそ1:1で推移するはずである。他方で、実際の得票数(実現値である$X_{it}$同士を比較することには、それほど意味がない。意味があるのは、予測値との関係を考慮するときだけであろう。つまり、予測値の組が散らばるであろう範囲の内部に、実現値の組も常に収まるという傾向を確認するときである。多数の候補者が一つのポストを争う場合、ある候補者についてだけ、実際の得票数が予測値から外れる傾向が見られる場合、その候補者について、何らかの作為が進められたものと考えることは、無理筋ではない。もっとも、候補者が二名だけの場合や、候補者間で票の移し替えが行われた場合などは、それに応じたモデルを立てるのが筋である。

時刻$t$の時点では、候補$i$の最終得票率$p_{is}$と、その時点の全投票数$\sum_{i = 0}^{n} X_{it}$から、候補$i$の得票数$\hat{x_{it}}$を予測できる。この予測得票数$\hat{x_{it}}$を、候補$i$の実際の得票数$X_{it}$と比較して初めて、モデル化の威力が発揮される。国政選挙では、各候補が数十万人単位の票を獲得することが大半であろうから、二項分布を仮定したモデルは、条件が厳格過ぎて、実測値が予測ベースに乗らないことも多いかもしれない。それでもなお、この理想的なモデルに対して実現値が乖離しているとき、この理想からの乖離の程度、ならびにその変化を検討することは、現実の開票作業の適切さを検討する上で、意味のある分析となりうる※9

2009年イラン大統領選挙の開票経過は二項分布に乗らない

モデルから現実を説明しようと考えてみると、「当選候補の得票数$X_{1t}$によって、対立候補の得票数$X_{2t}$を説明する」という説明が不適切であると分かる。$X_{1t}$と$X_{2t}$という実現値は、因果関係の上では、両方とも結果の側に属する数値である。$X_{1t}$と$X_{2t}$は、両方とも、共通の原因である[開票済みの票]から生じた「子」である。二項分布を仮定したモデルを原因、実現値を結果と仮定して分析することは、後の検証が必要とはいえ、論理上はおかしいものではない。

そこで、サヒミ氏により提示された2009年イラン大統領選挙の開票経過を、Wikipedia英語版に掲載されていた最終得票数[6]から求められた二項分布※10により説明するというモデルを用意した。このモデルに開票経過が乗るようであれば、サヒミ氏の指摘するような不正は認めがたいことになる。計算の過程は、.Rファイルに示した(Googleドライブ、「w20161101_IranianElection2009.R」)。ただし、このRファイルの説明は未整備であり、表も整備していない。

表1の右から2・3列目は、各開票経過時点において、アフマディネジャド氏の得票数がこの中に収まると期待される範囲を示す。アフマディネジャド氏の得票数の伸びは、予期される範囲内に一度も収まっていない。つまり、何らかの理由で、最大得票者であるアフマディネジャド氏の得票数は、最終的な得票数を前提にすれば、優先的に開票されていたという結論を得ることができる。この理由の探求は、シルバー氏の指摘するとおり、現地の選挙制度に詳しい(少なくとも現地事情を知る)人物が行うべきであろう。


表1:2009年イラン総選挙におけるアフマディネジャド氏の得票数の伸びと信頼区間

tAhmadinejad
($X_{1t}$)
Moussavi
($X_{2t}$)
$Bi_{\alpha=0.025/6} (X_{1t}+X_{2t}, p_1)$ $Bi_{\alpha=1-(0.025/6)} (X_{1t}+X_{2t}, p_1)$ $\hat{X_{1t}}$
170279192955131648340964913626487386
2102304784628912965137596610789656227
3140116646575844133728771338429813378588
4159132567526117152257501523793615231844
5169743828124690163040771631668716310383
6183029248929232176899781770311317696546

どの程度の乖離があるかは、表1の列2(アフマディネジャド氏の得票数)と列6(二項分布の期待値)の比によって説明することができる。表2は、その比を計算したものである。徐々に比が小さくなっていることが分かり、最初の開票経過発表時点よりも前の時点において、開票が多くなされていたものと推測することができる。逆に、ムサビ氏の開票は、表3に示すように、総じて遅れており、アフマディネジャド氏の得票比と対照的な関係にある。


表2:アフマディネジャド氏の開票経過とモデルによる開票予測との比

tratio(c2 / c6)
11.083
21.059
31.047
41.045
51.041
61.034

表3:ムサビ氏の開票経過とモデルによる開票予測との比

tratio (Moussavi)
10.845
20.890
30.912
40.917
50.924
60.936

※1 『統計学入門』(東京大学教養学部統計学教室編, 東京大学出版会, 1991年)では、Xを内生変数、Yを外生変数とも表現しているが、構造方程式モデリングの花盛りである現在では、これらの語を単なる回帰分析に対して利用しない方が無難であろう。

※2 単回帰分析とは、説明変数Xと被説明変数Yがともに1種類ずつの回帰分析をいう。単回帰直線は、単回帰分析により得られる、誤差を伴う一次関数(直線)である。直線には、傾きと切片の2種類のパラメータがあるが、単回帰直線には、これに誤差項が付く。単回帰分析は、XとYを1組の属性として持つ、複数のサンプルからなるデータから求められる。たとえば、日本人成人男子の身長から体重を説明・予測するという場合が考えられる。

※3 決定係数$\eta^2$とは、回帰分析で設定したモデルの当てはまりの良さを示す指標であり、次式で求められる。$Y_i$は$i$番目のデータの被説明変数の値、$\bar{Y}$は被説明変数の(標本)平均値、$\hat{Y}$は回帰直線から求められた被説明変数の推定値(回帰値)である。

\begin{equation*}\eta^2 \equiv 1-\dfrac{\sum {\hat{e}_i}^2}{\sum(Y_i - \bar{Y})^2}=\dfrac{\sum(\hat{Y}_i - \bar{Y})^2}{\sum(Y_i - \bar{Y})^2}\end{equation*}

なお、最後の等号は、次の関係に基づく。

\begin{equation*}\sum(Y_i-\bar{Y})^2=\sum(\hat{Y}-\bar{Y})^2+\sum{e_i}^2\end{equation*}

$\eta^2$は、0から1までの間を取り、$X_i$が$Y_i$を完全に説明しているとき、1となり、完全に無関係である場合には、0となる。

※4 アブダクションは、「後件肯定の演繹法と呼ばれる非妥当な推論形式 」[5]である。本件について、サヒミ氏とシルバー氏の推論を定式化すると、次のとおりとなる。
$A$: 斉一的な得票数の伸びを得た
$P \leftarrow A$: 不正があると、斉一的な得票数の伸びを得る
$P$: 不正がある
$A$: 斉一的な得票数の伸びを得た
$\lnot P \leftarrow A$: 不正がないと、斉一的な得票数の伸びを得る
$\lnot P$: 不正がない

※5 理想的な条件とは、①地域ごとの候補者の得票率が一定で、かつ、投票箱の中身が良くかき混ぜられている場合、または、②わが国におけるように、集計作業に従事する人物が(たとえば500票ずつに)集計された票の束をランダムに受け取り全選挙区にわたる集計システムに登録している場合である。

※6 今年7月の三宅洋平氏の得票の伸びについては、この可能性が認められた。もちろん、ほかの可能性は、この原因と並存しうる。

※7 犯罪企図者になったつもりで選挙を検討すれば、不正が敢行されようとすることがないという意見が誤りであることは、自明である。不正を予防する手続きが執られていれば、犯罪企図者が犯行を諦めるという構図はあろう。

※8 もっぱら二項分布に頼るのは、オッカムの剃刀(モデルは、できるだけ単純な方が良い)を考慮している。ただ、注意すべきことは、ここで示した二項分布というモデルを仮設することが適切か否かは、適正な反論によってのみ検証され得ることである。なお、私がこれしか使えないのでは?という疑いは、公然の秘密かもしれない。

※9 その例は、今年の宜野湾市長の得票数の伸びに示されるとおりである(2016年1月28日)。真に理想的な開票が行われているとすれば、現実の得票数の伸びは、モデルから予測される信頼区間の範囲内に収まり続けることとなる。

※10 なお、得票経過は、二名の候補についてのみ記されていることから、二名の最終得票数だけから元に得票率を求めている。このため、表1および表2の上側・下側$0.025/6$パーセント点は、本来よりも幅が小さなものとなる。

[1] トランプ氏、男性から根強い支持  :日本経済新聞
(ワシントン=川合智之、2016年10月25日朝刊東京14版7面国際)
http://www.nikkei.com/article/DGXKZO08748740V21C16A0FF8000/

米大統領選は〔...略...、男性票に〕女性票を加えれば〔トランプ氏が〕劣勢になり、ここにも米国社会の分断が表れている。

予測をまとめたのは選挙予想の的中率の高さで有名なネイト・シルバー氏。〔...略..〕

[2] ワシントン=吉野直也, 「2016米大統領選/投票まで2週間/クリントン氏 リード拡大/一部世論調査で12ポイント差/討論会「3連勝」/女性蔑視」, 『日本経済新聞』, 2016年10月25日朝刊東京14版7面国際.

[3] Statistical Report Purporting to Show Rigged Iranian Election Is Flawed | FiveThirtyEight
(Nate Silver、2009年06月13日20:13)
http://53eig.ht/1peMpEp

[4] Faulty Election Data – tehranbureau
(MUHAMMAD SAHIMI、2009年06月13日)
https://web.archive.org/web/20090615154847/http://tehranbureau.com/2009/06/13/faulty-election-data/

説明変数従属変数
figuresexplanatory variablesdependent variables
Sahimi M., 2009 Jun 13AhmadinejadMoussavi
Silver N., 2009 Jun 13ObamaMcCain

[5] untitled - 115-130.pdf
赤川元昭, (2011). 「アブダクションの論理」『流通科学大学論集―流通・経営編―』24(1),115-130.
http://www.umds.ac.jp/kiyou/r/R24-1/115-130.pdf

[6] Iranian presidential election, 2009 - Wikipedia
https://en.wikipedia.org/wiki/Iranian_presidential_election,_2009




おまけ:共和党有力者の賛否

下記の調査報道で、デイヴィッド・A・グラハム氏は、共和党の有力者158名に対する調査を行い、下記のような意向を得ている[7](2016年10月20日閲覧)。「反対」と「やや反対」を合計した値を調査対象者数で割った値をトランプ氏への反対率とみなすと、約43%となる。そこで、この値を用いて、158名のうちの50名に聞いてみましたという形で、10万回のシミュレーションを『R』によって実施した。作業の結果、次の図を得た。どう足掻いても、反対率6割はごく少数の場合にしか表れないところがポイントである(2016年7月25日)。

A Simulation on Proportions against  Mr. Donald Trump among 50 Famous Republicans (n = 100000)
A Simulation on Proportions against  Mr. Donald Trump among 50 Famous Republicans (n = 100000)

作業は、.Rファイルにまとめた(Googleドライブ、「w20161101_GrahamDA_20161027_RepublicansAgainstTrump_TheAtlantic.R」)。


[7] Which Republicans Are Against Donald Trump? A Cheat Sheet - The Atlantic
(David A. Graham、2016年10月27日、閲覧20日)
http://www.theatlantic.com/politics/archive/2016/10/where-republicans-stand-on-donald-trump-a-cheat-sheet/481449/

YeaSoft YeaSoft NayNayAbstainUndecided
賛成やや賛成やや反対反対棄権する未定
713563511



2017年10月27日訂正

pタグにより文章のレイアウトを変更し、表現を改めた。表現の変更箇所は、淡赤色で示した。




2021(令和3)年7月28日修正

グーグル・ドライブのファイルにセキュリティアップデートとやらが適用され、リンクにアクセス不能となる可能性があるとの通知を受け、当該リンクを修正した。内容は変更していない。

0 件のコメント:

コメントを投稿

コメントありがとうございます。お返事にはお時間いただくかもしれません。気長にお待ちいただけると幸いです。