たまたま、「finalvent」氏による西内啓, (2013). 『統計学が最強の学問である』, ダイヤモンド社.の書評[1]を読む機会があったのだが、一般化線形モデル〔21章〕の説明に誤解を招く表現があるのではないかと思い、確認してみたところ、果たしてその通りであった。同書がベストセラーになってしまうという日本語商業出版の限界を指摘するためにも、ここにメモしておく※1。
一般化線形モデル(generalized linear model, GLM)は、誤差に正規分布以外の分布も使えるように拡張した線形回帰モデルを指し、「図表25 一般化線形モデルをまとめた1枚の表」〔p.170〕に示された手法に限定されない。末尾に、西内氏による一般化線形モデルの説明を引用し、併せて図表25を示す。ここに掲示された手法は、いずれも一般化線形モデルに含まれることに間違いないが、一般化線形モデルは、これだけに限定されない。それに、西内氏自身が後に説明する〔pp.177-178〕ように、同表の「連続値」の行に示される手法は、一般線形モデル(general linear model)として統合できることを、1968年にコーエンが指摘しており[2]、その説明は、(翻訳を含む)いくつかの和書にも反映されている(記憶がある)。一般化線形モデルのイメージについては、たとえば、同じユルい感じの書籍であっても、久保拓弥, (2012).『データ解析のための統計モデリング入門』, 岩波書店.の方が、誤解を得にくく、有用であるように思う。私から見て、西内氏による一般化線形モデルの説明は、読者一般にとって、有用さに比べて有害さが勝るように思われる。
西内氏の著書は、ベストセラーとなったがゆえに、(読者の間口が広くなるという経路を通じて、)誤解を多く発生させることとなったようにも見受けられる。読者がユルい記述であると理解できるほどに統計学を修めているのであれば、元から手を出すこともしないであろうし、記述の曖昧な部分をスルーするであろうが、そうでない読者は、分かった気持ちを誰かと共有したいがために、感想をネットに書き込むであろう。この結果、誤りばかりが増幅されているようにも認められる。とはいえ、アマゾンレビュアーの「ありょさん」氏のいうとおり[3]、「大胆な表現」と「粗雑に書く」ことは、別ものである。あと、どう好意的に段落読みしようとしても、段落書きされた形跡すら認められない※2「理系の本」ってどうよ、とも付け加えておこう。
〔p.169、21章「統計学の理解が劇的に進む一枚の表」の冒頭から〕回帰分析はそれ自体有用なツールでもあるが、そこから多くの統計学的手法を「広義の回帰分析」として統一的に理解すれば、さらにその応用範囲は広がるだろう。
このような「広義の回帰分析」という考え方は、統計学者たちから一般化線形モデルという名で呼ばれている。線形とは回帰分析のように直線的な関係性のことを指し、「いろいろ手法はあるけど結局回帰分析みたいなことしてるっていう点で、一般化して整理できるよね?」というのが一般化線形モデルの意図するところだ。
極端な表現をすれば、基礎統計学の教科書は大きく2つに分けられると私は考えている。一方は一般化線形モデルという視点を活かさないためにフィッシャーたちの時代に作られた〔以下、p.170〕手法を「別々のもの」として紹介している本、そしてもう一方は「基本的に同じ手法」として俯瞰した形で説明している本である。
図表25 一般化線形モデルをまとめた1枚の表〔p.170〕 分析軸(説明変数) 2グループ間の比較 多グループ間の比較 連続値の多寡で比較 複数の要因で同時に比較 比較したいもの(結果変数) 連続値 平均値の違いをt検定 平均値の違いを分散分析 回帰分析 重回帰分析 あり/なしなどの二値 集計表の記述とカイ二乗検定 ロジスティック回帰
※1 日本語における(批判的な)サイエンスライター(、または、編集者)の不在は、福島第一原発事故に関するデマの流通を(陣営を問わずに)促進したようにも見える。本記事は、遠回りとなるが、この仮説に対する一つの例証である。西内書の誤りを丹念に指摘したり、取り除いたり、あるいは別の良著によって淘汰したりするような市場の機能は、わが国のサイエンス系の商業出版には弱いように思われる。しかも、単に社内の連携によって克服できそうなところに、もったいなさを感じるのである。未だに『週刊少年マガジン』にこだわるが、新連載『ワールドエンドクルセイダーズ』(不二涼介(漫画)、biki(原作))の「音圧レベル10倍!」は、新たな「これはひどい」の典型である。10デシベルしか上がらないのでは、自分の声で五月蠅すぎて行動不能という状態にはならないように思う。
※2 池谷裕二, (2012).『脳には妙なクセがある』, 扶桑社.には、たま~に、段落読みすると初学者が理解に苦しむ部分が見られるが、それでもやはり段落読みできる(と、私は判断した)。例外は、たとえば、p.24、「読書の内容を理解するときには、脳の前頭前野や「帯状野」が活性化します。…」という段落である。この段落だけは、ヘッド・センテンスだけでは、主旨を読み損ねる。また、同書冒頭の「本書によく登場する脳部位」に「帯状野」も示されていない。ただ、あくまでこの例示は、例外であることを示すために挙げたものである。なお、本点は、以前(2017年6月30日)の記事のアップデートでもある。この点に関連して、山口真由氏のほかの著書『成功したければ日本型エリート思考』(2015年9月, 扶桑社)も段落読みできないことを申し添えておく。
[1] [書評]統計学が最強の学問である(西内啓): 極東ブログ
(finalvent、2013年02月07日)
http://finalvent.cocolog-nifty.com/fareastblog/2013/02/post-e766.html
[2] Cohen, J. (1968). Multiple regression as a general data-analytic system. Psychological Bulletin, 70(6, Pt.1), pp.426-443.
http://dx.doi.org/10.1037/h0026714
[3] Amazon.co.jp: 統計学が最強の学問であるの ありょさんさんのレビュー
(ありょさん、2016年10月01日)
https://www.amazon.co.jp/gp/customer-reviews/R18PUNMU9MWQ1R/ref=cm_cr_getr_d_rvw_ttl?ie=UTF8&ASIN=4478022216
大胆な表現で書くことと粗雑に書くことを混同しているように感じます。
0 件のコメント:
コメントを投稿
コメントありがとうございます。お返事にはお時間いただくかもしれません。気長にお待ちいただけると幸いです。