Being on the Road ! in Hatena

タイトルは沢木耕太郎「深夜特急」トルコ編の「禅とは,途上にあること」という台詞から.

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

豊田秀樹=著,朝倉書店
こういう本を読書記録につけて良いのかよくわからないけれど,結構面白かったので.
タイトルには惹かれた.ポストp値時代.
p値って,感覚的に全然わからない.例えば2群(の分布)があって,平均値のところにそれぞれ縦棒が引いてあって,この2本の縦棒離れてますよね〜(だから平均値に有意な差があるんです)みたいなことと,p値との関係が,今まであまりわからなかった.差が○分布に従っていて,(○の部分にはtとかカイ二乗とか入る)その出現する確率を出せて,それがクライテリアを超えたかー,みたいなこと.ぼんやりとしか,書けないのだ.こう書くと,私が根本的に分かってないことがバレバレだが,まあいい.どうせあまり分かってないし.
で,p値を使わないことがなぜベイズ推定と結びつくのか,丁寧に書いてあった.
要は,データから乱数発生させて,ブートストラップ的にありそうな母集団を再現するー
その母集団をいっぱい作ってあげれば,母集団のパラメータにはゆらぎが出てくる.複数のデータ(ただしブートストラップ的に生成された”仮の”データ)があれば平均値と標準偏差が計算できるってわけ(ここ,計算機無しで厳密にやろうと思ったら超メンドクサイから,ここで乱数発生計算機バンザイ!となる).
このような平均値と標準偏差はどの段階でも(分布のパラメータに対しても)計算できるから,「幅」の「信頼区間」の計算とかできてしまうわけです.すごいな.
推定された分布の重なり具合で,有意差を理解すれば良い.(だよね,きっと?!)

私,自慢じゃないがモンテカルロ・シミュレーションで予測区間を推定するなんてのがルーチンの仕事で.WinBugsもチョコチョコ使っていて,何をやっているかくらいは知っているつもり.
しかし,どこかで,解析解で分布のパラメータ出しちゃうほうがカッコイイ,って思っていて,そして私は積分が不得意なので解析解が求められなそうなときは少し下向いちゃったりなんかしていたけど,全然そんなこと気にしなくて良さそう!
対数正規分布と一様分布と三角分布を組み合わせて乱数発生させる,なんてのも日常的にやってる.得られた分布は単純なパラメータで表現できるもんじゃないけど,それでも繰り返し回数Nが大きくなれば,ヒストグラム描いて「範囲はここからここです」と示すことは,科学的な手続きとして堂々とやっていいんだなと.

私がこの本から何を学んだか不明の文章になったけど,今まで全く触れたことのない概念だぜ!という感覚はむしろなくて,「こういうふうに説明すればいいのかー!」という点に感心したという意味では,自分は今までもベイジアン的な考えで仕事をしてきていた,ということが分かった.ベイズ推論,仕事でも使っていくぜ!