Being on the Road ! in Hatena

タイトルは沢木耕太郎「深夜特急」トルコ編の「禅とは,途上にあること」という台詞から.

他人の書いた論文の,他人の取ったデータをもとにデータ解析

科学者の中にはよく,「他人の取ったデータは信用ならない」という人がいるんだけど,これからはそうも言ってられなくなるんじゃないか,というお話.
自分でデータをすべて取るのは,研究費も少なくなってきてるし,しょせん自分の出せるデータは限られているから(そのデータを何に使いたいかにもよるが)限界がある.もっと,他人の取ったデータ,例えば国の統計とか観測値とかを使って,自分のオリジナルな解析をして,論文を書く習慣ををつけたほうが良いと思う.
こう思うようになった理由は,一度取って,論文になったデータが,その後全く活用されてないから(たとえば,環境中の化学物質濃度データとか).死蔵そのものだ.
ビッグデータ時代で,そんなデータの「お里」なんて知らなくても数ありゃ何とかなる!って思っている人も多いけど,解析に一番大事なのはデータクリーニングですよ!(何でもかんでもあるデータ放りこんで,という解析で何か言えたとしても,それは何も言ってないのと同じだからデータの素性をつかんでおくのは大事!)だから,人のデータと仲良くするスキル大事だと思うんだよね.
そのために,人のデータを読み解くリテラシー「どんな条件で」「何を知りたくて」「何が測れてなくて」というのを書誌情報から読み取り,Aには使えるけどBには使えない,という判断ができないとだめだと思う.しかし,こういう教育は博士課程でもしないような気がする.データの取り方(実験器具のセットアップ)と解析方法しかならわないよね.このデータで言える限界,という観点での教育は受けたことない・・・気がする.