大学院生のぼうびろく

自分の思考の記録とアウトプットがコンセプトです.留学/研究/プログラミング/統計/機械学習

生物統計学,書籍のまとめ

生物統計学に関する本を読んだ感想まとめ.

Amazon CAPTCHA

 

手に取ったきっかけ

統計学に関するゴリゴリの本を読んでいて自分の専門に応用する本を読みたかった

・薄い(98pほど)※2冊目もある

 

生物を専門とする研究者に向けた”実験に必要な部分のみを取り扱った”本

この本では以下の質問に答えられるようになることを目的としている.

●母集団を意識して研究しているか?

●標準誤差(SD),標準偏差(SE)はどう違うのか?

●正規性の検定,等分散性の検定は何のためにあるのか?必要か?

パラメトリック検定とノンパラメトリック検定の違いと使い分けは?

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

以下に今回自分にとって参考になった部分をメモとして挙げておく.

○外れ値を考える

外れ値が出た場合の対処法のフロー

①ヒューマンエラーを疑う

➡人間はミスをする生き物である.

②実験課程を疑う

➡なんらかの異常が認められれば,それを理由にデータを外す

③実験結果の吟味

➡外れ値の有無で検定結果が変わるかどうかを判断する.

パラメトリック検定,ノンパラメトリック検定両方で同様の結果が得られた場合は

それを採用する.結果が異なる場合は,どのような分布でも使えるノンパラメトリック検定を優先する.

④棄却検定

その数値が外れ値かどうかを判断するための手法として[棄却検定]という検定がある.

ただし,棄却検定を用いることは生命科学系の研究においてかなり異論がある.そのため,使用するかどうかは判断がしにくい.

 

まとめると実験操作に異常がみつからない限り,外れ値はできるだけ外さずに処理することを考えたほうがよく,そのためには,ノンパラメトリック検定の活用が妥当.

外れ値に関する議論をリアルタイムにしていた途中なので,それが言語化されていて非常に参考になった.

 

○SDとSEの違いについて

標準偏差(SD)と標準偏差(SE)は大きく異なる.

SDは標本データのバラツキを表しているのではなく,母集団のデータのバラツキを表しているのである.

一方でSEは母集団のありそうな範囲を示す値である.

 

パラメトリック検定とノンパラメトリック検定について

パラメトリック検定は母集団が正規分布していると仮定している

ノンパラメトリック検定は母集団が正規分布である必要はない.

 

重要なポイントとして,ノンパラメトリック検定は母集団が正規分布している場合でももちろん使えるという点である.使い分けの方法としてはデータが正規分布している場合は,パラメトリック検定のほうが検出力が高いという点が挙げられているが,実際のところほとんどの場合で同様の結果を出力するという意見もある.