たまりば

エコ・自然 エコ・自然三鷹市 三鷹市

スポンサーリンク

上記の広告は、60日以上更新がないブログに表示されています。
新たに記事を投稿することで、広告を消すことができます。  
Posted by たまりば運営事務局 at

2012年12月14日

あっと、言う間に出来る統計解析~

<統計学の必修化>
文科省は、小学校低学年からの統計学教育の必修化を定めました。

統計学的な見方や考え方で情報を処理すれば物事の関連性を把握する力や新しい仮説を創造する力が育まれる、と言うわけです。

一歩社会に出れば統計学は、企業においては在庫管理やデータのマネジメントで、そして競合や市場の分析になくてはならないものです。

嬉しいことに、手計算の苦労やどの手法が良いのか迷った‘あの頃’とは違って今では、エクセルをクリックするだけ?そして統計解析のソフトがけっこう巷に有ります。

研究や開発においてはデータのより詳細な情報を得るために分散分析(ANOVA)をした後のpost hoc testとして多重比較法が有用であることが示されました(参考 )。

<t-検定の繰り返しはダメョ、だから多重比較法>
2標本(群)の平均値に違いがあると言えるかどうか、を検定する方法としてt-検定がありエクセルに搭載されています(本ブログ)。
では3標本(群)以上の時にどれとどれに違いがあるのかを知るにはt-検定を繰り返せば良いのでしょうか。
これは第一の過誤と言われ補正が必要となります。

有意水準をαとしていた場合k回検定を繰り返すと1-(1-α)^kの水準にまで下がってしまいます。4群の検定なら危険確率0.05は0.265と甘くなってしまうのです。

そこでP値に補正を加えたBonferroni法やHolm法があります。

もちろんエクセルに多群解析法としての分散分析があります。しかし分散分析法はどれとどれに有意差があるかは出ません(本ブログ)。
そのブログに載せた畑と肥料における収穫のデータにおける分散分析の結果は、列と行で、すなわち行(畑間)で有意に違いがあることのみが示されてきています。

そこでpost hoc testとしての多重比較法が役立つのです。

F統計量を使う分散分析と違って、Tukey法は全てで対比較を行う多重比較法です。

そこでエクセルの二元配置の分散分析を行った先程の畑と肥料という2要因を持つデータを使ってTukey法による解析を行ってみました(図、左下に結果の一部)。
畑2,3で有意差があるといえることが分かりました。

多重比較の解析法はエクセルに入っていませんので阪大MEPHAS統計解析プログラムを使いました。
またプログラミング言語RやRコマンダーによる解析ソフトであるEZRを用いると第一種のエラーを補正したBonferonni法やHolm法が行えます。
このEZRによる解析結果からは帰無仮説の棄却は保留とするのが良いと判断されました。

Tukey法とは検出力に違いがあることが分かります。

<ラボで役立つ統計学>
ものごとの関連性を掌握したい、そして新たな法則性を導きたい、それを利用して人間活動を躍進させる、それがヒトの脳が持つ社会性です。

確率と統計こそが、その事象は偶然によるのではない、何か背景に潜んでいるゾー、を確かめてくれるのです。

大発見かも!

インスピレーションに思わずこころが踊ったとき、女神の微笑みは危険確率P値、0.05や0.01として確定されます。

さて研究室の実験や、治療薬の開発では、コントロール群と二群以上の他条件処理群で違いがあるかを調べることがしばしばあります。

図、右上の場合のような対照群と多群の対比較が出来る多重比較法がDunnett法です。

このデータも阪大MEPHASプログラムで解析してみました。対照群と第二群に有意差があることが分かりました。

ヒトサンプルはそれに影響を与える要因が多く個人差が大きいため、診断薬や治療薬を開発するための疾患マーカーの確定への道のりは容易ではありません、そこでもDunnettの多重解析法が有用でした。

<統計解析が疾患メカニズムの解明と創薬、治療法を前進させる>
統合失調症や躁うつ病、うつ病患者の死後脳の神経ステロイドの代謝産物を測定してANOVA解析とDunnett法で解析したところ代謝分子が疾患の候補分子となることが分かりました(参考)。

統合失調症患者と躁うつ病患者の死後脳の後帯状皮質頭頂皮質においてプレグネノロン、DHEAが有意に高いと言う結果でした(上記参考のTable3)。

神経ステロイドは脳内でコレステロールから作られて、神経細胞の発達やシナプス形成に関与し、記憶や学習機能に関与していることが知られている分子です。

こうして研究者が見つけて、取ってきた分子を解析すると未知の扉が少しづつ開いていくのです。

万能な統計解析法はありません。検定をする時はデータの正規性、等分散性、標本数、群ごとの標本数が異なっていないかなど、データの性質を鑑みてそれに適した解析法を選ぶことが肝要です(図、左上)。

通常の実験室のデータ解析では正規性の検定を行うほどにはサンプル数がなく、また生物学的な現象は正規性に近いのでパラメトリック法が使われます。

明らかに正規性に従わないときはノンパラメトリック検定法が使えますが検出が下がります。

上記論文では神経ステロイドの測定値の対数を取ってパラメトリック検定が出来ました。サンプルデータの分布背景の情報が得られることも大切です。

<外れ値がもし除けたなら・・・>
実験データでは時に飛びぬけた値に遭遇することがあります。
これが外せれば有意差がでるのにな~、おっと、これはいけません。どんな真実が隠れているかも知れないのですから。

平均値から2σや3σ(本ブログ)外れていたら除くという場合もありますが・・・

水準値を決めて、外せるかどうかを検定できるのがスミルノフ・グラブスの検定です。エクセルで一瞬の計算で判定できます(図の右下)。

通常はT値を得てその基準値におけるスミルノフ・グラブス数表のαの値から判定します。

しかし表がなくてもその横の数式を使うと好きな水準値における片側P値におけるαの値が計算できます。
エクセルの関数式、T.INVを使えば、それはt-分布の自由度n-1,P(片側)の確率から確率変数を逆算する関数なのでTα/nが求められます。
そこでエクセルのfxの隣のセルにイコール以降、図のように書けば一瞬のうちに数表のαの値が計算されます。

図の最下端のエクセルの挿入図ではnが10、P値を0.05とした場合です。T.INVにはP/nとn-1の値をいれます。T値がαより大きければ外せることになります。

何とかものを言おう、とデータを眺めて四苦八苦するよりは、最初に検定法まで見据えた実験計画を立てることで、ラクチン?統計解析がより実りある結果を導くに違いありません。

とにかく、どんなサンプルデータも一期一会、貴重な情報であることを銘記して、未知の情報を掴みましょう。




  今年の柿の実は一回り小さいもののぎっしりと付きました。
  
  とて~も甘~いのでシジュウカラもメジロもスズメもヒヨドリもオンパレード。
  
  夏の頃からカラスの勘クロウが数を数えていました。

  食べごろを迎えて、

  縁側では夫と勘クロウのサル・カニ(カラス)合戦?が始まりました。
  

  • Posted by 丸山 悦子  at 22:49Comments(0)エクセルはエクセラント