LEVEL OF SIGNIFICANCE

3年前に@cosmeビジネスナビというサイトに書いたコラムを転載

2月は短いからあっという間でした。しかし2月はなんで28日なんでしょうね。31日ある月が7回もあるのを逆転させて二四六九士を31日にしちゃえば残りは30日でスッキリするのになんでこんな暦になってるんでしょう?

しっとりとかすべすべといった曖昧な効果を特徴とした商品と違って、美白や痩身といった商品は機能が明確なのでその効果の立証を求められることが多いと思います。たとえば痩身化粧品を作るとしましょう。真っ先に思いつくのは、使用前・使用後のサイズ測定という定番の実験ですね。使用前と比べて使用後のサイズが小さくなっていたらいいんですよね。では「ウエストが平均2mm細くなりました」という結果だったら痩身効果があったといえるでしょうか?微妙ですか?これが1人の結果だと「偶然じゃん?」ですよね。では10人で実験して10人とも2mm細くなってたら?100人で実験して100人とも2mm細くなってたら?1000人やって1000人とも2mm細くなってたら?たった2mmだとしてもさすがに1000人が1000人ともだとしたら、これはもはや偶然とは言えませんよね。小さいけど確実に効果があると断言できちゃいます。

使用前と使用後の違いは偶然起きたのだという仮説(帰無仮説)を立て、この仮説を否定する根拠を示すことで実験結果は偶然起きたものではない、つまり効果があったのだということを証明するのが基本的な考え方です。たとえばサイコロを4回振ったら4回とも6だったという実験結果があったとします。これは何かの偶然で起きたのだという仮説を立てます。ところがサイコロを4回振って偶然にも6が4回出る確率を求めてみると1/6の4乗で0.08%という結果が出ます。偶然起きる確率が0.08%なんだからこの実験結果は偶然起きたものではない。サイコロに異常があるとか、サイコロを振った人に何か妙なクセがあるとか何か原因があるはずだという結論が導かれます。

前述の痩身化粧品の効果測定も同じように考えます。例えば50人の女性に1ヶ月間化粧品を使用してもらって、使用前後でウエストサイズを測ったとします。残念ながら太ってしまった人もいましたが、うれしいことにやせた人もいました。50人の平均をとると、使用後にウエストサイズが少々細くなっているようです。ホントに効果があったんでしょうか?難しい計算は除外しますが、要するに「この実験結果が偶然の結果だった確率」を求めます。この確率が十分低ければ、実験結果は偶然ではない、つまり痩身効果はあったのだと言うことができるわけです。では偶然の確率がどれくらい低ければ偶然ではないと言えるのでしょうか。一般的には5%を基準とすることが多いです。偶然である可能性が5%より低い実験結果であれば、それは偶然じゃなかったのだと考えるのです。

さて、ウエストサイズの件。実験の結果を解析したところ偶然である可能性は5%であることがわかりました。ギリギリですが実験結果は偶然ではないと言えます。この化粧品には確かな痩身効果が確認されました。めでたしめでたし・・・・・・・・・・・・・じゃあオチがないっすね。

偶然である可能性が5%だから裏を返せばこの実験結果は100%正しいとも言えないわけです。95%の信頼性でこの実験結果は正しいと言える・・・・・・・「同じ実験を20回やったら1回くらいは偶然に出る程度の信頼性しかない結果である」とも言えます。おおっ!?おおっ!?

くだんの痩身化粧品の効果測定ですが、実はウエスト以外にもバスト、ヒップ、腕回り、太もも、ふくらはぎ、足首などなど20カ所のサイズを測っていたとしたらどうでしょう。20カ所も測定していればその中の1カ所くらいは5%の確率でしか発生しない偶然の結果が起きても何の不思議もないです・・・・・・よね。「私はサイコロで5を出すことができる」と言って一発で5を出したら(6回に1回しか起きない偶然がたまたま1回目に発生することだってあるけど、それはまあ目をつぶって)「スゲエ、アンタ確かにスゲエよ。」ですが、「私はサイコロで5を出すことができる」と言ってゴロゴロっと6個のサイコロを一気に転がしたら、そりゃその中の1個くらいは偶然5が出ても何の不思議もないですからねえ。5が出たと言ってもハンドパワーの証明にはならんわな。