「化粧品」カテゴリーアーカイブ

CONFIDENCE INTERVALS

2006年5月に@cosmeビジネスナビというサイトに書いたコラムを転載

家電量販店で「100人に1人はタダ!!」というセールを時々見かけます。な、なんつー太っ腹なんだと思ってつい買いにいこうと思ちゃうんですが、よく考えるとお店にとっては実質的に「全品1%OFF」と同じなんですよね。実態としてはほぼ同じなのに「全品1%OFF」と「100人に1人はタダ!!」ではずいぶん印象が違う。この販促案を考えた人はすごい。

さて、化粧品を上市すると、比較的軽微なものから要度の高いものまで程度の差こそあれ多かれ少なかれ必ずといっていいほど肌トラブルが発生します。もちろん全ての人に肌トラブルが起きないことが最も望ましいことですが、肌トラブルの原因は人によって実に様々なので全ての人にとって肌トラブルが起きない化粧品を作るのは限りなく不可能に近いというのが実際だと思います。そこで、配合成分をすべて開示して消費者が「自分にとって」良いもの悪いものを選択できるようにしたのが全成分表示制度の意義の一つだったと思います。おっと話がそれそうになった。先に書いたとおり、人によって肌トラブルの原因は実に様々なので市販後の肌トラブル件数が0ということはまずありません。どの会社でも「ある基準以上に重症度が高い肌トラブルが起きない」ことや「販売数量に対する肌トラブルの発生率がある一定値以下である」ことなどの基準を定めて対応にあたっていると思います。

ところで、化粧品を世に送り出す前に社員や限られた人に使用してもらい、肌トラブルがない、または十分に少なければ多くの人によって肌トラブルを起こさないだろうということを確認しておくことがあります。たとえば肌トラブルの発生率が0.05%以下であることを基準に化粧品を作るとして、市販前の使用試験でこれをどの程度推定できるんでしょうか? 「あ~ぁ、学生のとき統計学をもっと真面目にやっておくんだったぁ」としみじみ嘆く今日この頃なんですが、業界は違うけど統計に詳しい先輩のお知恵を拝借しながら頭をひねってひねって考えてみました。単純に考えれば「10,000人に使ってもらって肌トラブルが5人以下だったらオッケーでしょ」ってことになりますが、ところがどっこい試験結果の偶然性を考慮する必要があります。10,000人で試験した結果肌トラブルが4名だったとしても「たまたま4人で済んだ」または「たまたま4人もいた」可能性を考えると市販後の肌トラブル発生率は0.04%からある程度幅をもった範囲のどこかになると考えられます。ではどのくらいの幅を持っていると考えたらいいでしょうか。これは予測幅にどの程度の信頼性を求めるかによって変わってきます。幅を広くとれば信頼性は高くなる(予想が当たりやすくなる)し、幅を狭めると信頼性は下がる(予想がはずれやすくなる)。10,000人で試験して4人の肌トラブルがあった場合に信頼区間を90%(90%の確率で当たる)と設定すると市販後の肌トラブル発生率は0.04±0.033%と予測されます。これは、10%の確率でこの予想がはずれる(つまり肌トラブルが0.007%を下回るとか0.073%を上回る)可能性も残っていますが、おそらく肌トラブル発生率はこの幅のどこかになるでしょうということです。ってことは10,000人で試験して肌トラブルが4人だったとしても市販後に肌トラブル発生率が0.05%を上回る可能性はあるということになります。信頼区間の上方値が0.05%を切るような実験結果が得られた時に「おそらく(95%の確率で)市販後の肌トラブルが0.05%を超えることはないだろう」と言えます。逆算すると10,000人中肌トラブルが2人(0.02±0.023%)以下というのが合格基準に設定されます(実際の肌トラブルの発生率基準はここで例示した0.05%よりも厳しくとっている会社が多いと思うので、試験条件と合格基準はもっともっと厳しくなります)。

計算ではそうなりますが、市販前に10,000人で使用試験なんてあまりにも非現実的な条件ですね。数をそろえることが現実的でないから、敏感な人を多く集める、塗布回数を増やす、通常は肌トラブルにならない軽微な刺激感もカウントするなどの工夫で試験の質を変えて通常よりも肌トラブルが起きやすい条件で試験することで少ないサンプル数からでも肌トラブルの発生を検知できるようにします。通常よりも肌トラブルが100倍発生しやすい試験条件を組み立ててしまえば10,000人中2人の合格基準は単純思考で100人中2人という合格基準に読み替えることができます(この読み替えが統計学的に妥当性があるかどうかについては、すいません勉強不足で・・・)。その単純思考が正しいとしてもだよ、市場条件より100倍肌トラブルが発生しやすい条件で実験なんて、それはそれで無理だよなあ(ボソっと独り言)。

とにかく、100人程度の使用試験だけで化粧品の安全性を評価するのはヒジョーに難しいということがわかりました。だから、パッチテストや累積刺激試験、コメドテストなどいろんな試験をして複数の観点での評価が必要になるんですね。先生が日頃からアレをやれコレをやれとおっしゃることの重要性がわかりました・・・・先生って誰? 私たち化粧品技術者はより安心で安全な化粧品を世に送り出すために日夜あの手この手を駆使しながら化粧品を作ってるんですよね。統計の勉強もっとしなきゃ・・・。

LEVEL OF SIGNIFICANCE

3年前に@cosmeビジネスナビというサイトに書いたコラムを転載

2月は短いからあっという間でした。しかし2月はなんで28日なんでしょうね。31日ある月が7回もあるのを逆転させて二四六九士を31日にしちゃえば残りは30日でスッキリするのになんでこんな暦になってるんでしょう?

しっとりとかすべすべといった曖昧な効果を特徴とした商品と違って、美白や痩身といった商品は機能が明確なのでその効果の立証を求められることが多いと思います。たとえば痩身化粧品を作るとしましょう。真っ先に思いつくのは、使用前・使用後のサイズ測定という定番の実験ですね。使用前と比べて使用後のサイズが小さくなっていたらいいんですよね。では「ウエストが平均2mm細くなりました」という結果だったら痩身効果があったといえるでしょうか?微妙ですか?これが1人の結果だと「偶然じゃん?」ですよね。では10人で実験して10人とも2mm細くなってたら?100人で実験して100人とも2mm細くなってたら?1000人やって1000人とも2mm細くなってたら?たった2mmだとしてもさすがに1000人が1000人ともだとしたら、これはもはや偶然とは言えませんよね。小さいけど確実に効果があると断言できちゃいます。

使用前と使用後の違いは偶然起きたのだという仮説(帰無仮説)を立て、この仮説を否定する根拠を示すことで実験結果は偶然起きたものではない、つまり効果があったのだということを証明するのが基本的な考え方です。たとえばサイコロを4回振ったら4回とも6だったという実験結果があったとします。これは何かの偶然で起きたのだという仮説を立てます。ところがサイコロを4回振って偶然にも6が4回出る確率を求めてみると1/6の4乗で0.08%という結果が出ます。偶然起きる確率が0.08%なんだからこの実験結果は偶然起きたものではない。サイコロに異常があるとか、サイコロを振った人に何か妙なクセがあるとか何か原因があるはずだという結論が導かれます。

前述の痩身化粧品の効果測定も同じように考えます。例えば50人の女性に1ヶ月間化粧品を使用してもらって、使用前後でウエストサイズを測ったとします。残念ながら太ってしまった人もいましたが、うれしいことにやせた人もいました。50人の平均をとると、使用後にウエストサイズが少々細くなっているようです。ホントに効果があったんでしょうか?難しい計算は除外しますが、要するに「この実験結果が偶然の結果だった確率」を求めます。この確率が十分低ければ、実験結果は偶然ではない、つまり痩身効果はあったのだと言うことができるわけです。では偶然の確率がどれくらい低ければ偶然ではないと言えるのでしょうか。一般的には5%を基準とすることが多いです。偶然である可能性が5%より低い実験結果であれば、それは偶然じゃなかったのだと考えるのです。

さて、ウエストサイズの件。実験の結果を解析したところ偶然である可能性は5%であることがわかりました。ギリギリですが実験結果は偶然ではないと言えます。この化粧品には確かな痩身効果が確認されました。めでたしめでたし・・・・・・・・・・・・・じゃあオチがないっすね。

偶然である可能性が5%だから裏を返せばこの実験結果は100%正しいとも言えないわけです。95%の信頼性でこの実験結果は正しいと言える・・・・・・・「同じ実験を20回やったら1回くらいは偶然に出る程度の信頼性しかない結果である」とも言えます。おおっ!?おおっ!?

くだんの痩身化粧品の効果測定ですが、実はウエスト以外にもバスト、ヒップ、腕回り、太もも、ふくらはぎ、足首などなど20カ所のサイズを測っていたとしたらどうでしょう。20カ所も測定していればその中の1カ所くらいは5%の確率でしか発生しない偶然の結果が起きても何の不思議もないです・・・・・・よね。「私はサイコロで5を出すことができる」と言って一発で5を出したら(6回に1回しか起きない偶然がたまたま1回目に発生することだってあるけど、それはまあ目をつぶって)「スゲエ、アンタ確かにスゲエよ。」ですが、「私はサイコロで5を出すことができる」と言ってゴロゴロっと6個のサイコロを一気に転がしたら、そりゃその中の1個くらいは偶然5が出ても何の不思議もないですからねえ。5が出たと言ってもハンドパワーの証明にはならんわな。