ここがポイント、QCツール 第36回 統計的手法(3) (2017-7-10)
2017.07.10
前回に引き続き統計的手法です。今回がその3回目(今回でひと区切りです)です。
■統計的方法の限界と適用上の留意点
統計的方法は支援技法です.
上手く使えば力を発揮しますが,その本質を理解していないと手ひどい目に遭う恐れがあります.
統計的方法という主題の最後に,私自身が留意していることを紹介しておきます.
(1)データの質の確保
まずは,データの質の確保に留意します.
GIGO(Garbage In, Garbage Out;ゴミを入れればゴミが出る)は,常に心しなければならないことです.
データを採取する際には,ランダムサンプル(解析対象を代表するようなデータ)であるかどうか,実験や調査の場の管理(要因として取り上げた因子以外による変動要因はないか),欠測値の意味(実験・調査の失敗,現象・形態の相違,データ喪失),ミス(転記ミスなど)に注意します.
得られたデータに対しては,慎重に吟味します.
例えば,外れ値(極端な値だが正しいのか,それとも異常値なのか),集団の均一性(性質の異なる集団のデータが混在していないか),分布の対称性(データのばらつき方が左右対称か,それは自然か)などに留意します.
これらの吟味なしに,データの代表値として平均値や標準偏差を計算することにどれほどの意味があるか考えてみるとよいでしょう.
(2)手法の選択
「解析の目的とデータの構造に合った手法」を選択するよう留意します.
細かいことを言えばきりがありませんが,私は以下のようなことをキーワードにして手法を選択しています.
・データの型:比例尺度(計量値/計数値)か,分類尺度か
・変数の数:一変量か,二変量か,それ以上の多変量か
・時間パラメータを考える必要があるか,ないか
・解析目的:集団の特徴記述(データの構造理解)か,
因果関係解析(集団の差/変数間の関係)か
(3)数量化
統計的方法を適用するためには,何らかの方法で「事実の数量化」をしなければなりません.
数量化できない,もしくは数量化しにくい場合があることが,統計的方法の一つの限界でもあります.
このようなとき,無理して数量化することがありますが,そのときは解析結果を解釈するときに元の世界の言葉に注意深く戻すことに留意します.
意識せずに簡単に数量化できるときでも,「取り上げていない変数」についてほとんど何も言えないことが統計的方法の限界ですので,どのような特性値を統計解析の対象とするかに気を使います.
目的特性値が解析の目的に合致しているかどうかを十分に吟味し,さらに他の変数についても必要な変数に洩れがないように留意します.
解析結果を解釈するときには,取り上げた「変数の名称」にとらわれないように気をつけます.
ある名前のついたデータの変動が,その変数名の物理量の変動を表しているとは限らないからです.
(4)モデルの妥当性
統計的方法は「ばらつき」に対処するための科学的方法です.
多くの統計手法は,データのばらつき方に関して,明示的にあるいは暗黙のうちに何らかの「統計的モデル」を仮定しています.
「誤差の独立性」や「等分散性」の仮定がその例です.
無条件にまた形式的に統計的手法を濫用することへの批判として,「探索的データ解析」や「回帰診断」が提唱され広まった時代があります.
同じ精神で,生データのプロットをはじめとする「データの図的表現」を大切にしたいと思います.
どんな手法を適用するときでも,まずは「外れ値」の吟味と「層別」の必要性の検討は不可欠と思います.
(5)因果関係の解析
統計的方法を適用する目的の一つに,データの構造の理解と因果関係の分析があります.
因果関係の解析のために統計的方法を適用する際には,多くの限界や難しさが存在しますので,以下のようなことを肝に銘じています.
まず,「相関があることと因果関係があることは別である」ことに留意します.
統計解析のみによっては因果関係の証明はできません.
統計解析は変動する数値間の関係のあり方については多くのことを述べられますが,その因果関係について断言することはできません.
その問題の分野に特有の知識なくしては何も言えません.
統計的手法は支援ツールに過ぎないと,いつも自分に言い聞かせています.
次に,「ばらつかないと分からない」ことに注意します.
目的特性に対して変動要因となっていると思われる変数の寄与を知るには,その変数がばらついていない限り,統計解析だけでは何も分かりません.
目的特性への寄与が大きくても,厳しく管理されてばらつきが小さいとその寄与が分かりません.
逆に実用的にほとんど意味がなくても大きく変化させれば,見かけ上は大きく寄与するように見えます.
その意味で取り上げた変数の「変動範囲」についての技術的観点からの吟味を重視しています.
また,「交絡」にも注意しています.
データの性質が悪いために,2つ以上の因子が混ざり合って区別できないことを交絡と言います.
相関と因果関係の区別とも関係しますが,見かけ上効果を及ぼしている因子が真の原因でないことはよくあります.
本当に効果を及ぼしている場合でも,混ざり合ってどちらの効果であるか分からなかったり,互いに打ち消し合って何も効果がないように見えることもあります.
解釈に困る結果が得られた場合には,交絡の可能性を疑ってみるようにしています.
さらに,「交互作用」にも注意しています.
因子の効果の様相が他の因子の水準によって異なるとき,それらの因子の間には交互作用があると言います.
交絡と同様に,解析結果が過去の経験に基づく予想に合致しないとき,交互作用効果について検討します.
技術的知識として蓄積される情報のうち,他の因子の水準に関する考慮が足りないために,それが迷信になったり,極めて狭い範囲にしか通用しない知識になっていたりすることが多いので注意しています.
■統計的方法の利用者の心得
統計的方法は道具です.
道具は有効に使いたいと思います.
私は,統計解析について教えたり書いたりすることがよくありました.
対象となる人々は,多くの場合,統計的手法の利用者であって統計解析の専門家ではありません.
最後に,そうした利用者に対して,私が強調していることを記すことにします.
(1)統計的センスの重視
統計的方法の適用においては,各種統計手法の内容を詳細に知っているというよりは,「統計的ものの見方」を理解し,「統計的方法の限界」を知り,「統計的手法を適用する際の留意点」を熟知していること,すなわち「統計的なセンス」の方が重要であることを強調します.
手法の適用にあたっては,問題・課題に合った手法を選択することが重要で,やさしい基本的な手法でも,統計的なセンスさえあれば,高レベルの統計解析が可能であることを強調します.
単純な手法でも使いようによっては,想像をはるかに超えて有用です.
複雑な手法を形式的に適用し,本人以外(本人もかもしれません!)には解析結果を解釈することもできない,などというようなことは避けねばなりません.
(2)応用力の重視
統計的手法の適用という点から,手法そのものに関する体系的な知識より,適用上のノウハウを知り,実世界で統計的方法を適用できる能力の方が重要で価値があることを強調します.
統計の専門家は,数理統計学,各種統計手法,統計的方法の適用に関してさまざまの知識を有しています.
でも,統計的方法の利用者にはそれほど広範で完全な知識は必要ないでしょう.
その意味で,統計学全般を一般的な教科書に記述されている順序で体系的に学ぶ必要はないし,ある手法を知るために教科書に記述されている論理に従って理解しなければならないという必然性はないと思っています.
そうは言っても,統計手法について何らかのことを知らなければその手法は使えません.
私は,2つのことだけを重視してほしいと思っています.
その第一は,適切な手法が選択できるようになるため,解析対象となっているデータの構造を理解できて,適用する手法がデータに対して仮定していることを知っていることです.
第二は,適用することにした手法に関して,その手法の目的を知ること,すなわちどのような情報を抽出する手法であるかを知っており,解析結果の解釈の方法を会得していることです.
これに加えて,その手法を適用する際のちょっとしたノウハウのいくつかを知っていれば,理想的です.
(3)問題解決志向
統計的方法は道具です.
したがって,当然のことながら,統計的方法を用いる目的は手法を適用することにあるのではなく,手法を活用して問題を解決し,課題を達成することにあります.
統計的手法の枝葉末節に入り込んで些細なことにうんちくを傾け,その統計的手法を適用している目的の方を忘れては何にもなりません.
些細なことを心配して手法を使わないことの弊害もまた困ったものです.
要は,その問題が解決できればよいのです.
解決へのヒントが得られればよいのです.
完全を期して,目的と手段を取り違えないようにしたいし,潔癖でありすぎて何も使えなくなることなどないようにしたいものです.
多少の誤用には目をつぶりたいと思います.
それが統計的方法の進歩を促すかもしれないと,広い心を持ちたいと心から思います.
(飯塚悦功)