統計勉強
おすすめYoutube (統計学者ではない)
統計学を使っている研究者。分かりやすい。HPはまとまっている。
QC検定1級優秀成績者が動く画像で初学者向けに運営。分かりやすい。
おすすめWebサイト
製造業 (エンジニア)が使う統計学を説明してくれている。まとめてくれている。硬い文章だが、知識の浅い人にも理解できるように配慮している気がした。
「信頼性解析(理論編)」の7.3~は、LPTFの詳細が解説されており、勤め先の品質規格との対応も理解できた (ここに登場する数式から社内規格の数式に変形できた)。
実験計画法なども解説されているようなので、今度見てみよう。
今日の学び
統計処理の前提
基本的に母集団が正規分布 (離散的なら二項分布)に従うことが前提。
正規分布の形から外れている場合、統計処理の正しさは担保されない。
※事象と分布の関連性はこの動画がわかりやすい:
よく使う10種の「確率分布」を覚えよう!〜どんな事象がどんな分布なのか?〜 - YouTube
※検定で使う分布は少し毛色が違うらしいので、後日調べる
検定
検定では「α≠β (αとβの有意差)」を主張したいとき、帰無仮説 (逆説)「α=β」を設定し、この帰無仮説が有意水準pで成立するか検証する。基本的には棄却 (成立しないことを証明)することが目標。
あくまで有意水準pとした場合なので要注意 (絶対に●●だ!ではなく、統計的に●●だ!ということ)。
- 帰無仮説 :「AとBには差がある」といった主張 (新製品Aは新製品Bよりも性能が良い、等)を無に帰す仮説。
- 有意水準:帰無仮説が正という前提のもと、統計的に正しい (偶発性を否定)と判断するための基準。分布図のp (-p)よりも外側にくるなら、帰無仮説は棄却される。
有意水準 (危険率, p, αなどとも)
検定する前に設定する (データ取得後は帰無仮説を受容or棄却できるp値を恣意的に決定できてしまう)。
【大きい】
- 信頼性が高い ("有意差の誤認識=第1種の過誤"が生じにくい)
- 感度が低い (有意差の見逃し=第2種の過誤"が生じやすい)
【小さい】
- 信頼性が低い ("有意差の誤認識=第1種の過誤"が生じやすい)
- 感度が高い (有意差の見逃し=第2種の過誤"が生じにくい)
検定の種類 (基本的なもの)
2つの母集団N1 (μ1, σ1^2), N2 (μ2, σ2^2)に対して有意差の有無を検証すること。
t検定:2つの母集団の平均の有意差を検証する
母集団の分散が未知の時に使われる (統計の使用場面は未知なことが圧倒的に多い)。
- 1標本t検定
母集団の平均=定数か否か。
例:製品Aの重さ (実測)と目標値を比較する。
- 対応のある2標本t検定
母集団1=母集団2か否か。
例:同一対象に対して2群 (測定系Aと測定系B, 処理Aの前後)の差 ("各測定系の平均値"の差)を比較する。
- 対応のない2標本t検定
母集団1と母集団2の分散が未知なので、両方とも仮定して計算する。分散の性質によって、計算式が変わる。(どちらのt分布も、昔の学者さんが頑張って実計算してくれた)
「母集団1の分散=母集団2の分散」と考えられる場合⇒Studentのt検定
「母集団1の分散≠母集団2の分散」と考えられない場合⇒Welchのt検定
- t分布
正規分布の分母の母分散を不偏分散に置き換えた時の分布(分母と分子両方に確率変数が存在する)。
正規分布 / χ二乗分布の形 (標本数=nで分布形状が変化。数式見るとわかりやすいが、最大値は分母最小のときなので、ピーク時の横軸中心は0のまま。自由度は標本数のみに依存)。
F検定:2つの母集団の分散 (バラつき)の有意差を検証する
「F = 不偏分散A / 不偏分散B」 (分子:大きいことを証明したい母集団の不偏分散)。
自由度(φ1, φ2)のF分布に従う。
管理図, 工程能力指数
Cp:"母集団"のバラつきが上下限に収まるかを確認するための指標。
Cp = (規格上限-規格下限) / 6σ
Cpk:"平均値 (中心値)のバラつきを加味した母集団"のバラつきが上下限に収まるかを確認するための指標。
Cpk = min{(規格上限-標本平均) / 3σ, (標本平均-規格下限) / 3σ}