統計勉強

今日の学び

統計処理の前提

基本的に母集団が正規分布 (離散的なら二項分布)に従うことが前提。

正規分布の形から外れている場合、統計処理の正しさは担保されない。

連続型 (時間など)：正規分布、指数分布など
離散型 (計量値、アンケートなど)：二項分布、ポアソン分布など

※事象と分布の関連性はこの動画がわかりやすい：

よく使う10種の「確率分布」を覚えよう！〜どんな事象がどんな分布なのか？〜 - YouTube

※検定で使う分布は少し毛色が違うらしいので、後日調べる

検定

検定では「α≠β (αとβの有意差)」を主張したいとき、帰無仮説 (逆説)「α=β」を設定し、この帰無仮説が有意水準pで成立するか検証する。基本的には棄却 (成立しないことを証明)することが目標。

あくまで有意水準pとした場合なので要注意 (絶対に●●だ！ではなく、統計的に●●だ！ということ)。

帰無仮説：「AとBには差がある」といった主張 (新製品Aは新製品Bよりも性能が良い、等)を無に帰す仮説。
有意水準：帰無仮説が正という前提のもと、統計的に正しい (偶発性を否定)と判断するための基準。分布図のp (-p)よりも外側にくるなら、帰無仮説は棄却される。

有意水準 (危険率, p, αなどとも)

検定する前に設定する (データ取得後は帰無仮説を受容or棄却できるp値を恣意的に決定できてしまう)。

【大きい】

信頼性が高い ("有意差の誤認識=第1種の過誤"が生じにくい)
感度が低い (有意差の見逃し=第2種の過誤"が生じやすい)

【小さい】

信頼性が低い ("有意差の誤認識=第1種の過誤"が生じやすい)
感度が高い (有意差の見逃し=第2種の過誤"が生じにくい)

検定の種類 (基本的なもの)

2つの母集団N1 (μ1, σ1^2), N2 (μ2, σ2^2)に対して有意差の有無を検証すること。

t検定：2つの母集団の平均の有意差を検証する

母集団の分散が未知の時に使われる (統計の使用場面は未知なことが圧倒的に多い)。

1標本t検定

母集団の平均=定数か否か。

例：製品Aの重さ (実測)と目標値を比較する。

対応のある2標本t検定

母集団1＝母集団2か否か。

例：同一対象に対して2群 (測定系Aと測定系B, 処理Aの前後)の差 ("各測定系の平均値"の差)を比較する。

対応のない2標本t検定

母集団1と母集団2の分散が未知なので、両方とも仮定して計算する。分散の性質によって、計算式が変わる。(どちらのt分布も、昔の学者さんが頑張って実計算してくれた)

「母集団1の分散=母集団2の分散」と考えられる場合⇒Studentのt検定

「母集団1の分散≠母集団2の分散」と考えられない場合⇒Welchのt検定

　t分布

正規分布の分母の母分散を不偏分散に置き換えた時の分布（分母と分子両方に確率変数が存在する）。

正規分布 / χ二乗分布の形 (標本数=nで分布形状が変化。数式見るとわかりやすいが、最大値は分母最小のときなので、ピーク時の横軸中心は0のまま。自由度は標本数のみに依存)。

F検定：2つの母集団の分散 (バラつき)の有意差を検証する

「F = 不偏分散A / 不偏分散B」 (分子：大きいことを証明したい母集団の不偏分散)。

自由度(φ1, φ2)のF分布に従う。

管理図, 工程能力指数

「管理上限 (下限)閾値＜規格上限 (下限)閾値」が、工程能力指数Cp (Cpk)>1.00ということ。

Cp："母集団"のバラつきが上下限に収まるかを確認するための指標。

Cp = (規格上限-規格下限) / 6σ

Cpk："平均値 (中心値)のバラつきを加味した母集団"のバラつきが上下限に収まるかを確認するための指標。

Cpk = min{(規格上限-標本平均) / 3σ, (標本平均-規格下限) / 3σ}

ringorunner’s diary

エンジニアもどきのサラリーマンが、日常や考え事を記録する日記

おすすめYoutube (統計学者ではない)

おすすめWebサイト