カールの曲がった地平線

都内在住31歳の独身サラリーマンが、日々木工や読書、散歩などを楽しみつつ、いつか脱サラして小屋暮らしや旅暮らしをすることを夢見るブログ

統計学で大切だと思うこと

 以前、仕事の関係で統計学を齧っていたことがありました。当時は興味があったのですが、職場が変わるとともに興味が薄れました。自分で分析したいような問題がとくになかったからです。また、分析に際して、高度な統計学を使う機会自体がそうそう無かったので、勉強の意義が見出せなくなったからでもあります。
 ここでは一つの区切りとして、再び使う機会が来ることを想定して、たとえ忘れても雰囲気が掴めるように、大切だと思うことを書き遺します。

統計学で一番大切なもの

 統計学を勉強する上で最も大切なことは「データから、何か分析や判断をしたい!」という心です。…と書くと、およそ科学とは無縁の精神論のように聞こえるかもしれませんが、僕が思うにこれこそ最も大切なことです。
 なぜなら統計学はあくまでも分析や判断のための道具だからです。具体的に考えたい問題があって、初めて意味をなすものだからです。何かしら考えたい問題が無い状態で、さらに、「社会や自然界に対して分析したい!知りたい!」という意欲がない状態では、せっかく勉強しても、時間と努力が全て無駄になります。

 この気持ちがあることを前提として、次に統計学の輪郭を描くと、それは「一部の情報から全体についての性質を知るためのもの」です。人間は普段の生活においても、一部の情報から全体についての性質を常に知ろうとしています。

  • (例1)料理を味見してその出来を確認する(一部から推測)。
  • (例2)あの人は何回か遅刻してきたことがある。だから今回も遅刻するだろう(実績から予想)。

 統計学は、こういった行為をより数理的に行うものだといえます。

統計学の基本

 以下、統計学で登場するキーワードを挙げて、思うところを書きます。

母集団と標本

 ごく大雑把に言って、母集団とは全体、標本とは全体の一部です。母集団は何らかの分布を持っており、母平均や母分散といった確定的な数値を定義できます。また、特定の分布であれば、その形を統制するパラメーターを持つことがあります。
 統計学の基本的な方法としては、母集団から標本を抽出し、標本から得られた値から、母集団の性質を推測します。これは、母集団分布の形やパラメーターの推定、母集団が持つ構造の分析、また、母集団における仮説の検定などです。

推定量

 推定量とは、母集団分布における何かの値を推定するために、標本から計算される関数です*1。何度も標本をとり推定量を計算すると、毎回異なる標本が選ばれ得るので、推定量の実現値は毎回異なり得ます。すなわち推定量は確率変数です。

モデル

 データを分析する際に、母集団分布について何かの構造(モデル)を前提とすることもあれば、何も前提としないこと(ノンパラメトリックな分析といいます)もあります。母集団に対して何を前提とするかによって、分析の手法が変わってくるので、前提は常にきちんと把握しておく必要があります。

線形モデルと最小二乗推定量

 母集団の構造として、状況を表す変数Xと得られるデータyの間に線形の関係があるとするのが線形モデルです。すなわち、y=Xθ+εです。ここでεは誤差を表す確率変数です*2
 Xが設定され、データyが得られた状況において、誤差εが最小となるような値としてθを推定するのが最小二乗推定です。
 線形モデルで大切なのは①BLUEと②残差平方和の性質です。

①BLUEとは、パラメータの真値の線形和l\thetaの推定量のうち、データyの線形和で表されるものであって、不偏かつ最小分散なものです。最小二乗推定量を\hat{\theta}とすると、l\thetaのBLUEはl\hat{\theta}であるというのが最小二乗法の原理です。

②残差平方和S(\hat{\theta})とは、最小二乗推定量\hat{\theta}を線形モデルに当てはめた後の残差の平方です。S(\hat{\theta})=(y-X\hat{\theta})*^{t}(y-X\hat{\theta})
このときE(S(\hat{\theta}))=自由度×\sigma^2です。これが標本分散s^2が母分散\sigma^2の不偏推定量である所以です。

 以上は誤差分散εが正規分布に従うとは仮定しないで導かれる結果です。さらにεが正規分布に従うことを前提とすると、Z検定やt検定、分散分析ができるようになります。

一般化線形モデルと最尤推定

 線形モデルではE(y)=Xθ、さらにyはE(y)周りに正規分布するとしました。しかし、必ずしもE(y)がXの線形結合で表せるわけではないし、誤差項が正規分布するとも限らないので、これを拡張して、g(E(y))=Xθ、yはE(y)周りに特定の分布*3をもつとしたのが一般化線形モデルです。
 一般線形モデルにおいてパラメータθを推定するには最尤推定法が使われます。これは「パラメータの真値がθであるときにYの起こる確率*4」L(Y|θ)を考え、これを最大とする数によりθを推定します。つまり、得られたデータYを最もよく引き起こすθを、真のθを推測する値として使うということです。これを最尤推定量といいます。

 最尤推定量の良い性質は、(データ数が多ければ)それが不偏な推定量であり、分散が小さく*5正規分布に従うことです。

 最尤推定量が正規分布に従う性質を使って検定を構成できます*6。また、尤度や、エフィシェント・スコア*7を使って検定を構成できます。カイ二乗検定は後者の検定の特殊な場合です*8

統計的検定

 統計的検定とは、母集団についての仮説を、標本からの推定値によって、採択すべきか棄却すべきかの判断をするものです。その基本的な仕組みは以下です:

  1. 仮説を認めると特定の分布に従うような統計量Xを構成し、
  2. 得られた標本からその実現値xを計算し、
  3. xが、Xの分布からは「あまり起きそうにない」値である場合に、仮説は誤りであるとします。

 要は「背理法」の一種であり、矛盾を見出すための検定統計量の数だけ、様々な統計的検定が考えられます*9。なお、「あまり起きそうにない」とする基準を有意水準といいますが、どの有意水準で検定すればよいかは検定をする人の主観です。

検定の例
  • ノンパラメトリックな検定:順位和検定、順位付符号和検定、カイ二乗検定など
  • 線形モデルにおける検定:Z検定、t検定、F検定、分散分析など
  • 一般線形モデルにおける検定:Wald検定、尤度比検定など
検出力

 検出力は、様々な検定の良し悪しを比べたり評価したりするための指標の一つです。
 検定する際に気懸かりなのは、採択・棄却の判断を誤ることですが、この誤りには2種類があります:

  • ①仮説が真であるとき、「誤り」として棄却してしまう間違い
  • ②仮説が偽であるとき、「正しい」として採択してしまう間違い

 この2種類の間違いは、両方同時には無くせず、片方を減らすともう片方が増えてしまいます。そこで、通常、複数の検定法を比較する際には、①が起こる確率α(有意水準といいます)を固定した上で、②が起こる確率βを比較します。そしてβ(1-βは検出力といいます)が小さい方がより良い検定とします。つまり、良い検定とは、有意水準を固定した上で検出力が大きいものだといえます。

ベイズ統計学

ベイズ統計学では、事前分布や事後分布といった特有の用語が出てきます。しかし、「限りある情報から全体を推測する」という統計学の基本的な考え方は通底しています。

ベイズ更新

 データy、パラメータθとして、ベイズの定理よりf(θ|y)∝f(θ)f(y|θ)です。f(θ|y)は、「データyが得られたときの、真のパラメータがθである確率」ですが、これがf(y|θ)「パラメータをθとしたときにyが生じる確率」とf(θ)から計算できることになります。f(θ)は何の条件も与えられていない、「パラメータがθとなる確率」ですが、現実的には知りようがない分布です。そこで、f(θ)としては、「現時点で見込まれるθの確率分布」を設定します。これは事前分布と呼ばれます。
 事前分布f(θ)は主観的なものですが、データyを反映して、よりそれっぽいθの分布f(θ|y)が得られます(事後分布といいます)。そこに、さらに新しいデータy'が得られれば、今度は先ほどのf(θ|y)を事前分布として設定し、同様の手順でf(θ|y')が得られます。こうして、新しいデータが得られる度にこの作業を反復することで、事後分布がどんどんよりそれっぽいθの分布へと更新されていくことになります。

ベイズ推定

 θの事後分布は、パラメータθがありそうな場所を示す分布ですが、ここから一つの値をθの推定値aとして選択するのがベイズ推定と呼ばれる推定法です。
 このためには、コスト関数L(θ,a)を与えておき*10、データyによるθの事後分布によるコストの期待値Σf(θ|y)L(θ,a)が最小になるようなaを、θの推定値とします。コスト関数の設定の仕方により、無数の推定方法が考えられます*11

統計的意思決定

 ベイズ推定は、データyとパラメーターθから、コスト関数L(θ,a)を設定した上で、コストを最小とするaを推定値として選択するものでした。統計的検定や分類も実は同じような行為だと考えることができ、統計的意思決定の枠組みの中で統一的に扱うことができます。
 統計的意思決定とは、真のパラメータがθであるときデータyが得られる確率f(y|θ)が予め計算できるものとし、また、真のパラメータがθであるとき行動aを選択するコストを表す関数L(θ,a)を設定した上で、コストを最小とする行動aを計算するものです*12
 コストを最小化する方法はやや独特のものです。まず、真のパラメータがθであるとき、いずれのデータyが生起するか不明なので、データyについての平均Σf(y|θ)L(θ,a)を最小とすることを考えます。しかし、実際にはθの分布は不明なので、θの事前分布による平均をとって、Σf(θ)Σf(y|θ)L(θ,a)を最小とすることを考えます。ベイズの定理よりΣf(y)Σf(θ|y)L(θ,a)ですから、データyが得られたときに、Σf(θ|y)L(θ,a)が最小となるようなaを行動として選択します。これは、ベイズ推定の計算式と同じものとなっています。

自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

*1:例えば標本平均\bar{X}=\frac{1}{n}\sum_{i}{X_i}は、標本X_1,...,X_nから母平均μを推定する推定量です

*2:普通は不偏で等分散、また無相関だと仮定します

*3:正規分布よりも広い分布のバリエーション

*4:尤度といいます

*5:クラメル・ラオの下限に一致すること

*6:Wald検定

*7:尤度の対数微分で表される関数

*8:これは分布を明示する必要がないのでノンパラメトリックな検定です

*9:仮説の種類や、母集団についての前提などによっても統計的検定の方法は異なります

*10:aが真のパラメータθから乖離するほどにコストが大きくなる関数

*11:例えば、簡単な計算により、L(θ,a)=|θ-a|のときはaは中央値、L(θ,a)=(θ-a)^2のときはaは期待値となります

*12:aは、ベイズ推定の場合には「推定値としてaをとる」という行動を、また、統計的検定では「仮説を採択or棄却する」という行動を、そして、分類では「カテゴリaに分類する」という行動を、それぞれ表します