ポアッソン分布｜ざいつ内科クリニック｜山口市小郡の一般内科、血液内科、アレルギー科

ポアッソン分布

統計学および確率論で用いられるポアソン分布（英: Poisson distribution）とは、ある事象が一定の時間内に発生する回数を表す離散確率分布である。

ある離散的な事象について、ポアソン分布は所与の時間内での生起回数の確率を示し、指数分布は生起間隔の確率を示す^[1]。

定義

定数 $λ > 0$ に対し、 $0$ 以上の整数を値にとる確率変数 $X$ が

P(X=k)={\frac {\lambda ^{k}e^{-\lambda }}{k!}}

を満たすとき、確率変数 $X$ は母数 $λ$ のポアソン分布に従うという。

ここで、 $e$ はネイピア数 ( $e = 2.71828\dots$ )であり、 $k!$ は $k$ の階乗を表す。また、 $λ$ は所与の区間内で発生する事象の期待発生回数に等しい。

$P (X = k)$ は、「所与の時間中に平均で $λ$ 回発生する事象がちょうど $k$ 回（ $k$ は非負の整数）発生する確率」に相当する。例えば、事象が平均で10分間に5回発生する場合、10分間の中で事象が発生する回数は、 $λ = 5$ のポアソン分布モデルを使って求められる。

性質

平均・分散

ポアソン分布の平均 $E[X]$ および分散 $V[X]$ は、 $λ$ に等しい^[2]。

{\begin{aligned}\operatorname {E} [X]&=\lambda ,\\\operatorname {V} [X]&=\lambda .\end{aligned}}

最頻値

ポアソン分布の最頻値は、 $λ$ 以下で最大の整数である。

積率母関数

平均 $λ$ のポアソン分布の積率母関数 $M X (t)$ は、

M_{X}(t)=\operatorname {E} \left[e^{tX}\right]=\sum _{k=0}^{\infty }e^{tk}P(X=k)=\sum _{k=0}^{\infty }e^{tk}{\frac {\lambda ^{k}e^{-\lambda }}{k!}}=e^{\lambda (e^{t}-1)}

で与えられる。

モーメント

ポアソン分布の高次モーメントは、 $λ$ を含むトゥシャール多項式であり、二項係数を持つ。

{\begin{aligned}m_{1}&=\operatorname {E} [X]=\lambda ,\\m_{2}&=\operatorname {E} [X^{2}]=\lambda ^{2}+\lambda ,\\m_{3}&=\operatorname {E} [X^{3}]=\lambda ^{3}+3\lambda ^{2}+\lambda ,\\&\vdots \end{aligned}}

ポアソン分布の $n$ 次の階乗モーメント（英語版）は $λ n$ である。

\operatorname {E} [X(X-1)\dotsm (X-n+1)]=\lambda ^{n}.

キュムラント

ポアソン分布の $n$ 次のキュムラント $κ n$ は全て、平均 $λ$ と等しい。

\kappa _{n}=\left.{\frac {\partial ^{n}}{\partial t^{n}}}\log {\bigl (}M_{X}(t){\bigr )}\right\vert _{t=0}=\lambda .

再生性

ポアソン分布は再生性をもつ。すなわち、 $X$ と $Y$ とが独立な確率変数であり、それぞれパラメータ $λ$ , $μ$ のポアソン分布に従うとき、確率変数の和 $X + Y$ はパラメータ $λ + μ$ のポアソン分布に従う。

その他

ポアソン分布は無限分解可能な確率分布である。

近似

$λ$ が十分に大きい（たとえば $λ > 1000$ ）ならば、平均 $λ$ 、標準偏差 $\sqrt λ$ の正規分布はこのポアソン分布の非常によい近似となる。おおよそ $λ > 10$ であれば、適切な連続な分布への修正がなされている場合に限り、正規分布はこのポアソン分布のよい近似となる。例えば $P (X \leq x)$ に関して、 $x$ が非負の整数ならば、 $P (X \leq x + 0.5)$ と置換することができる。

ポアソン過程

$λ$ は、単位時間あたりの事象の平均発生回数などの割合と見なされる場合があり、到着率と呼ばれる。このとき、 $N t$ を時刻 $t$ より前に発生した事象の回数とすると、

P(N_{t}=k)={\frac {e^{-\lambda t}(\lambda t)^{k}}{k!}}

となる。この式を満たす確率過程をポアソン過程という。さらに、最初の事象が発生するまでの待機時間 $T$ は、指数分布による連続確率変数である。この確率分布は、次のように導くことができる。

P(T>t)=P(N_{t}=0).

時間を含む場合、すなわち1次元ポアソン過程では、各時間内で事象が発生する回数を確率変数とする離散ポアソン分布と、待機時間を確率変数とする連続アーラン分布の両方を含んでいる。1よりも高い次元のポアソン過程についても同様である。

事象

具体的な例

ポアソン分布は、ポアソン過程（英語版）に関連して発生する。これは、離散的な自然現象（所与の領域内や所与の時間内において、0回、1回、2回、3回… と発生する現象）に該当するものであり、現象が発生する確率は、時間ないし空間内において一定である。また、時間または空間における発生間隔は指数分布になる。次に、その例を示す。

1時間に特定の交差点を通過する車両の台数。
1ミリリットルの希釈された水試料中に含まれる特定の細菌の数^[3]（細菌数検査における最確法）。
単位面積あたりの雨粒の数。
1ページの文章を入力するとき、綴りを間違える回数。
1日に受け取る電子メールの件数。
1時間あたりの電話がかかってくる件数。
ある一定の時間内の店への来客数。
1分間のWebサーバへのアクセス数。
- 例えば、1時間あたりのウィキペディアの最近更新したページの編集数もおおよそポアソン分布。
1キロメートルあたりのある通り沿いのレストランの軒数。
1ヘクタールあたりのエゾマツの本数。
1立方光年あたりの恒星の数。
単位時間あたりの放射線の計数値であるカウント毎分やカウント毎秒（半減期による減衰や外部からの放射能などによる変動がないと仮定して）。

歴史的例

上記の例のほか、歴史的に有名な事例としては、ロシア生まれでドイツで活躍した経済学者、統計学者のボルトケヴィッチ（ドイツ語版） (Владислав Иосифович Борткевич) による「プロイセン陸軍で馬に蹴られて死亡した兵士数」の例が知られている。ボルトケヴィッチは著書 „Das Gesetz der kleinen Zahlen “ (The Law of Small Numbers)^[4]において、プロイセン陸軍の14の騎兵連隊の中で、1875年から1894年にかけての20年間で馬に蹴られて死亡する兵士の数について調査しており、1年間当たりに換算した当該事案の発生件数の分布が母数 $0.61$ のポアソン分布によく従うことを示している。

事象の特徴

上記のように、稀にしか起こらないような現象を大量に観測した結果がポアソン分布に従う例は極めて多く見られる。このようなポアソン分布に従う事象の中で、時間の経過とともに発生する事象の特徴は次のようにまとめられる。

（希少性）：時間幅 $∆ t$ の間に着目している事象がちょうど1回起こる確率が $λ ∆ t + o (∆ t)$ 、2回以上起こる確率が $o (∆ t)$
（定常性）：事象の起きる確率は、どの時間帯で同じ
（独立性）：事象の起きる確率は、それ以前に起こった事象の回数や起こり方には無関係

ここで、 $o (∆ t)$ は $∆ t$ に対して高位の無限小を表しており、 $∆ t$ のスケールに注目したときに無視できる微小量であることを表す。

極限定理

パラメータが $n$ と $p = λ / n$ である二項分布において、 $λ$ を一定に保ったまま $n$ を無限大に近づけると、その分布は平均 $λ$ のポアソン分布に近づく。すなわち、

\lim _{\lambda =np,~n\to \infty }{\binom {n}{k}}p^{k}(1-p)^{n-k}={\frac {\lambda ^{k}e^{-\lambda }}{k!}}

が成り立つ。これをポアソンの極限定理という。この定理の名は、数学者シメオン・ドニ・ポアソンが1837年に著書 « Recherches sur la probabilite des jugements » (Researches on the Probabilities)^[5]の中で結果を与えたことに由来する。なお、この中で、二項分布の極限としてポアソン分布が初めて導出されている。

導出の詳細を次に示す。計算には、以下の関係式を用いる。