確率の基礎

確率の基礎を解説。同時確率・周辺確率・条件付き確率の定義から、独立性、確率密度関数、指数分布・ラプラス分布・期待値まで体系的にまとめます。

基本用語

  • 命題: 真(True)か偽(False)のいずれか一方に定まる文や主張。
  • 確率分布: 確率変数がある値をとる確率、またはある範囲に入る確率を示す関数。
  • 事象: 確率的な試行の結果として起こりうる出来事。
  • 確率変数: 試行の結果によって値が確率的に決まる変数。

確率の基本法則

同時確率 (Joint Probability)

複数の事象が同時に発生する確率。

\[ p(x, y) \]

\(p(x, y)\) は \(x\) と \(y\) が同時に起こる確率を表します。順序は関係ありません (\(p(x, y) = p(y, x)\))。

周辺確率 (Marginal Probability)

複数の確率変数があるとき、そのうちの特定の変数のみに着目した確率。同時確率から、不要な変数を周辺化(和または積分)することで得られます。

\[ p(x) = \sum_y p(x, y) \quad (\text{離散変数の場合}) \]

\[ p(x) = \int p(x, y) dy \quad (\text{連続変数の場合}) \]

条件付き確率 (Conditional Probability)

ある事象が起こったという条件の下で、別の事象が起こる確率。

\[ p(y|x) = \frac{p(x, y)}{p(x)} \]

これは、「\(x\) が起こったという条件の下で \(y\) が起こる確率」を意味します。

確率変数の独立性

独立 (Independence)

2つの確率変数 \(X\) と \(Y\) が互いに影響を与えない場合、これらは独立であると言います。独立な場合、同時確率はそれぞれの周辺確率の積で表されます。

\[ p(x, y) = p(x)p(y) \]

独立でない場合は従属(Dependent)であると言います。

条件付き独立 (Conditional Independence)

2つの確率変数 \(X\) と \(Y\) が、ある別の確率変数 \(Z\) が与えられたという条件の下で独立である場合を指します。

\[ p(x, y | z) = p(x | z) p(y | z) \]

これは、「\(Z=z\) であるという条件が与えられれば、\(X\) と \(Y\) は独立である」ことを意味します。

連続変数の分布

連続的な値をとる確率変数(例: 身長、時間)の場合、特定の1点での確率は0になります。そのため、累積分布関数確率密度関数を用いて確率を扱います。

累積分布関数 (Cumulative Distribution Function, CDF)

確率変数 \(X\) がある値 \(x\) 以下になる確率を表す関数です。

\[ F(x) = P(X \le x) \]

確率密度関数 (Probability Density Function, PDF)

連続確率変数の確率分布を表す関数です。PDF自体は確率ではありませんが、PDFをある区間で積分することで、その区間に確率変数が入る確率が得られます。

\[ P(a \le X \le b) = \int_a^b f(x) dx \]

PDF \(f(x)\) は、累積分布関数 \(F(x)\) の導関数として定義されます。

さまざまな確率分布

指数分布 (Exponential Distribution)

事象がランダムに発生する過程において、次の事象が発生するまでの時間間隔を表す分布です。メモリレス性(過去の経過時間に関わらず、将来の発生確率は一定)を持つことが特徴です。

\[ p(x | \lambda) = \lambda \exp(-\lambda x) \quad (x \ge 0) \]

ここで \(\lambda > 0\) はレートパラメータです。

ラプラス分布 (Laplace Distribution)

平均値の周りで指数関数的に減少する分布です。正規分布よりも尖ったピークと、裾の重い(ファットテール)形状を持ちます。

\[ p(x | \mu, b) = \frac{1}{2b} \exp\lbrace-\frac{|x - \mu|}{b}\rbrace \]

ここで \(\mu\) は位置パラメータ、\(b > 0\) は尺度パラメータです。

期待値 (Expectation)

確率変数 \(X\) が確率分布 \(p(x)\) に従うとき、関数 \(f(X)\) の期待値は、その関数の「平均的な値」を表します。

\[ \mathbb{E}[f(X)] = \sum_x f(x)p(x) \quad (\text{離散変数の場合}) \]

\[ \mathbb{E}[f(X)] = \int f(x)p(x)dx \quad (\text{連続変数の場合}) \]

参考

  • 手塚 太郎, 『しくみがわかるベイズ統計と機械学習』, 講談社 (2017)