KStwobign 分布#

這是從 \(n\) 個樣本或觀測值計算出的經驗分布函數,與比較(或目標)累積分布函數之間,正規化後最大絕對差異的極限分布。(ksone 是未正規化正差異 \(D_n^+\) 的分布。)

寫成 \(D_n = \sup_t \left|F_{empirical,n}(t) - F_{target}(t)\right|\),正規化因子是 \(\sqrt{n}\),而 kstwobign\(\sqrt{n} D_n\) 值在 \(n\rightarrow\infty\) 時的極限分布。

請注意 \(D_n=\max(D_n^+, D_n^-)\),但 \(D_n^+\)\(D_n^-\) 不是獨立的。

kstwobign 也可用於兩個經驗分布函數之間的差異,適用於分別具有 \(m\)\(n\) 個樣本的觀測值集合,其中 \(m\)\(n\) 是「大的」。寫成 \(D_{m,n} = \sup_t \left|F_{1,m}(t)-F_{2,n}(t)\right|\),其中 \(F_{1,m}\)\(F_{2,n}\) 是兩個經驗分布函數,則 kstwobign 也是 \(\sqrt{\frac{mn}{m+n}}D_{m,n}\) 值在 \(m,n\rightarrow\infty\)\(m/n\rightarrow a \ne 0, \infty\) 時的極限分布。

沒有形狀參數,且支撐集為 \(x\in\left[0,\infty\right)\)

\begin{eqnarray*} F\left(x\right) & = & 1 - 2 \sum_{k=1}^{\infty} (-1)^{k-1} e^{-2k^2 x^2}\\ & = & \frac{\sqrt{2\pi}}{x} \sum_{k=1}^{\infty} e^{-(2k-1)^2 \pi^2/(8x^2)}\\ & = & 1 - \textrm{scipy.special.kolmogorov}(n, x) \\ f\left(x\right) & = & 8x \sum_{k=1}^{\infty} (-1)^{k-1} k^2 e^{-2k^2 x^2} \end{eqnarray*}

參考文獻#

  • “Kolmogorov-Smirnov 檢定”,維基百科 https://en.wikipedia.org/wiki/Kolmogorov-Smirnov_test

  • Kolmogoroff, A. “未知分布函數的信賴區間。”” Ann. Math. Statist. 12 (1941), no. 4, 461–463.

  • Smirnov, N. “關於兩個獨立樣本的經驗分布曲線之間差異的估計” Bull. Math. Univ. Moscou., 2 (1039), 2-26.

  • Feller, W. “關於經驗分布的 Kolmogorov-Smirnov 極限定理。” Ann. Math. Statist. 19 (1948), no. 2, 177–189. 和 “勘誤表” Ann. Math. Statist. 21 (1950), no. 2, 301–302.

實作: scipy.stats.kstwobign