離散統計分佈#

概觀#

離散隨機變數僅取可數數量的數值。常用的分佈包含在 SciPy 中,並於此文件中說明。每個離散分佈可以接受一個額外的整數參數:\(L.\) 一般分佈 \(p\) 和標準分佈 \(p_{0}\) 之間的關係為

\[p\left(x\right) = p_{0}\left(x-L\right)\]

允許輸入的平移。當初始化分佈產生器時,離散分佈可以指定開始和結束(整數)值 \(a\)\(b\),它們必須滿足

\[p_{0}\left(x\right) = 0\quad x < a \textrm{ 或 } x > b\]

在這種情況下,假設 pdf 函數在整數 \(a+mk\leq b\) 上指定,其中 \(k\) 是一個非負整數(\(0,1,2,\ldots\))而 \(m\) 是一個正整數乘數。或者,可以直接提供兩個列表 \(x_{k}\)\(p\left(x_{k}\right)\),在這種情況下,將在內部設置一個字典以評估機率並產生隨機變數。

機率質量函數 (PMF)#

隨機變數 X 的機率質量函數定義為隨機變數取特定值的機率。

\[p\left(x_{k}\right)=P\left[X=x_{k}\right]\]

這有時也稱為機率密度函數,雖然技術上

\[f\left(x\right)=\sum_{k}p\left(x_{k}\right)\delta\left(x-x_{k}\right)\]

是離散分佈的機率密度函數 [1]

累積分布函數 (CDF)#

累積分布函數為

\[F\left(x\right)=P\left[X\leq x\right]=\sum_{x_{k}\leq x}p\left(x_{k}\right)\]

並且能夠計算也很有用。請注意

\[F\left(x_{k}\right)-F\left(x_{k-1}\right)=p\left(x_{k}\right)\]

存活函數#

存活函數僅為

\[S\left(x\right)=1-F\left(x\right)=P\left[X>k\right]\]

隨機變數嚴格大於 \(k\) 的機率。

百分點函數(反向 CDF)#

百分點函數是累積分布函數的反函數,為

\[G\left(q\right)=F^{-1}\left(q\right)\]

對於離散分佈,這必須針對沒有 \(x_{k}\) 使得 \(F\left(x_{k}\right)=q.\) 的情況進行修改。在這些情況下,我們選擇 \(G\left(q\right)\) 作為最小的值 \(x_{k}=G\left(q\right)\),對於該值,\(F\left(x_{k}\right)\geq q\)。如果 \(q=0\),那麼我們定義 \(G\left(0\right)=a-1\)。此定義允許以與連續 rv 相同的方式定義隨機變數,使用均勻分佈上的反向 cdf 來產生隨機變數。

反向存活函數#

反向存活函數是存活函數的反函數

\[Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\]

因此,它是最小的非負整數 \(k\),使得 \(F\left(k\right)\geq1-\alpha\),或是最小的非負整數 \(k\),使得 \(S\left(k\right)\leq\alpha.\)

風險函數#

如果需要,風險函數和累積風險函數可以定義為

\[h\left(x_{k}\right)=\frac{p\left(x_{k}\right)}{1-F\left(x_{k}\right)}\]

\[H\left(x\right)=\sum_{x_{k}\leq x}h\left(x_{k}\right)=\sum_{x_{k}\leq x}\frac{F\left(x_{k}\right)-F\left(x_{k-1}\right)}{1-F\left(x_{k}\right)}.\]

動差#

非中心動差使用 PDF 定義

\[\mu_{m}^{\prime}=E\left[X^{m}\right]=\sum_{k}x_{k}^{m}p\left(x_{k}\right).\]

中心動差的計算方式類似 \(\mu=\mu_{1}^{\prime}\)

\begin{eqnarray*} \mu_{m}=E\left[\left(X-\mu\right)^{m}\right] & = & \sum_{k}\left(x_{k}-\mu\right)^{m}p\left(x_{k}\right)\\ & = & \sum_{k=0}^{m}\left(-1\right)^{m-k}\left(\begin{array}{c} m\\ k\end{array}\right)\mu^{m-k}\mu_{k}^{\prime}\end{eqnarray*}

平均數是第一個動差

\[\mu=\mu_{1}^{\prime}=E\left[X\right]=\sum_{k}x_{k}p\left(x_{k}\right)\]

變異數是第二個中心動差

\[\mu_{2}=E\left[\left(X-\mu\right)^{2}\right]=\sum_{x_{k}}x_{k}^{2}p\left(x_{k}\right)-\mu^{2}.\]

偏度定義為

\[\gamma_{1}=\frac{\mu_{3}}{\mu_{2}^{3/2}}\]

而(費雪)峰度為

\[\gamma_{2}=\frac{\mu_{4}}{\mu_{2}^{2}}-3,\]

因此常態分佈的峰度為零。

動差生成函數#

動差生成函數定義為

\[M_{X}\left(t\right)=E\left[e^{Xt}\right]=\sum_{x_{k}}e^{x_{k}t}p\left(x_{k}\right)\]

動差被發現為在 \(0.\) 處評估的動差生成函數的導數。

擬合資料#

為了將資料擬合到分佈,最大化概似函數是很常見的方法。或者,某些分佈具有眾所周知的最小變異數不偏估計量。這些將預設被選擇,但概似函數將始終可用於最小化。

如果 \(f_{i}\left(k;\boldsymbol{\theta}\right)\) 是隨機變數的 PDF,其中 \(\boldsymbol{\theta}\) 是參數向量(例如 \(L\)\(S\)),那麼對於來自此分佈的 \(N\) 個獨立樣本的集合,隨機向量 \(\mathbf{k}\) 的聯合分佈為

\[f\left(\mathbf{k};\boldsymbol{\theta}\right)=\prod_{i=1}^{N}f_{i}\left(k_{i};\boldsymbol{\theta}\right).\]

參數 \(\boldsymbol{\theta}\) 的最大概似估計是使此函數最大化的參數,其中 \(\mathbf{x}\) 固定並由資料給出

\begin{eqnarray*} \hat{\boldsymbol{\theta}} & = & \arg\max_{\boldsymbol{\theta}}f\left(\mathbf{k};\boldsymbol{\theta}\right)\\ & = & \arg\min_{\boldsymbol{\theta}}l_{\mathbf{k}}\left(\boldsymbol{\theta}\right).\end{eqnarray*}

其中

\begin{eqnarray*} l_{\mathbf{k}}\left(\boldsymbol{\theta}\right) & = & -\sum_{i=1}^{N}\log f\left(k_{i};\boldsymbol{\theta}\right)\\ & = & -N\overline{\log f\left(k_{i};\boldsymbol{\theta}\right)}\end{eqnarray*}

平均數的標準符號#

我們將使用

\[\overline{y\left(\mathbf{x}\right)}=\frac{1}{N}\sum_{i=1}^{N}y\left(x_{i}\right)\]

其中 \(N\) 應從上下文中清楚得知。

組合#

請注意

\[k!=k\cdot\left(k-1\right)\cdot\left(k-2\right)\cdot\cdots\cdot1=\Gamma\left(k+1\right)\]

並且具有以下特殊情況

\begin{eqnarray*} 0! & \equiv & 1\\ k! & \equiv & 0\quad k<0\end{eqnarray*}

\[\begin{split}\left(\begin{array}{c} n\\ k\end{array}\right)=\frac{n!}{\left(n-k\right)!k!}.\end{split}\]

如果 \(n<0\)\(k<0\)\(k>n\),我們定義 \(\left(\begin{array}{c} n\\ k\end{array}\right)=0\)

scipy.stats 中的離散分佈#