概觀
離散隨機變數僅取可數數量的數值。常用的分佈包含在 SciPy 中,並於此文件中說明。每個離散分佈可以接受一個額外的整數參數:\(L.\) 一般分佈 \(p\) 和標準分佈 \(p_{0}\) 之間的關係為
\[p\left(x\right) = p_{0}\left(x-L\right)\]
允許輸入的平移。當初始化分佈產生器時,離散分佈可以指定開始和結束(整數)值 \(a\) 和 \(b\),它們必須滿足
\[p_{0}\left(x\right) = 0\quad x < a \textrm{ 或 } x > b\]
在這種情況下,假設 pdf 函數在整數 \(a+mk\leq b\) 上指定,其中 \(k\) 是一個非負整數(\(0,1,2,\ldots\))而 \(m\) 是一個正整數乘數。或者,可以直接提供兩個列表 \(x_{k}\) 和 \(p\left(x_{k}\right)\),在這種情況下,將在內部設置一個字典以評估機率並產生隨機變數。
機率質量函數 (PMF)
隨機變數 X 的機率質量函數定義為隨機變數取特定值的機率。
\[p\left(x_{k}\right)=P\left[X=x_{k}\right]\]
這有時也稱為機率密度函數,雖然技術上
\[f\left(x\right)=\sum_{k}p\left(x_{k}\right)\delta\left(x-x_{k}\right)\]
是離散分佈的機率密度函數 。
累積分布函數 (CDF)
累積分布函數為
\[F\left(x\right)=P\left[X\leq x\right]=\sum_{x_{k}\leq x}p\left(x_{k}\right)\]
並且能夠計算也很有用。請注意
\[F\left(x_{k}\right)-F\left(x_{k-1}\right)=p\left(x_{k}\right)\]
存活函數
存活函數僅為
\[S\left(x\right)=1-F\left(x\right)=P\left[X>k\right]\]
隨機變數嚴格大於 \(k\) 的機率。
百分點函數(反向 CDF)
百分點函數是累積分布函數的反函數,為
\[G\left(q\right)=F^{-1}\left(q\right)\]
對於離散分佈,這必須針對沒有 \(x_{k}\) 使得 \(F\left(x_{k}\right)=q.\) 的情況進行修改。在這些情況下,我們選擇 \(G\left(q\right)\) 作為最小的值 \(x_{k}=G\left(q\right)\),對於該值,\(F\left(x_{k}\right)\geq q\)。如果 \(q=0\),那麼我們定義 \(G\left(0\right)=a-1\)。此定義允許以與連續 rv 相同的方式定義隨機變數,使用均勻分佈上的反向 cdf 來產生隨機變數。
反向存活函數
反向存活函數是存活函數的反函數
\[Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\]
因此,它是最小的非負整數 \(k\),使得 \(F\left(k\right)\geq1-\alpha\),或是最小的非負整數 \(k\),使得 \(S\left(k\right)\leq\alpha.\)
風險函數
如果需要,風險函數和累積風險函數可以定義為
\[h\left(x_{k}\right)=\frac{p\left(x_{k}\right)}{1-F\left(x_{k}\right)}\]
和
\[H\left(x\right)=\sum_{x_{k}\leq x}h\left(x_{k}\right)=\sum_{x_{k}\leq x}\frac{F\left(x_{k}\right)-F\left(x_{k-1}\right)}{1-F\left(x_{k}\right)}.\]
動差
非中心動差使用 PDF 定義
\[\mu_{m}^{\prime}=E\left[X^{m}\right]=\sum_{k}x_{k}^{m}p\left(x_{k}\right).\]
中心動差的計算方式類似 \(\mu=\mu_{1}^{\prime}\)
\begin{eqnarray*} \mu_{m}=E\left[\left(X-\mu\right)^{m}\right] & = & \sum_{k}\left(x_{k}-\mu\right)^{m}p\left(x_{k}\right)\\ & = & \sum_{k=0}^{m}\left(-1\right)^{m-k}\left(\begin{array}{c} m\\ k\end{array}\right)\mu^{m-k}\mu_{k}^{\prime}\end{eqnarray*}
平均數是第一個動差
\[\mu=\mu_{1}^{\prime}=E\left[X\right]=\sum_{k}x_{k}p\left(x_{k}\right)\]
變異數是第二個中心動差
\[\mu_{2}=E\left[\left(X-\mu\right)^{2}\right]=\sum_{x_{k}}x_{k}^{2}p\left(x_{k}\right)-\mu^{2}.\]
偏度定義為
\[\gamma_{1}=\frac{\mu_{3}}{\mu_{2}^{3/2}}\]
而(費雪)峰度為
\[\gamma_{2}=\frac{\mu_{4}}{\mu_{2}^{2}}-3,\]
因此常態分佈的峰度為零。
動差生成函數
動差生成函數定義為
\[M_{X}\left(t\right)=E\left[e^{Xt}\right]=\sum_{x_{k}}e^{x_{k}t}p\left(x_{k}\right)\]
動差被發現為在 \(0.\) 處評估的動差生成函數的導數。
擬合資料
為了將資料擬合到分佈,最大化概似函數是很常見的方法。或者,某些分佈具有眾所周知的最小變異數不偏估計量。這些將預設被選擇,但概似函數將始終可用於最小化。
如果 \(f_{i}\left(k;\boldsymbol{\theta}\right)\) 是隨機變數的 PDF,其中 \(\boldsymbol{\theta}\) 是參數向量(例如 \(L\) 和 \(S\)),那麼對於來自此分佈的 \(N\) 個獨立樣本的集合,隨機向量 \(\mathbf{k}\) 的聯合分佈為
\[f\left(\mathbf{k};\boldsymbol{\theta}\right)=\prod_{i=1}^{N}f_{i}\left(k_{i};\boldsymbol{\theta}\right).\]
參數 \(\boldsymbol{\theta}\) 的最大概似估計是使此函數最大化的參數,其中 \(\mathbf{x}\) 固定並由資料給出
\begin{eqnarray*} \hat{\boldsymbol{\theta}} & = & \arg\max_{\boldsymbol{\theta}}f\left(\mathbf{k};\boldsymbol{\theta}\right)\\ & = & \arg\min_{\boldsymbol{\theta}}l_{\mathbf{k}}\left(\boldsymbol{\theta}\right).\end{eqnarray*}
其中
\begin{eqnarray*} l_{\mathbf{k}}\left(\boldsymbol{\theta}\right) & = & -\sum_{i=1}^{N}\log f\left(k_{i};\boldsymbol{\theta}\right)\\ & = & -N\overline{\log f\left(k_{i};\boldsymbol{\theta}\right)}\end{eqnarray*}
平均數的標準符號
我們將使用
\[\overline{y\left(\mathbf{x}\right)}=\frac{1}{N}\sum_{i=1}^{N}y\left(x_{i}\right)\]
其中 \(N\) 應從上下文中清楚得知。
組合
請注意
\[k!=k\cdot\left(k-1\right)\cdot\left(k-2\right)\cdot\cdots\cdot1=\Gamma\left(k+1\right)\]
並且具有以下特殊情況
\begin{eqnarray*} 0! & \equiv & 1\\ k! & \equiv & 0\quad k<0\end{eqnarray*}
和
\[\begin{split}\left(\begin{array}{c} n\\ k\end{array}\right)=\frac{n!}{\left(n-k\right)!k!}.\end{split}\]
如果 \(n<0\) 或 \(k<0\) 或 \(k>n\),我們定義 \(\left(\begin{array}{c} n\\ k\end{array}\right)=0\)