連續型統計分佈#
概述#
所有分佈都將具有位置 (L) 和尺度 (S) 參數,以及任何需要的形狀參數,形狀參數的名稱將會有所不同。將給出分佈的標準形式,其中 \(L=0.0\) 且 \(S=1.0.\) 可以使用各種函數獲得非標準形式(注意 \(U\) 是標準均勻隨機變數)。
函數名稱 |
標準函數 |
轉換 |
---|---|---|
累積分佈函數 (CDF) |
\(F\left(x\right)\) |
\(F\left(x;L,S\right)=F\left(\frac{\left(x-L\right)}{S}\right)\) |
機率密度函數 (PDF) |
\(f\left(x\right)=F^{\prime}\left(x\right)\) |
\(f\left(x;L,S\right)=\frac{1}{S}f\left(\frac{\left(x-L\right)}{S}\right)\) |
百分點函數 (PPF) |
\(G\left(q\right)=F^{-1}\left(q\right)\) |
\(G\left(q;L,S\right)=L+SG\left(q\right)\) |
機率稀疏函數 (PSF) |
\(g\left(q\right)=G^{\prime}\left(q\right)\) |
\(g\left(q;L,S\right)=Sg\left(q\right)\) |
風險函數 (HF) |
\(h_{a}\left(x\right)=\frac{f\left(x\right)}{1-F\left(x\right)}\) |
\(h_{a}\left(x;L,S\right)=\frac{1}{S}h_{a}\left(\frac{\left(x-L\right)}{S}\right)\) |
累積風險函數 (CHF) |
\(H_{a}\left(x\right)=\) \(\log\frac{1}{1-F\left(x\right)}\) |
\(H_{a}\left(x;L,S\right)=H_{a}\left(\frac{\left(x-L\right)}{S}\right)\) |
存活函數 (SF) |
\(S\left(x\right)=1-F\left(x\right)\) |
\(S\left(x;L,S\right)=S\left(\frac{\left(x-L\right)}{S}\right)\) |
反向存活函數 (ISF) |
\(Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\) |
\(Z\left(\alpha;L,S\right)=L+SZ\left(\alpha\right)\) |
動差生成函數 (MGF) |
\(M_{Y}\left(t\right)=E\left[e^{Yt}\right]\) |
\(M_{X}\left(t\right)=e^{Lt}M_{Y}\left(St\right)\) |
隨機變量 |
\(Y=G\left(U\right)\) |
\(X=L+SY\) |
(微分)熵 |
\(h\left[Y\right]=-\int f\left(y\right)\log f\left(y\right)dy\) |
\(h\left[X\right]=h\left[Y\right]+\log S\) |
(非中心)動差 |
\(\mu_{n}^{\prime}=E\left[Y^{n}\right]\) |
\(E\left[X^{n}\right]=L^{n}\sum_{k=0}^{N}\left(\begin{array}{c} n\\ k\end{array}\right)\left(\frac{S}{L}\right)^{k}\mu_{k}^{\prime}\) |
中心動差 |
\(\mu_{n}=E\left[\left(Y-\mu\right)^{n}\right]\) |
\(E\left[\left(X-\mu_{X}\right)^{n}\right]=S^{n}\mu_{n}\) |
平均值(眾數、中位數)、變異數 |
\(\mu,\,\mu_{2}\) |
\(L+S\mu,\, S^{2}\mu_{2}\) |
偏度 |
\(\gamma_{1}=\frac{\mu_{3}}{\left(\mu_{2}\right)^{3/2}}\) |
\(\gamma_{1}\) |
峰度 |
\(\gamma_{2}=\frac{\mu_{4}}{\left(\mu_{2}\right)^{2}}-3\) |
\(\gamma_{2}\) |
動差#
非中心動差是使用 PDF 定義的
請注意,這些始終可以使用 PPF 計算。在上述方程式中代入 \(x=G\left(q\right)\) 並得到
這可能更容易以數值方式計算。請注意,\(q=F\left(x\right)\) 因此 \(dq=f\left(x\right)dx.\) 中心動差的計算方式類似 \(\mu=\mu_{1}^{\prime}\)
特別是
偏度定義為
而(費雪)峰度為
因此常態分佈的峰度為零。
中位數和眾數#
中位數 \(m_{n}\) 定義為密度一半在一方,一半在另一方的點。換句話說,\(F\left(m_{n}\right)=\frac{1}{2}\) 因此
此外,眾數 \(m_{d}\) 定義為機率密度函數達到其峰值的值
擬合資料#
為了將資料擬合到分佈,最大化概似函數是很常見的方法。或者,某些分佈具有眾所周知的最小變異數不偏估計量。這些將預設選擇,但概似函數將始終可用於最小化。
如果 \(f\left(x;\boldsymbol{\theta}\right)\) 是隨機變數的 PDF,其中 \(\boldsymbol{\theta}\) 是參數向量(例如 \(L\) 和 \(S\) ),那麼對於來自此分佈的 \(N\) 個獨立樣本的集合,隨機向量 \(\mathbf{x}\) 的聯合分佈為
參數 \(\boldsymbol{\theta}\) 的最大概似估計量是使此函數最大化的參數,其中 \(\mathbf{x}\) 是固定的並由資料給定
其中
請注意,如果 \(\boldsymbol{\theta}\) 僅包含形狀參數,則可以透過在對數概似函數中將 \(x_{i}\) 替換為 \(\left(x_{i}-L\right)/S\) 、加入 \(N\log S\) 並最小化來擬合位置和尺度參數,因此
如果需要,可以使用平均值和變異數的樣本估計值,從 \(L\) 和 \(S\) 的樣本估計值(不一定是最大概似估計值)獲得
其中 \(\mu\) 和 \(\mu_{2}\) 假定為未轉換分佈(當 \(L=0\) 和 \(S=1\) 時)的平均值和變異數,且
平均值的標準符號#
我們將使用
其中 \(N\) 應從上下文中清楚得知,即樣本 \(x_{i}\) 的數量
參考文獻#
ranlib、rv2、cdflib 的文件
Eric Weisstein 的數學世界 http://mathworld.wolfram.com/, http://mathworld.wolfram.com/topics/StatisticalDistributions.html
Michael McLaughlin 的 Regress+ 項目工程與統計手冊 (NIST) 的文件,https://www.itl.nist.gov/div898/handbook/
NIST 的 DATAPLOT 文件,https://www.itl.nist.gov/div898/software/dataplot/distribu.htm
Norman Johnson、Samuel Kotz 和 N. Balakrishnan Continuous Univariate Distributions,第二版,第一卷和第二卷,Wiley & Sons,1994 年。
在教學課程中,幾個特殊函數重複出現,並在此處列出。
符號 |
描述 |
定義 |
---|---|---|
\(\gamma\left(s, x\right)\) |
下不完全伽瑪函數 |
\(\int_0^x t^{s-1} e^{-t} dt\) |
\(\Gamma\left(s, x\right)\) |
上不完全伽瑪函數 |
\(\int_x^\infty t^{s-1} e^{-t} dt\) |
\(B\left(x;a,b\right)\) |
不完全貝塔函數 |
\(\int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\) |
\(I\left(x;a,b\right)\) |
正規化不完全貝塔函數 |
\(\frac{\Gamma\left(a+b\right)}{\Gamma\left(a\right)\Gamma\left(b\right)} \int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\) |
\(\phi\left(x\right)\) |
常態分佈的 PDF |
\(\frac{1}{\sqrt{2\pi}}e^{-x^{2}/2}\) |
\(\Phi\left(x\right)\) |
常態分佈的 CDF |
\(\int_{-\infty}^{x}\phi\left(t\right) dt = \frac{1}{2}+\frac{1}{2}\mathrm{erf}\left(\frac{x}{\sqrt{2}}\right)\) |
\(\psi\left(z\right)\) |
雙伽瑪函數 |
\(\frac{d}{dz} \log\left(\Gamma\left(z\right)\right)\) |
\(\psi_{n}\left(z\right)\) |
多伽瑪函數 |
\(\frac{d^{n+1}}{dz^{n+1}}\log\left(\Gamma\left(z\right)\right)\) |
\(I_{\nu}\left(y\right)\) |
第一類修正貝索函數 |
|
\(\mathrm{Ei}(\mathrm{z})\) |
指數積分 |
\(-\int_{-x}^\infty \frac{e^{-t}}{t} dt\) |
\(\zeta\left(n\right)\) |
黎曼 zeta 函數 |
\(\sum_{k=1}^{\infty} \frac{1}{k^{n}}\) |
\(\zeta\left(n,z\right)\) |
赫維茲 zeta 函數 |
\(\sum_{k=0}^{\infty} \frac{1}{\left(k+z\right)^{n}}\) |
\(\,{}_{p}F_{q}(a_{1},\ldots,a_{p};b_{1},\ldots,b_{q};z)\) |
超幾何函數 |
\(\sum_{n=0}^{\infty} {\frac{(a_{1})_{n}\cdots(a_{p})_{n}}{(b_{1})_{n}\cdots(b_{q})_{n}}} \,{\frac{z^{n}}{n!}}\) |
scipy.stats
中的連續型分佈#
- Alpha 分佈
- Anglit 分佈
- Arcsine 分佈
- Beta 分佈
- Beta 質數分佈
- Bradford 分佈
- Burr 分佈
- Burr12 分佈
- 柯西分佈
- 偏斜柯西分佈
- 卡方分佈
- 卡方分佈
- 餘弦分佈
- 雙伽瑪分佈
- 雙帕雷托對數常態分佈
- 雙韋伯分佈
- 厄蘭分佈
- 指數分佈
- 指數化韋伯分佈
- 指數冪分佈
- 疲勞壽命(Birnbaum-Saunders)分佈
- Fisk(對數邏輯)分佈
- 摺疊柯西分佈
- 摺疊常態分佈
- F 比率(或 F)分佈
- 伽瑪分佈
- 廣義邏輯分佈
- 廣義帕雷托分佈
- 廣義指數分佈
- 廣義極值分佈
- 廣義伽瑪分佈
- 廣義半邏輯分佈
- 廣義雙曲分佈
- 廣義反高斯分佈
- 廣義常態分佈
- 吉布拉特分佈
- Gompertz(截斷耿貝爾)分佈
- 耿貝爾(LogWeibull、Fisher-Tippetts、Type I 極值)分佈
- 耿貝爾左偏(用於最小值統計)分佈
- 半柯西分佈
- 半常態分佈
- 半邏輯分佈
- 雙曲正割分佈
- 高斯超幾何分佈
- 反向伽瑪分佈
- 反常態(反高斯)分佈
- 反向韋伯分佈
- Jones 和 Faddy 偏斜 T 分佈
- Johnson SB 分佈
- Johnson SU 分佈
- KSone 分佈
- KStwo 分佈
- KStwobign 分佈
- 朗道分佈
- 拉普拉斯(雙指數、雙邊指數)分佈
- 非對稱拉普拉斯分佈
- 左偏雷維分佈
- 雷維分佈
- 邏輯(雙曲正割平方)分佈
- 對數雙指數(對數拉普拉斯)分佈
- 對數伽瑪分佈
- 對數常態(考布-道格拉斯)分佈
- 對數均勻分佈
- 麥克斯韋分佈
- 米爾克貝塔-卡帕分佈
- 中上彌分佈
- 非中心卡方分佈
- 非中心 F 分佈
- 非中心 t 分佈
- 常態分佈
- 常態反高斯分佈
- 帕雷托分佈
- 帕雷托第二類(洛馬克斯)分佈
- 冪對數常態分佈
- 冪常態分佈
- 冪函數分佈
- R 分佈
- 瑞利分佈
- 萊斯分佈
- 倒數反高斯分佈
- 相對論布雷特-維格納分佈
- 半圓分佈
- 學生化範圍分佈
- 學生 t 分佈
- 梯形分佈
- 三角形分佈
- 截斷指數分佈
- 截斷常態分佈
- 截斷帕雷托分佈
- 截斷韋伯最小值極值分佈
- 圖基-蘭姆達分佈
- 均勻分佈
- 馮·米塞斯分佈
- 瓦爾德分佈
- 韋伯最大值極值分佈
- 韋伯最小值極值分佈
- 包裹柯西分佈