scipy.stats.

偏度#

scipy.stats.skew(a, axis=0, bias=True, nan_policy='propagate', *, keepdims=False)[source]#

計算資料集的樣本偏度。

對於常態分佈的資料,偏度應該接近於零。對於單峰連續分佈,偏度值大於零表示分佈的右尾權重較大。函數 skewtest 可以用於判斷偏度值在統計學上是否足夠接近於零。

參數:
andarray

輸入陣列。

axisint 或 None,預設值:0

如果是整數,則為計算統計量的輸入軸。輸入的每個軸切片(例如,行)的統計量將出現在輸出的相應元素中。如果為 None,則在計算統計量之前將輸入展平。

biasbool,選用

如果為 False,則計算結果會針對統計偏差進行修正。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定義如何處理輸入的 NaN 值。

  • propagate:如果軸切片(例如,行)中存在 NaN 值,且沿著該軸切片計算統計量,則輸出的相應條目將為 NaN。

  • omit:執行計算時將省略 NaN 值。如果沿著該軸切片計算統計量的軸切片中剩餘的資料不足,則輸出的相應條目將為 NaN。

  • raise:如果存在 NaN 值,將會引發 ValueError

keepdimsbool,預設值:False

如果設定為 True,則縮減的軸將保留在結果中,作為大小為一的維度。使用此選項,結果將針對輸入陣列正確廣播。

回傳值:
skewnessndarray

沿軸的值的偏度,在所有值都相等時回傳 NaN。

註解

樣本偏度計算為 Fisher-Pearson 偏度係數,即:

\[g_1=\frac{m_3}{m_2^{3/2}}\]

其中

\[m_i=\frac{1}{N}\sum_{n=1}^N(x[n]-\bar{x})^i\]

是有偏樣本的第 \(i\texttt{th}\) 中心動差,而 \(\bar{x}\) 是樣本平均值。如果 bias 為 False,則計算結果會針對偏差進行修正,且計算出的值是調整後的 Fisher-Pearson 標準化動差係數,即:

\[G_1=\frac{k_3}{k_2^{3/2}}= \frac{\sqrt{N(N-1)}}{N-2}\frac{m_3}{m_2^{3/2}}.\]

從 SciPy 1.9 開始,np.matrix 輸入(不建議用於新程式碼)會在執行計算之前轉換為 np.ndarray。在這種情況下,輸出將是純量或形狀適當的 np.ndarray,而不是 2D np.matrix。同樣地,雖然會忽略遮罩陣列的遮罩元素,但輸出將是純量或 np.ndarray,而不是 mask=False 的遮罩陣列。

參考文獻

[1]

Zwillinger, D. 和 Kokoska, S. (2000)。CRC Standard Probability and Statistics Tables and Formulae。Chapman & Hall: New York。2000。Section 2.2.24.1

範例

>>> from scipy.stats import skew
>>> skew([1, 2, 3, 4, 5])
0.0
>>> skew([2, 8, 0, 4, 1, 9, 9, 0])
0.2650554122698573