ttest_1samp#
- scipy.stats.ttest_1samp(a, popmean, axis=0, nan_policy='propagate', alternative='two-sided', *, keepdims=False)[source]#
計算單組分數平均值的 T 檢定。
此檢定用於檢驗虛無假設,即獨立觀察樣本 a 的期望值(平均值)等於給定的母體平均值 popmean。
- 參數:
- aarray_like
樣本觀察值。
- popmeanfloat or array_like
虛無假設中的期望值。 如果是 array_like,則其沿 axis 的長度必須等於 1,並且在其他方面必須可與 a 進行廣播。
- axisint or None, default: 0
如果為整數,則為計算統計量的輸入軸。 輸入的每個軸切片(例如,行)的統計量將出現在輸出的相應元素中。 如果為
None
,則會在計算統計量之前將輸入展平。- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定義如何處理輸入的 NaN。
propagate
: 如果在計算統計量的軸切片(例如,行)中存在 NaN,則輸出的相應條目將為 NaN。omit
: 在執行計算時將省略 NaN。 如果在計算統計量的軸切片中剩餘的資料不足,則輸出的相應條目將為 NaN。raise
: 如果存在 NaN,將引發ValueError
。
- alternative{‘two-sided’, ‘less’, ‘greater’}, optional
定義對立假設。 以下選項可用(預設為 ‘two-sided’)
‘two-sided’:樣本底層分佈的平均值與給定的母體平均值 (popmean) 不同
‘less’:樣本底層分佈的平均值小於給定的母體平均值 (popmean)
‘greater’:樣本底層分佈的平均值大於給定的母體平均值 (popmean)
- keepdimsbool, default: False
如果設定為 True,則縮減的軸將保留在結果中,作為大小為一的維度。 使用此選項,結果將針對輸入陣列正確廣播。
- 回傳值:
- result
TtestResult
具有以下屬性的物件
- statisticfloat or array
t 統計量。
- pvaluefloat or array
與給定對立假設相關聯的 p 值。
- dffloat or array
用於計算 t 統計量的自由度數量; 這比樣本大小 (
a.shape[axis]
) 少一。在版本 1.10.0 中新增。
該物件還具有以下方法
- confidence_interval(confidence_level=0.95)
針對給定的信賴水準,計算母體平均值周圍的信賴區間。 信賴區間在具有欄位 low 和 high 的
namedtuple
中回傳。在版本 1.10.0 中新增。
- result
註解
統計量計算為
(np.mean(a) - popmean)/se
,其中se
是標準誤。 因此,當樣本平均值大於母體平均值時,統計量將為正,而當樣本平均值小於母體平均值時,統計量將為負。從 SciPy 1.9 開始,
np.matrix
輸入(不建議用於新程式碼)在執行計算之前會轉換為np.ndarray
。 在這種情況下,輸出將是純量或適當形狀的np.ndarray
,而不是 2Dnp.matrix
。 同樣地,雖然會忽略遮罩陣列的遮罩元素,但輸出將是純量或np.ndarray
,而不是mask=False
的遮罩陣列。範例
假設我們希望檢驗母體平均值等於 0.5 的虛無假設。 我們選擇 99% 的信賴水準; 也就是說,如果 p 值小於 0.01,我們將拒絕虛無假設,轉而支持對立假設。
當檢驗來自標準均勻分佈的隨機變量(其平均值為 0.5)時,我們預期資料在大多數時間都與虛無假設一致。
>>> import numpy as np >>> from scipy import stats >>> rng = np.random.default_rng() >>> rvs = stats.uniform.rvs(size=50, random_state=rng) >>> stats.ttest_1samp(rvs, popmean=0.5) TtestResult(statistic=2.456308468440, pvalue=0.017628209047638, df=49)
正如預期的,p 值 0.017 不低於我們的閾值 0.01,因此我們無法拒絕虛無假設。
當檢驗來自標準常態分佈(其平均值為 0)的資料時,我們預期虛無假設會被拒絕。
>>> rvs = stats.norm.rvs(size=50, random_state=rng) >>> stats.ttest_1samp(rvs, popmean=0.5) TtestResult(statistic=-7.433605518875, pvalue=1.416760157221e-09, df=49)
事實上,p 值低於我們的閾值 0.01,因此我們拒絕虛無假設,轉而支持預設的「雙尾」對立假設:母體平均值不等於 0.5。
但是,假設我們要針對單尾對立假設(母體平均值大於 0.5)檢驗虛無假設。 由於標準常態分佈的平均值小於 0.5,因此我們預期虛無假設不會被拒絕。
>>> stats.ttest_1samp(rvs, popmean=0.5, alternative='greater') TtestResult(statistic=-7.433605518875, pvalue=0.99999999929, df=49)
不足為奇的是,由於 p 值大於我們的閾值,因此我們不會拒絕虛無假設。
請注意,當使用 99% 的信賴水準時,真實的虛無假設大約有 1% 的時間會被拒絕。
>>> rvs = stats.uniform.rvs(size=(100, 50), random_state=rng) >>> res = stats.ttest_1samp(rvs, popmean=0.5, axis=1) >>> np.sum(res.pvalue < 0.01) 1
事實上,即使上面所有 100 個樣本都是從標準均勻分佈中抽取的,而該分佈確實具有 0.5 的母體平均值,我們仍然會錯誤地拒絕其中一個樣本的虛無假設。
ttest_1samp
也可以計算母體平均值周圍的信賴區間。>>> rvs = stats.norm.rvs(size=50, random_state=rng) >>> res = stats.ttest_1samp(rvs, popmean=0) >>> ci = res.confidence_interval(confidence_level=0.95) >>> ci ConfidenceInterval(low=-0.3193887540880017, high=0.2898583388980972)
95% 信賴區間的界限是參數 popmean 的最小值和最大值,對於這些值,檢定的 p 值將為 0.05。
>>> res = stats.ttest_1samp(rvs, popmean=ci.low) >>> np.testing.assert_allclose(res.pvalue, 0.05) >>> res = stats.ttest_1samp(rvs, popmean=ci.high) >>> np.testing.assert_allclose(res.pvalue, 0.05)
在對樣本抽取的母體做出某些假設的情況下,預期信賴水準為 95% 的信賴區間在 95% 的樣本重複中包含真實的母體平均值。
>>> rvs = stats.norm.rvs(size=(50, 1000), loc=1, random_state=rng) >>> res = stats.ttest_1samp(rvs, popmean=0) >>> ci = res.confidence_interval() >>> contains_pop_mean = (ci.low < 1) & (ci.high > 1) >>> contains_pop_mean.sum() 953