兩組變異數相同獨立樣本t檢定 (t Test for Two-Samples with Equal Variances)
套路11: 兩組變異數相同獨立樣本t檢定
(t
Test for Two-Samples with Equal Variances)
什麼是兩組獨立樣本假設檢定? 說白了就是兩組分別獨立取樣的資料做比較的假設檢定。統計假設檢定檢定什麼?看H0。例如兩組獨立樣本假設檢定H0 : μ1
= μ2,HA : μ1
¹ μ2是檢定兩組資料的平均值是否相同。又例如兩組獨立樣本假設檢定H0 : μ1
< μ2,HA : μ1
³ μ2是檢定第一組資料的平均值是否小於第二組資料的平均值。假設相等時為雙尾 (two-tailed test) 檢定。假設不相等時為單尾 (one-tailed test) 檢定。如下圖所示:
1. 使用時機: 用於比較觀測到的兩組變異數相同資料平均值(mean)。大樣本用Z檢定小樣本用t檢定。
2. 分析類型: 母數分析(parametric analysis)。直接使用資料數值算統計叫parametric方法,把資料排序之後用排序的名次算統計叫non-parametric方法。
3. 前提假設: 兩組資料均為常態分布(normal distribution)或接近常態分布且有相同變異數(variance)。
4. 資料範例: 咪路調查高一和大一學生體重(kg),資料如下:
高一
|
41
|
35
|
33
|
36
|
40
|
46
|
31
|
37
|
34
|
30
|
38
|
大一
|
52
|
57
|
62
|
55
|
64
|
57
|
56
|
55
|
60
|
59
|
|
請問高一和大一學生平均體重是否相同? H0: m1 = m2,HA: m1 ≠ m2。
5. 輸入建立資料:
第一步: 用小c將資料放入名稱為h1及u1的vector (R最基本資料結構)。用rep函數產生與資料相同
數目的(11及10個)大寫H及U放入名稱為h2及u2的vector,再組合成名稱為dat的data frame。
h1
<- c(41, 35, 33, 36, 40, 46, 31, 37, 34, 30, 38)
u1 <- c(52, 57, 62,
55, 64, 57, 56, 55, 60, 59)
h2 <-
rep("H", 11)
u2 <-
rep("U", 10)
Weight <- c(h1, u1)
School <- c(h2, u2)
dat <-
data.frame(Weight, School)
6. 畫圖看資料分布:
第一步: 安裝ggplot2程式套件。
第二步: 呼叫ggplot2程式套件備用。
library(ggplot2)
第三步: 畫圖。
ggplot(dat, aes(x = School,
y = Weight)) +
geom_boxplot(color = "red")+
geom_jitter(position = position_jitter(0.05))
# 同時畫x-y散布(黑色點)圖及盒圖(紅色box plot)。
# ggplot2程式套件geom_jitter函數讓重疊(數值相同)的資料點錯開,避免誤判。
7. 檢查資料是否為常態分布:
第一步: 閱讀基本模組(base)中shapiro.test函數的說明書。
help(shapiro.test)
第二步: 使用基本模組(base)中shapiro.test函數檢查h1及u1中資料是否為常態分布。
shapiro.test(h1)
shapiro.test(u1)
第三步: 判讀結果。
Shapiro-Wilk normality test
data: h1
W = 0.97057, p-value = 0.8922
Shapiro-Wilk normality test
data: u1
W = 0.97281, p-value = 0.9156
# p-value > 0.05,資料符合常態分布。
# p-value < 0.05,資料不符合常態分布。
8. 檢查兩組資料是否為相同變異數(H0:
s21 = s22,HA: s21 ≠s22):
第一步: 閱讀基本模組(base)中var.test函數的說明書。
help(var.test)
第二步: 使用基本模組(base)中var.test函數帶入h1及u1中資料。
var.test(h1, u1, ratio = 1, alternative =
"two.sided")
# ratio = 1,H0: s21 = s22。
第三步: 判讀結果。
F test to compare two variances
data: h1 and u1
F = 1.6956, num df = 10, denom df = 9, p-value = 0.4401
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.4277543 6.4074588
sample estimates: ratio of
variances 1.69556
# p-value > 0.05,H0: s21 = s22成立,資料相同變異數。
# p-value < 0.05,H0: s21 = s22不成立,資料不同變異數。
9. 使用R計算兩組相同變異數樣本t檢定:
第一步: 閱讀基本模組(base)中的t.test函數的使用說明。
help(t.test)
第二步: 使用stats程式套件的t.test函數代入資料數值。
t.test(h1, u1,
alternative = "two.sided", paired = FALSE, var.equal = TRUE)
# var.equal = TRUE資料相同變異數。
# paired = FALSE不是成對資料t檢定。
# alternative =
"two.sided" 執行雙尾檢定。
# 如果要檢定: H0: m1 ≥ m2,HA: m1 < m2或H0: m1 > m2,HA: m1 ≤ m2,alternative = "less"。
# 如果要檢定: H0: m1 ≤ m2,HA: m1 > m2或H0: m1 < m2,HA: m1 ≥ m2,alternative = "greater"。
第三步: 判讀結果。
Two Sample t-test
data: h1 and u1
t = -11.583, df = 19, p-value = 4.698e-10
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-25.08448 -17.40643
sample estimates: mean of x
mean of y 36.45455 57.70000
# p-value < 0.05,H0: m1 = m2不成立。
# p-value > 0.05,H0: m1 = m2成立。
來勁了嗎? 想知道更多?? 補充資料(連結):
1. William Sealy Gosset (https://en.wikipedia.org/wiki/William_Sealy_Gosset)
2. Student's t-test (https://en.wikipedia.org/wiki/Student%27s_t-test)
3. Statistical hypothesis testing (https://en.wikipedia.org/wiki/Statistical_hypothesis_testing)
4. Test statistic (https://en.wikipedia.org/wiki/Test_statistic)
5. 關於R基礎,R繪圖及統計快速入門:
a. R Tutorial: https://www.tutorialspoint.com/r/index.htm
b. Cookbook for R: http://www.cookbook-r.com/
c. Quick-R: https://www.statmethods.net/
d. Statistical tools
for high-throughput data analysis (STHDA): http://www.sthda.com/english/
e. The Handbook of Biological Statistics: http://www.biostathandbook.com/
f. An R Companion for the Handbook of
Biological Statistics: http://rcompanion.org/rcompanion/index.html
6. Zar, JH. 2010. Biostatistical Analysis, Fifth Edition,
Pearson.
留言
張貼留言