Documentos de Académico
Documentos de Profesional
Documentos de Cultura
鄭惟厚教授/淡江大學數學系
抽樣調查是觀測研究當中很重要的一種,它是從某個特定母體中抽取樣本,然後從樣本
中擷取關於整個母體的資訊。如此從小推大、從樣本推母體,屬於推論統計(inferential
statistics)的範疇。
推論做得好不好,和樣本好壞有極大的關係。
好樣本的例子:簡單隨機樣本(比如樂透彩的號碼,任何一組六個號碼被抽中的機率都
相同)
壞樣本的例子:方便樣本(我想知道一般大眾對某議題的意見,但是為了方便,我只問
了我手機通訊錄當中每一個人的意見)
自發性回應樣本(比如扣應,樣本不是被抽中的,而是自己主動加入的)
這裡的重點是:一定要用隨機樣本,不僅僅是因為隨機樣本才有代表性,也是因為從樣
本推母體背後的依據也必須植基在隨機樣本的假設之上,如果不是隨機樣本,則母體和
樣本之間的關係就很不清楚了。
抽樣調查當中大家最熟悉的一種就是民意調查了,而民調的結果要如何解讀呢?
比如說,如果在縣市長選舉之前,一項對北部某縣兩大候選人支持度所做民調結果
告訴我們說:
有37%選民支持甲候選人,23%支持乙候選人;在95%信心水準下,抽樣誤差在正負
三點一個百分點以內。這是什麼意思呢?意思是說,我們有95%信心,支持甲的選
的數字是分別用37%和23%加減3.1%得來的,而這兩個範圍,就是我們要討論的信
賴區間(confidence interval)。
有了信賴區間,還是有很多問題要問,比如說「95%信心」確實是什麼意思?從樣
本(受訪的選民)得到的結果(37%, 23%),又怎樣可以代表母體(該縣全體選民)
呢?以下就用一個例子來做詳細說明。
信賴區間
例一:詐騙電話
-11-
假設我們想知道全台灣成年人當中,有多少百分比接到過詐騙電話。我們沒法子問
到全台灣的成年人,因此只能抽樣本來做調查,抽樣調查的目的,就是要根據樣本
的數據來對母體做結論。民國93年4月,聯合報就做了這樣一項調查,得到的結果
是:
「過去一年來,高達六成七受訪者表示曾親自接到詐騙電話。」另外還有:
「調
查於四月十九日至四月二十日進行,成功訪問了九百一十二位成年民眾,…;在百
分之九十五的信心水準下,抽樣誤差在正負三點二個百分點以內。調查是以台灣地
區住宅電話為母體作尾數兩位隨機抽樣。」(見93年4月22日聯合報)
我們來探討一下這項報導的內容應如何解讀。
在這項調查以及許多其他問題當中我們所想要知道的,是用來描述母體的一個數
(例如百分比或平均數),這樣一個描述母體的數叫做參數(parameter),在上面
的例子中,就是全台灣成年人當中、接到過詐騙電話的百分比,我們通常用p這個
符號來表示這樣的一個母體比例,p代表proportion。母體通常很大、無法掌握,所
以若要估計母體參數,我們可以從母體取一個樣本(用隨機方式),並利用從樣本
算出的某個統計量(statistic)的值來當做我們的估計。統計量是樣本的函數,一
旦取得樣本、統計量的值就可以算得出來。在上面的例子中,統計量就是樣本比例
(sample proportion),也就是受訪民眾中、接到過詐騙電話的比例,它的值也就是
報導中的67%。母體比例(全台灣成年人當中、接到過詐騙電話的百分比)也會是
67%嗎?通常是不會,因為我們知道樣本結果通常不會和母體的真正比例一模一
樣。我們只能說,全台灣成年人當中、接到過詐騙電話的百分比,
「大約」是67%。
而信賴區間把這個「大約」具體化了。
95%信賴區間
95%信賴區間是從樣本數據計算出來的一個區間,保證在所有樣本當中,有95%會
把真正的母體參數包含在區間之中。
什麼意思呢?把例一中的67%分別加減報導中提到的抽樣誤差3.2%,所得到的區間
95%的確實意義是這樣的:如果我們重新抽一個同樣大小的樣本(912人),樣本中
-12-
接到過詐騙電話的百分比還會是67%嗎?多半不會,因為樣本的組成份子會改變,
我們假設這次得到的樣本比例是69.5%好了,加減3.2%就得到(.663, .727);如果再
重抽一次,假設得到65%,區間就變成(.618, .682)
;假設我們如此這般一直重複下
去,得到無數的區間,則在這些區間當中,有95%會把真正的母體比例,也就是p
(全台灣成年人當中、接到過詐騙電話的百分比),包含在區間裡面。民調實際得
事實的話,代表真正的 p就介於.638和.702之間。如果運氣不好,這個區間正好屬
要真正了解信賴區間,必須對它的背景有所認識,現在來介紹信賴區間背後的依據。
信賴區間的背景知識
假設我們要估計母體成員中擁有某種特質的比例 p ,這個特質可能是指贊成某議
題,或者如果母體是某家工廠生產的所有零件時,這個特質就可能是指瑕疵品。
我們把正在考慮的這個特質叫做「成功」。
我們用簡單隨機樣本的成功比例 p̂ ,來估計母體的成功比例 p:
p̂ =樣本中的成功計數/樣本大小
多多樣本,會發生什麼情況?」
首先我們知道, p̂ 的值會隨著樣本而變,每一次抽樣之前,都不可能預知結果;然
而長期下來,如果我們把所有 p̂ 的值放在一起考慮的話(比如說畫一個直方圖),
它會有很清楚的型態,用常態曲線可以把這個型態描繪得相當接近。(參考附圖,
出處:《統計學的世界》)
什麼是常態曲線
直方圖可以用來描述數值變數的分布。密度曲線是另一種圖,但也做同樣用途。密
度曲線底下的面積必定是1,而曲線的形狀可以描述一個分布的整體型態。曲線底
下的面積,代表觀測值會落在對應的區間內的比例。用目測法可以找到密度曲線的
中位數(等面積點)及平均數(平衡點)的大致位置。
常態曲線是一族特別的密度曲線,適合用來描述某些種類數據的整體型態。常態曲
-13-
線是對稱的鐘形(也可說是丘型)。任何特定的常態曲線都可以完全由它的平均數
和標準差來決定。所有常態分布都遵循68-95-99.7規則。
68-95-99.7規則
在任何常態分布當中,大約有
68%的觀測值會落在距平均數一個標準差的範圍內。
95%的觀測值會落在距平均數二個標準差的範圍內。
99.7%的觀測值會落在距平均數三個標準差的範圍內。
樣本比例之抽樣分布
一個統計量的抽樣分布,是指同一母體所抽出,同樣大小的所有可能樣本,其統計
量的值之分布。
從一個成功比例為 p 的很大母體抽取一個大小為n的SRS(簡單隨機樣本)。用 p̂ 表
示成功的樣本比例:
p̂ =樣本中的成功計數/n
則當樣本夠大時:
‧ p̂ 的分布為近似常態(approximately normal)。
‧抽樣分布的平均數和 p 相等。
p(1 − p )
‧抽樣分布的標準差是
n
抽樣分布描述的是從同一母體抽出的許多樣本之結果。上述結果是有名的中央極限
可以找得到。
加減兩個標準差範圍內,用不等式表示就是:
p(1 − p )
︱ p̂ -p︱<2
n
但是絕對值裡面的兩項可以掉換位置,所以我們也可以說:
當母體比例的值為p時,有95%的樣本,其所得 p̂ 值往左右各延伸2個標準差所得到
-14-
的區間,會把p值包含進去,也就是說有95%的機會,p會落在下面的區間當中
p(1 − p )
p̂ ±2
n
本來這已可當作信賴區間了,只是還有一個傷腦筋的問題,就是我們不知道 p 的值是
多少,當初不就是因為沒法知道 p 的值,才需要大費周章想辦法估計它的嗎?幸好還
的 p 值合理靠近真正 p 值的話,用猜測的值算出來的標準差就會大致正確。如此我們可
以得到以下結果(當然是經過嚴謹的証明得到的)
:
比例之95%信賴區間
從一個成功佔未知比例 p 的大母體抽取一個大小為n的簡單隨機樣本。把這個樣本
pˆ (1 − pˆ )
p̂ ± 2
n
這個結果的意思是說,我們每抽一次樣本(樣本大小為n),就會得到一個 p̂ 值,因
此就可以算出一個信賴區間。假設我們重複這個步驟,繼續不斷抽樣下去,樣本大
小不變,每個樣本都會產生一個新的 p̂ 和新的信賴區間。如此不停地抽樣下去,
所有的區間當中,有95%會包含真正的參數值p。不論真正的參數值是什麼,都會
是這樣。
我們的區間只是近似的95%信賴區間,不是確實的95%信賴區間。有兩個理由:
不是完全正確,因為我們在公式中用 p̂ 取代了未知的 p。
這兩個弱點造成的影響,會隨著樣本大小n的增加而愈來愈小。所以我們的公式只
適用於較大之樣本。還有,我們的方法有假設母體很大──至少要有樣本大小的10
倍大。所謂較大樣本沒有標準答案,有人建議30以上,也可以用以下建議,就是:
專業的統計學家使用較複雜的方法,會把母體大小也納入考慮,這些方法連小樣本
都可以適用。
-15-
現在回到我們的詐騙電話例子:
例二:計算信賴區間
我們想知道全台灣成年人當中,有多少百分比接到過詐騙電話。聯合報93年民調結
果說:高達六成七受訪者表示曾親自接到詐騙電話。成功訪問到的人共有912位,
而在「百分之九十五的信心水準下,抽樣誤差在正負三點二個百分點以內。」
我們來用公式算一算,找出全台灣成年人真正接到詐騙電話比例,p,之信賴區間。
把 p̂ = .67帶入以下公式
pˆ (1 − pˆ )
p̂ ± 2 可得到 .67± 2(0.01557) = .67±0.03114
n
如果 取 到小數第三位,就 得到 (0.639, 0.701)這個信賴區間了。所以我們有95%的信
心 ,真 正的比例 就在這個範圍當中。
報 導 中 說 :「 抽 樣 誤 差 在 正 負 三 點 二 個 百 分 點 以 內 」, 而 我 們 算 出 的 抽 樣 誤 差 是
0.03114,並不矛盾。因為這裏所用的常態分布是一個近似結果,所以0.03114這個抽
樣誤差也可說是近似值,我們慣用的四捨五入在這裏不太恰當,報導「正負三點二
個百分點以內」應是較穩當的作法。
補充資料
常態密度曲線是怎樣的函數?
它的函數式為
−
( x − µ )2
f (x ) =
1 2σ 2
e , -∞<x<∞
2π σ
其中的μ是它的平均數而σ 2是它的變異數。
所 有 密 度曲線f(x)的 共同特性:
1. f(x)≧0 對所有x均成立。
2. f(x)底下的總面積為1。
而常態密度曲線還有以下性質(可自行驗證):
-16-
1. 它的圖形對稱於μ。
3. 符合68-95-99.7規則。
平均數為0、標準差為1的常態分布叫做標準常態(standard normal)分布;若X代表
平均數為μ、標準差為σ的常態隨機變數,則(X-μ)/σ就會是標準常態隨機變數
(因為平均數會是0,標準差會是1)。
主要參考資料:統計學的世界 天下文化出版
-17-
圖片出處:
《統計學的世界》,天下文化出版
-18-
95 課綱信賴區間教學活動
利用隨機數字表,以 2 個數字為一組,模擬從母體抽樣,算出樣本中贊成合法賭博的比例,。共做
三個樣本,樣本大小分別為 (a)n=5, (b)n=10, (c)n=25
再用 n=25 的結果找出 95%信賴區間。
起始點之選擇:
(1) 身分證最後二碼 ab 在 01~50 之間, 從列 1ab 第 b 行開始. ( 若 b=0, 從第 10
行始.)
(2) 身分證最後二碼 ab 在 51~99 之間, 從列 (50+ab) 第 b 行開始. (若 b=0, 從第
10 行始.)
(3) 身分證最後二碼 00, 從任何地方開始.
要寫出(A)起始位置 (B)2 個數為一組的號碼(同一個樣本中,重複的號碼要刪除,畫一斜
線即可),以及對應之贊成與否(可用圈叉表示) (C)贊成比例 (D)信賴區間。
-19-
06
04 07
05
00 01 02
03
14
08 12 13 15
09 10
11
22
16
17 19 20 24
21 23
18
31 33
25
29 30 32
28
26
41 43
27 38 40 42
34 35
37 39
51
44
36 50 53
52
45 48 49
46 47 60
54 62
59
55 57 58
61
56
67 68 71
63 65 66 69
64 70
72 73 76
74 77 79
80
75
78
82
84
81 83 86 88
85
87
89
90
91
96 92
94
95 93
97 98
99
-21-
95%信賴區間表(樣本數 n=25)
95% 95%
pˆ (1 − pˆ ) pˆ (1 − pˆ ) pˆ (1 − pˆ )
p̂ 1− p̂ pˆ (1 − pˆ ) 2 信賴區間 信賴區間
25 25 25
左端點 右端點
0.00 1.00 0.0000 0.000000 0.000000 0.000000 0.000 0.000
0.04 0.96 0.0384 0.001536 0.039192 0.078384 0.000 0.118
0.08 0.92 0.0736 0.002944 0.054259 0.108517 0.000 0.189
0.12 0.88 0.1056 0.004224 0.064992 0.129985 0.000 0.250
0.16 0.84 0.1344 0.005376 0.073321 0.146642 0.013 0.307
0.20 0.80 0.1600 0.006400 0.080000 0.160000 0.040 0.360
0.24 0.76 0.1824 0.007296 0.085417 0.170833 0.069 0.411
0.28 0.72 0.2016 0.008064 0.089800 0.179600 0.100 0.460
0.32 0.68 0.2176 0.008704 0.093295 0.186590 0.133 0.507
0.36 0.64 0.2304 0.009216 0.096000 0.192000 0.168 0.552
0.40 0.60 0.2400 0.009600 0.097980 0.195959 0.204 0.596
0.44 0.56 0.2464 0.009856 0.099277 0.198555 0.241 0.639
0.48 0.52 0.2496 0.009984 0.099920 0.199840 0.280 0.680
0.52 0.48 0.2496 0.009984 0.099920 0.199840 0.320 0.720
0.56 0.44 0.2464 0.009856 0.099277 0.198555 0.361 0.759
0.60 0.40 0.2400 0.009600 0.097980 0.195959 0.404 0.796
0.64 0.36 0.2304 0.009216 0.096000 0.192000 0.448 0.832
0.68 0.32 0.2176 0.008704 0.093295 0.186590 0.493 0.867
0.72 0.28 0.2016 0.008064 0.089800 0.179600 0.540 0.900
0.76 0.24 0.1824 0.007296 0.085417 0.170833 0.589 0.931
0.80 0.20 0.1600 0.006400 0.080000 0.160000 0.640 0.960
0.84 0.16 0.1344 0.005376 0.073321 0.146642 0.693 0.987
0.88 0.12 0.1056 0.004224 0.064992 0.129985 0.750 1.000
0.92 0.08 0.0736 0.002944 0.054259 0.108517 0.811 1.000
0.96 0.04 0.0384 0.001536 0.039192 0.078384 0.882 1.000
1.00 0.00 0.0000 0.000000 0.000000 0.000000 1.000 1.000
-22-