11/18/2023
在11/18/2023星期六,藍白合(國民黨與民眾黨)談判中的候選人組合民調結果公佈。在民調結果中,藍白兩黨對統計誤差的認知出現分歧。同時,大眾也對誤差所造成的統計結果出現誤解,導致輿論開始出現「讓 6%、讓 3%」的聲音。
「讓 6%」應該被理解為:當我們使用抽樣結果試圖推斷真正的大選結果時,抽樣調查的誤差,會使得原本領先 2% 的差距,變成從 -1% 到 5% 的一個差距區間。因為區間包然 0% 差距,而民眾黨又做出「平手禮讓」,導致從原本的贏 2%,直接變成輸家。
民眾黨的原始理念,應該是在 3% 的區間大小內,都做出禮讓。但卻忽略了區間大小其實不能直接人為控制,而是間接被樣本數決定。大樣本和小樣本所做出的調查因為誤差不同,導致所形成的「區間寬度」有時會小於或大於 3%。與其提一個區間,民眾黨應該直接選擇抽樣的樣本數量,控制誤差大小。
這個誤解,另一方面也是兩黨對於「區間」和「誤差」的認知出現歧異。區間大小為兩倍的誤差,而非直接相等。另外,很多人普遍將誤差理解為一個固定的數字,同時忽略了誤差在統計結果中所扮演的角色。最終,因忽略了「差距數字」本身存在隨機性的問題,導致出現「讓 6%」的錯誤解讀。
針對誤差所引發的公平性疑慮,其本質只是因為調查的樣本數太小,導致誤差過大,超過可以接受的範圍。以下,我們將拋開藍白競爭,透過一個模擬情境,來說明誤差對調查結果所造成的影響。
假設,在一個只能有兩位候選人的選舉中,A、B、C 三人都想選。投票人口總數有 1,000,000 人。
在真正投票前,該如何估計「 A 和 B,到底誰更適合出來跟 C 選」?
這時我們有兩種方法:
直接打電話給這 100 萬人,一個一個問。
抽樣。隨機從中找一個 1,000 人的小群體,問這些人的看法。
第一種方法,問出來的結果就是到時投票的真正結果;但這種方法成本太高,既費時、費錢,又不實際。
第二種方法雖然實際,得到的卻是一個「不確定」的結果。因為,我們想試圖直接透過這 1,000 人的看法來推測所有人的看法。
例如,要算全班期中考試平均,如果隨機抽兩位同學的分數來算,有可能抽到全班前兩名,得出班平均為 95;但也有可能抽到的這兩位同學,剛好是最後兩名,得到班平均為 76。這兩組班平均,都跟真正的 86 平均分相差甚遠!
因此,只要是抽樣,就會有誤差。
但第二種方法,更容易達成。有時結果雖然不確定(有隨機性),但一樣能幫助我們做重大決定!
我們想省事,使用「方法二」來預測投票結果,但又不想讓我們的預測結果,與最終的投票結果相差太大,這時就要使用統計方法。
我們從這 1,000,000 人中,隨機找出 1,000 人,問他們的看法:
A 跟 C 選,你投誰?
B 跟 C 選,你投誰?
針對這 1,000 人,兩種情況的調查結果分別如下:
A 跟 C 選:A 會得到 480 張票。
B 跟 C 選:B 會得到 460 張票。
同樣是跟 C 競爭,到底是 A 更適合?還是 B 更適合?還是 A 跟 B並沒有強弱之分,誰出來跟 C 選都一樣?
在 1,000 人的調查結果中,我們得到以下資訊:信心水準 95%,A 的得票率是 48%,B 的得票率是 46%,誤差 4.37%。
從這 1,000,000 人中,隨機找出 1,000 人。「1,000」這個數字,被稱為調查的「樣本數」。
但這些資訊,到底代表 A 跟 B 誰比較適合?在進行計算之前,我們先理解這些數字代表的涵意。
本次調查,其實隱含了以下假設:
在還沒看到統計結果的證據之前,我們認定 A 和 B 兩者的得票率沒有區別。
也就是說,在調查之前,我們預先假設 A 和 B 的得票率差距為 0。
這次的調查結果,有 5% 的機率會是錯的,將屆時大選沒有差距的事實,現在說成是有差距。
也就是說,每次都從 100 萬人抽 1,000 人來調查,重複做 100 遍,則 95 次的調查結果都會顯示沒有區別,只有 5 次有區別。
也可理解為,針對隨機抽 1,000 人的調查,我們有很低的機率會發現 A 和 B 之間有差距;但事實上,如果把這 100 萬人全都問一遍,A 和 B 的得票率並沒有差別。
根據以上假設,針對這 1,000 人的調查結果顯示:
A 比 B 的得票率高 2%。
這個 2% 差距,會有 4.37% 的誤差。
加入誤差:2% - 4.37% = -2.37%;2% + 4.37% = 6.37%
誤差是指什麼?透過調查,我們發現在這 1000 人的小群體中,A 和 B 的得票率差距為 2%。
但如果推廣至 100 萬人的大群體時,我們不再確定差距是 2%,而只能大概給一個範圍:在真正大選時, A 和 B 的差距,有 非常大的機率會落在 2%
也就是說,屆時真正投票的差距不是 2%,而是從 -2.37% 到 6.37% 都有可能。
也就是說,真正的選舉結果從「B 領先 A 2.37%」到「A 領先 B 6.37%」都很有可能發生。
注意!0% 是包含在 -2.37% 到 6.37% 之間的。
也就是說,雖然這 1,000 人的抽樣調查結果有 2% 的差距,在真正的大選中,非常有可能 A 和 B 的得票率不會有區別。
也就是說,在這 1,000 人的調查中,雖然發現 A 的得票率比 B 多 2%,但因為 1,000 人的抽樣相對於 100萬人還是太小,導致誤差過大。雖然得到 2% 「有差別」的結果,但這差距完全沒有代表性。這個結果不顯著,是一個沒有意義的調查。
因此,透過這 1,000 人的調查,並沒有發現足夠去證明 A 和 B 得票率「有區別」的證據。因此,我們堅持原本的想法:A 和 B 的得票率沒有差距。
試想,如果現在誤差是 0.1%,會有什麼區別?
這時得票率的差距,就會介於「A 領先 B 1.9%」到「A 領先 B 2.1%」之間。因為沒有包含0,因此我們就能推測在真正 100 萬人投票的大選中,有非常大的機率 A 至少都會比 B 多 1.9% 的票。
這是非常強的證據。因此,我們就能放棄一開始的想法:A 和 B 兩者的得票率沒有區別;並做出「推派 A 去和 C 選」的結論。
透過這個 1,000 人的調查,基本能推斷在真正 100 萬人投票時,派 A 或 B 去跟 C 選,是沒有差的。
但也有可能,是有差別的!
問題就出在抽樣的樣本數過小。1,000 人相對於 100 萬人能形成的檢定力過小,導致無法成功抓取真實訊息。
到底要抽樣多少人才足夠?這個數字是可以預先計算的!
很多時候,「1,000」這個數,是一個早就算好、也確認檢定力足夠的樣本數(真實情況會比 1,000 大)。
我們在進行調查時,會將信心水準先固定好,將需要的樣本數算好,再進行調查。
因為是抽樣,所以一定有誤差。這個誤差大小,是直接由 1,000(樣本數)來決定的。
不管藍白,只看統計!
背景知識:白陣營聲稱,只要調查的「得票率差距」不顯著,就算藍陣營得分。
每個機構的調查,各自會使用不同的樣本數。
針對某幾項調查,白陣營無法接受在這個樣本數下,所算出的誤差。
因為樣本數不夠大,使得誤差太大,導致差距不顯著,最後一直讓分。
很多人會直接從「差距的數字」上著手。但要注意的是,這個得票率差距,必須加上誤差範圍,才能對真正的大選進行推斷。
因為算出來的差距,只是從「針對」 2000 人(舉例)的電話調查中算出來的。我們會在乎這 2000 人的結果嗎?
我們主要是想透過這 2000 人的調查,直接對 2000多萬人的大選,做出接近真實的預測。
藍陣營在委託各機構調查時,有沒有確認每個機構所使用的「樣本數量」是合理的?
在這,我們就相信各機構在做調查時,隨機性的控制是足夠的。
沒有所謂「讓 6%、讓3%、讓
真正有意義的是:從這 2000 人電訪出來的差距,在加上誤差後所形成的區間,到底有沒有包含 0%?
包含 0%
不包含 0%
白陣營覺得加上誤差後的區間過大(演變成讓太多、讓 6%),導致好幾間機構的調查都不顯著,一直讓分。
換句話說,白陣營覺得調查的樣本數太小,沒有足夠的檢定力。
想要減少誤差,就要增加調查的樣本數。
只要民意支持的事實存在,調查時的樣本數夠大,有時就算讓 6% 一樣能贏。樣本數太小,有時就算只讓 1.5% 也會輸。
因此,核心問題是:機構在調查時的樣本數選擇是否合理。
兩陣營必須都認同各機構在調查時所選擇的樣本數,才能接受最後在合理誤差下所產生的結果。
最後,調查既然不顯著(沒有意義),為何要直接認定其中一方獲勝?白陣營為何要認定沒有區別就是對方贏?
不顯著的調查結果,只能代表兩種組合的得票率「在真正大選的時候」有非常高的機率是沒有區別的。
在計量領域中,在設定好信心水準的前提下,只要結果不顯著,就不會做任何額外的解釋。
很多時候,大家都會默認 95% 的信心水準。
以下計算,只是為了總結「模擬情境」調查的統計結果,以及算出誤差。
根據前面模擬情境的設定:1,000 人的抽樣調查,信心水準 95%,A 的得票率是 48%,B 的得票率是 46%。
將上述資訊整理:
計算檢定統計量並與臨界值比較:
計算調查的誤差(Margin of Error):