11/18/2023

在11/18/2023星期六,藍白合(國民黨與民眾黨)談判中的候選人組合民調結果公佈。在民調結果中,藍白兩黨對統計誤差的認知出現分歧。同時,大眾也對誤差所造成的統計結果出現誤解,導致輿論開始出現「讓 6%、讓 3%」的聲音。

「讓 6%」應該被理解為:當我們使用抽樣結果試圖推斷真正的大選結果時,抽樣調查的誤差,會使得原本領先 2% 的差距,變成從 -1% 到 5% 的一個差距區間。因為區間包然 0% 差距,而民眾黨又做出「平手禮讓」,導致從原本的贏 2%,直接變成輸家。

民眾黨的原始理念,應該是在 3% 的區間大小內,都做出禮讓。但卻忽略了區間大小其實不能直接人為控制,而是間接被樣本數決定。大樣本和小樣本所做出的調查因為誤差不同,導致所形成的「區間寬度」有時會小於或大於 3%。與其提一個區間,民眾黨應該直接選擇抽樣的樣本數量,控制誤差大小。

這個誤解,另一方面也是兩黨對於「區間」和「誤差」的認知出現歧異。區間大小為兩倍的誤差,而非直接相等。另外,很多人普遍將誤差理解為一個固定的數字,同時忽略了誤差在統計結果中所扮演的角色。最終,因忽略了「差距數字」本身存在隨機性的問題,導致出現「讓 6%」的錯誤解讀。

針對誤差所引發的公平性疑慮,其本質只是因為調查的樣本數太小,導致誤差過大,超過可以接受的範圍。以下,我們將拋開藍白競爭,透過一個模擬情境,來說明誤差對調查結果所造成的影響。

 


 

模擬情境

假設,在一個只能有兩位候選人的選舉中,A、B、C 三人都想選。投票人口總數有 1,000,000 人。

在真正投票前,該如何估計「 A 和 B,到底誰更適合出來跟 C 選」?

 

這時我們有兩種方法:

  1. 直接打電話給這 100 萬人,一個一個問。

  2. 抽樣。隨機從中找一個 1,000 人的小群體,問這些人的看法。

 

第一種方法,問出來的結果就是到時投票的真正結果;但這種方法成本太高,既費時、費錢,又不實際。

第二種方法雖然實際,得到的卻是一個「不確定」的結果。因為,我們想試圖直接透過這 1,000 人的看法來推測所有人的看法。

但第二種方法,更容易達成。有時結果雖然不確定(有隨機性),但一樣能幫助我們做重大決定!

我們想省事,使用「方法二」來預測投票結果,但又不想讓我們的預測結果,與最終的投票結果相差太大,這時就要使用統計方法

 

抽樣調查

我們從這 1,000,000 人中,隨機找出 1,000 人,問他們的看法:

針對這 1,000 人,兩種情況的調查結果分別如下:

同樣是跟 C 競爭,到底是 A 更適合?還是 B 更適合?還是 A 跟 B並沒有強弱之分,誰出來跟 C 選都一樣?

在 1,000 人的調查結果中,我們得到以下資訊:信心水準 95%A 的得票率是 48%B 的得票率是 46%誤差 4.37%

 

調查分析

本次調查,其實隱含了以下假設:

  1. 在還沒看到統計結果的證據之前,我們認定 A 和 B 兩者的得票率沒有區別

    • 也就是說,在調查之前,我們預先假設 A 和 B 的得票率差距為 0。

  2. 這次的調查結果,有 5% 的機率會是錯的,將屆時大選沒有差距的事實,現在說成是有差距。

    • 也就是說,每次都從 100 萬人抽 1,000 人來調查,重複做 100 遍,則 95 次的調查結果都會顯示沒有區別,只有 5 次有區別。

    • 也可理解為,針對隨機抽 1,000 人的調查,我們有很低的機率會發現 A 和 B 之間有差距;但事實上,如果把這 100 萬人全都問一遍,A 和 B 的得票率並沒有差別。

 

調查結果

根據以上假設,針對這 1,000 人的調查結果顯示:

  1. A 比 B 的得票率高 2%。

  2. 這個 2% 差距,會有 4.37% 的誤差

    • 加入誤差:2% - 4.37% = -2.37%;2% + 4.37% = 6.37%

      • 誤差是指什麼?透過調查,我們發現在這 1000 人的小群體中,A 和 B 的得票率差距為 2%。

      • 但如果推廣至 100 萬人的大群體時,我們不再確定差距是 2%,而只能大概給一個範圍:在真正大選時, A 和 B 的差距,有 非常大的機率會落在 2% ± 4.37% 之間。

    • 也就是說,屆時真正投票的差距不是 2%,而是從 -2.37% 到 6.37% 都有可能。

    • 也就是說,真正的選舉結果從「B 領先 A 2.37%」到「A 領先 B 6.37%」都很有可能發生。

注意!0% 是包含在 -2.37% 到 6.37% 之間的

因此,透過這 1,000 人的調查,並沒有發現足夠去證明 A 和 B 得票率「有區別」的證據。因此,我們堅持原本的想法:A 和 B 的得票率沒有差距

 

試想,如果現在誤差是 0.1%,會有什麼區別?

 

問題檢討

 

時事探討

 

誤解修正

 

數學計算

以下計算,只是為了總結「模擬情境」調查的統計結果,以及算出誤差。

根據前面模擬情境的設定:1,000 人的抽樣調查,信心水準 95%,A 的得票率是 48%,B 的得票率是 46%。