統計學101:點知工具準唔準?

(photo via cc Flickr user Umberto Salvagnin)

(photo via cc Flickr user Umberto Salvagnin)

 

世界好複雜,一件事有無發生、或者會否發生,未必可以直接得知。由網絡長城黑名單到早期癌症等,往往要借助工具才可窺探一二。好工具可助人及早準備、壞工具則會誤判。

雖有人說「現存工具均存在準確性問題」,卻絕非「沒有誰比誰更高尚」。統計學上,最簡單方法可借助「工具驗證表」(Verification Matrix)來評估某套工具的準縄度,再透過一些指標就可知哪個工具「更高尚」。

 

test_matrix

 

以中国防火長城為例,一旦運用一個測試工具以估計某個網站有無被封鎖時,就有下列四種可能情況:

  1. 測試工具判斷已封鎖、實際上亦的確被封鎖:表中 A 格,兩者吻合,正確判斷
  2. 測試工具判斷無封鎖、實際上亦的確無封鎖:表中 D 格,兩者亦吻合,當然正確
  3. 測試工具判斷已封鎖、實際上卻無封鎖:表中 C 格,工具嗌「狼來了」卻無狼,錯了。
    統計學上稱之為一型錯誤(Type I Error)、假陽性(False Positive)等。同樣例子就有美國 AV 演員誤診愛滋而無端 J 停口停
  4. 測試工具判斷無封鎖、實際上卻被封鎖:表中 B 格,漏網之魚,亦屬犯錯。
    統計學上稱之為二型錯誤(Type II Error)、假陰性(False Negative)等。早前聯合醫院女醫生睇漏眼亦屬此類

按照驗證表,就有兩個常用衍生指標:「偵測率」(Probability of Detection)-即真實發生時工具偵測到幾多,數學上即 A/(A+B);另一個就係「誤報率」(False Alarm Rate)-即工具偵測到時有幾多為假,數學上即 C/(A+C)。

 

簡單計數,完美工具就會同時達到「百分百偵測率」以及「零誤報」。但現實工具總有瑕疵,故一般都以同時盡量提高偵測率以及降低誤報率為目標;香港天文台今年三月推出 Twitter 地震速報時,正正就想借宣稱「檢測率高達90%,並沒有誤報」來推介自己的系統。

 

兩個指標,缺一不可。試想如果單睇「偵測率」的話,那麼醫生大可說他所有病人都患上癌症,那就不會走漏眼、偵測率肯定百分百。但同時卻肯定有大量假陽性病例,令病人家屬無端白事擔心甚至做了不必要療程而受傷害,這些結果大概無人想要。

同樣,剩計「誤報率」的話,祇要甚麼都不做就不會有一型誤差、沒有誤報。但到真的有事發生、就會準備不足,輕則像二零零六年派比安橫風橫雨都要照返工被垃圾筒打中,重則就如上述聯合醫院般耽誤治療甚至病故身亡,工具的作用亦都隨之而逝。

 

未能收集大量數據計算「偵測率」與「誤報率」時,或可另取一些「著名案例」作簡單測試。「著名」也者,就係事前已經知道結果,再回頭用工具重做就可知準繩如何,不過就要小心有無以偏蓋全。

有了驗證方法,以後再有人說「大家都有準確性問題、沒有誰比誰更高尚」,就可用事實打臉、指出孰優孰劣。

 

作者:察理

離地冚家剷乙名,以恥笑人類重覆犯錯為樂

閱讀後覺得好,請多多讚好及分享~:)

其他熱門文章

歡迎讚好我們的facebook page,免費資訊源源送上。

文章資訊

ID: 83987
Date: 2014-09-02 23:28:38
Generated at: 2021-06-23 23:43:28
Permalink: https://www.vjmedia.com.hk/articles/2014/09/02/83987/統計學101:點知工具準唔準?