
(photo via cc Flickr user Umberto Salvagnin)
世界好複雜,一件事有無發生、或者會否發生,未必可以直接得知。由網絡長城黑名單到早期癌症等,往往要借助工具才可窺探一二。好工具可助人及早準備、壞工具則會誤判。
雖有人說「現存工具均存在準確性問題」,卻絕非「沒有誰比誰更高尚」。統計學上,最簡單方法可借助「工具驗證表」(Verification Matrix)來評估某套工具的準縄度,再透過一些指標就可知哪個工具「更高尚」。

以中国防火長城為例,一旦運用一個測試工具以估計某個網站有無被封鎖時,就有下列四種可能情況:
按照驗證表,就有兩個常用衍生指標:「偵測率」(Probability of Detection)-即真實發生時工具偵測到幾多,數學上即 A/(A+B);另一個就係「誤報率」(False Alarm Rate)-即工具偵測到時有幾多為假,數學上即 C/(A+C)。
簡單計數,完美工具就會同時達到「百分百偵測率」以及「零誤報」。但現實工具總有瑕疵,故一般都以同時盡量提高偵測率以及降低誤報率為目標;香港天文台今年三月推出 Twitter 地震速報時,正正就想借宣稱「檢測率高達90%,並沒有誤報」來推介自己的系統。
兩個指標,缺一不可。試想如果單睇「偵測率」的話,那麼醫生大可說他所有病人都患上癌症,那就不會走漏眼、偵測率肯定百分百。但同時卻肯定有大量假陽性病例,令病人家屬無端白事擔心甚至做了不必要療程而受傷害,這些結果大概無人想要。
同樣,剩計「誤報率」的話,祇要甚麼都不做就不會有一型誤差、沒有誤報。但到真的有事發生、就會準備不足,輕則像二零零六年派比安橫風橫雨都要照返工而被垃圾筒打中,重則就如上述聯合醫院般耽誤治療甚至病故身亡,工具的作用亦都隨之而逝。
未能收集大量數據計算「偵測率」與「誤報率」時,或可另取一些「著名案例」作簡單測試。「著名」也者,就係事前已經知道結果,再回頭用工具重做就可知準繩如何,不過就要小心有無以偏蓋全。
有了驗證方法,以後再有人說「大家都有準確性問題、沒有誰比誰更高尚」,就可用事實打臉、指出孰優孰劣。