Saturday, April 29, 2023

數據研究經驗談

 我希望我國教育能培養出有一定解讀和分析數據能力的民眾。同時,大眾要能明白和珍惜數據收集、處理、核對、分析、製圖、發表和表達等整個過程牽涉的人力和技術。數據是有價值的,需要創造和管理的,這不是理所當然。要特別小心某些利益集團正收集和濫用有關你的個人資料。因此,政府應該加強管制個人數據和資料的收集、傳送和使用。


【文/林志翰】

數據——在日常生活裡,對一般人以及研究員而言有什麼意義,兩者看待數據的態度又有什麼不同?你會相信數據,被數據說服嗎?開放數據是好東西?或者局限應該在哪裡?本文憑著作者過去的學習和工作經驗嘗試回答這些提問。

或有人會埋怨為何政府或機構乃至公司單位不提供完整數據。究竟如何才算完整數據呢?我們可否先知道這些數據是否存在、以什麼格式存在,才來質疑這些單位不能或不願意全部公開的原因。

數據不會從天而降。首先一定要考慮是否有收集數據資訊的機制——這就是原始數據(primary data)或數據的最小單位的來源。比如,你想知道巴生(Klang)有多少家餐館,那麼對官方數據來源而言,地方政府和衛生部即以這些餐館業者申請執照時提呈的數據為準。

如果你要知道更仔細的資訊。比如,巴生有多少家肉骨茶餐館,那就要看這些餐館業主註冊時是否有需要填寫註明餐廳的種類。否則,你就得憑著餐廳名稱來作判斷其種類。除了業主自己填寫資料的統計,第三方也可通過本身的市場調查方式或搜索來估計這數目。

再來相當重要的是,數據的定義。就以上的例子,何謂「餐館」(外賣為主的飲料店或雪糕店算嗎?),「肉骨茶」(攤位檔口而已算嗎?),甚至「巴生」是指哪個範圍(根據地方政府的管轄範圍、國會議席選區、土地局劃定的市區還是縣區?)。數據統計的結果有分歧就可能是計算方式或定義不同而導致。

數據統計的準確度和確信度視所謂定義的可被接受程度。經常被環保份子挑戰和質疑的數據就如:永久森林保護區(Hutan simpanan kekal)和森林覆蓋地面積,只因為政府引用的定義是根據土地的憲報類別,而非通過高空俯視圖或親臨鑒定該區是否還有森林。結果,政府的森林數據可說統計得不夠精確、不符合現實,很多稱呼為永久森林保護區是不見(原始)樹,也不見林,已被夷平為曠地,或全部已翻種為橡膠樹等。

不少人容易誤會數據就等於統計數據(Statistics)。沒錯,統計數據是摘自原始數據,再演算綜合分析而成。同樣的原始數據庫可以導出各種統計數據,若有關當局全都發佈,會有意義嗎?因此,很多時候當局鎖定某些統計數據,定期公佈給大眾。這對於他們的部門或機構職責和功能而言是最主要或最重要的。同時,這也是公眾有可能最在乎和最期待的數據組。可是,一般上的政府數據會停留在全國或到州級的統計。這讓研究員(無論是政策或市場調查)都很懊惱。他們會要求縣級、地方政府管轄區、乃至國州議席選區的數據細分。當中的理由很簡單,國和州依然是很大的範圍的。如果只是綜合平均起來的數字,很容易忽略問題嚴重的地區或受影響的社區群體。

經常遇到公眾或研究員要求有關當局提供根據種族群體的統計數據細分。在我國這個族群分化仍相當嚴重的國度,這樣的要求可說是反映出國情和文化。可惜,這不盡然合情合理,怎麼說?這通常容易導致種族偏見和衝突。比如,衛生部公佈骨痛熱症(dengue fever)數據,但并没有刊出受感染的族群統計分類。二〇二一年,我國有26000宗骨痛熱症病例。假設其中馬來土著有18000宗,華裔有4000宗,這數據要如何解讀和比較?最糟糕的是,公眾揣測和污名化某些族群,指責相關群體「髒」、「懶惰」,或說某些生活文化習慣造成病例嚴重。毫無科學根據地解讀這樣的統計,反而不會對社會有幫助。

坦白說,不少工作單位和機構,由於職務和功能的關係,一直收集大量不同組別的數據。有時。公眾會認為政府若不公開數據,就是有所隱瞞。但是,真的有可能都公開所有的數據嗎?不知大家還記不記得,我國處在新冠疫情正嚴重之時,各界一直施壓政府公開數據。最後,政府在凱里(Khairy Jamaluddin)擔任衛生部長期間,公佈相當仔細的部分原始數據(列明每個病例的基本資料),放置在衛生部的Covid-19 GitHub數據庫。可是,這是一個充滿大量數字的數據庫,只有對數據有分析能力的研究員才會有幫助,一般公眾看不懂。

再說,這些數據需要有人負責設立機制收集和處理、檢查核對準確度、演算統計,甚至有時需要製圖及分析。這些都是耗時耗力的工作。若是政府聘請公務員來每天執行這些任務,這也會花費不少納稅人的錢。同時,也不是每個政府部門和機構都有相關技術和能力的公務員處理公開數據和統計。因此,若要定期公佈數據的細分細節,當局就要在資源有限的情況下斟酌和取捨。這無關要隱瞞。此外,很多數據也牽涉到個人和群體隱私問題,不能、也不該直接公佈。

當然,如果政府部門有意願、有技術、也有資源,當然也可以做得更好。就如衛生部在新冠疫情期間與COVIDNOW私人技術團隊合作,架設了一個有關最新官方疫情資訊的衛生部網站,這個就能讓大部分公眾和媒體輕易了解統計數據和圖表,達到傳達訊息和消息的目的。另一公私合作的應用程式KitaJaga,結合了國內貿易及生活費部PriceCatcher和統計局提供的數據,通過私人開發的平台把數據資訊以地圖定位分佈的方式公開分享給公眾。

另外,就個人隱私而言,我們其實更應擔心的是私人界,特別是跨國科技巨頭如谷歌(Google)、臉書(Facebook)等掌握我們的數據資料。這些數據資料是每一天,甚至是每時每刻都提供給這些企業的。當你發現有人會突然發短訊給你,或社交媒體的廣告對準你不久前刷屏、點擊或搜索,甚至是與人聊天的內容,你就知道個人資訊被商品化,你的隱私隨時被侵犯。

一般上,一些涉及敏感及隱私的個人數據,例如,某些疾病研究需要病例個案資料,那麼該研究員就得做好研究計劃書,以向醫藥倫理委員會申請批准,確保只有通過檢驗和倫理審查的特定人士才能獲得某些數據。相關研究必須帶著有利科學和社會利益的目的。更常見的是,研究員需要先得到相關研究對象的同意才行。因此,在這些情況,不自動公開數據是一個負責任的程序和方式,以防止資料數據遭到濫用。

數據是有價值的。公開數據對於每個人會有不同的價值。基本上,私人界也可獲取和利用這些數據。若這些有助於為社會和經濟活動增值,我覺得無可厚非。

本人身為研究員,平時最難得到的(免費)數據資料就是源自於私人界。私人界需要獲取的資料,倘若不在政府平時收集的範圍,一般會通過第三方:如市場調查機構或咨詢公司購買獲取資料。這些數據資料價格不菲。但是,有些攸關大眾利益的數據,例如:掌握在私人醫院診所的醫療和消費數據、公交經營者的乘客路線乘搭數據、私人教育學府的課程人數和收入等。這些業者必須強制繳交某些統計數據給當局。最好能與公立機構的統計數據公開程度相符,不能以商業機密為藉口不配合。更何況,這些私人機構都由官聯公司管理或掌控,自然應該可以在公開數據上扮演角色。

最後,我希望我國教育能培養出有一定解讀和分析數據能力的民眾。同時,大眾要能明白和珍惜數據收集、處理、核對、分析、製圖、發表和表達等整個過程牽涉的人力和技術。數據是有價值的,需要創造和管理的,這不是理所當然。要特別小心某些利益集團正收集和濫用有關你的個人資料。因此,政府應該加強管制個人數據和資料的收集、傳送和使用。


原文鏈接:http://contemporary-review.com.my/2023/04/28/1-518/

No comments: