法規欠完善 公眾乏認知 香港大數據發展瞠乎其後
大數據看似複雜高深,與普通人無干,但其實與大眾息息相關。清早,你上網看天氣預報,即時知道氣溫、相對濕度、空氣質素健康指數,是大數據;下午,你要「過海」上班,不知道如何最快到達目的地,於是使用網上地圖計算時間,是大數據;晚上,你到網上平台選購「心頭好」,驚覺它推薦的產品,深得你歡心,是大數據。不知不覺間,大數據已成為你生活中不可缺少的一部分。
記者:鄭雲風 李芷珊 李翌成
攝影:鄭雲風 劉俊霆
版面編輯:李芷珊
大數據對人類的理解,超乎你我想像。五年前New York Times Magazine頭版報道,一位父親拿著孕婦優惠券,到美國百貨公司Target大發雷霆,指Target透過電郵發出這張優惠券,送給尚在高中讀書的女兒,質問職員是否鼓勵她懷孕。職員為息事寧人,連聲致歉,幾天後經理更親自致電該名父親,怎想到,父親反而向經理道歉,經查問後他發現女兒真的懷孕。
為何Target比親人更早得知顧客懷孕?原來Target分析女兒的購物紀錄時,發現有鋅、葉酸維他命及特別的潤膚膏,推斷她有八成機會懷孕,因此系統自動將孕婦的推廣資料寄給她。簡單一例,不難看到大數據如何走進大眾的生活,暗中查看你一舉一動,甚至比至親之人更了解自己。
踏入21世紀,網絡人口迅速增長。據網絡追蹤公司Internet Live Stats統計,全球上網人口由2000年的3.6億,增至去年的35億人;人口比例亦由2000年的6.8%,大幅增至去年的46.1%。大眾在網上留下的數碼足跡,包括網站瀏覽歷史、發表評論、網頁操作等資料,均會成為大數據的一部分。處理數據的工具及技術提升,以往難以處理的數據資料,現時已經游刃有餘,分析專家可以根據這些數據,掌握大眾想法及行為習慣。
海量資料 分析更準確
大數據包含大量數據資料,但不僅是指數據容量。大數據收集資料的來源更廣、資料傳遞及接收速度更快,內容種類更多及複雜,例如社交網站的帖文、影片、GPS位置、無線射頻標籤(RFID)。以網上購物為例,以前傳統企業只會記錄交易數量,難以得知顧客喜好及行為模式;相反,大數據會詳細記錄顧客交易時的瀏覽行為,當他們進入網站,不論是在頁面停留多久、有沒有看產品評價、那些商品放進了購買清單,都會一一記錄,成為珍貴的資訊。
「以前來說是非常困難收集所有數據,例如人口統計,要訪問兩億人、三億人幾乎是不可能的。」曾任大學網絡傳播研究中心執行長的馬偉傑博士表示,以往統計時只能透過一部分人的回應,推算出整個群體的看法,因此存在誤差,但大數據包含所有人的網上行為,分析更準確。2012年奧巴馬競逐總統時,他的團隊每晚會作六萬次數據分析,決定之後的競選資源分配。在去年的美國大選,印度大數據系統MogIA更於不同社交網站設立數據點,分析網民提及候選人的次數及反應。因為人們在網上發表言論時,較容易透露真實想法,最後MogIA成功預測出特朗普會當選總統,比傳統民調更準確。
以往收集的傳統數據資料,不論是通訊記錄、發票支付,都須要人與人的互動;但大數據通常由機器自動產生,例如電腦會自動記錄網民在社交平台的留言,或者他們在網上搜尋器的搜索字眼。除了在網站、社交平台收集數據,物聯網(Internet of Things)亦帶來大量數據。簡單來說,物聯網能透過網絡串連所有智能裝置,例如電腦、智能家電及智能腕帶等等。大數據容量之大,已經超出人類分析處理能力,須要借助電腦或人工智能協助。
「通常大數據是由政府而來,因為這些跟市民有關的數據,他們一直都在收集,不過一直以來都沒有跟其他人分享。」現時全球多個國家都有訂立資訊自由法,規範處理公眾索取政府資料的要求,但香港如今只有多年未更新、而且不具法律效力的《公個人數據時,可以給予每個對象一個編碼,調查員只能分析他們的行為,不會知道個人身份,免除侵犯私隱的問題。開資料守則》。馬偉傑指出,港人比較重視私隱,亦擔心數據外洩,數據公司就算收集數據,或會擔心被控告而不敢使用。他建議公司收集個人數據時,可以給予每個對象一個編碼,調查員只能分析他們的行為,不會知道個人身份,免除侵犯私隱的問題。
解讀信息 企業拓商機
網絡世界瞬息萬變,每分每秒都有大量資訊流出,但並非全部數據都有價值,如何從海量的資料中找出重點,是企業致勝的關鍵。「你或許聽過數據的價值如同新世界的石油,誰掌握了數據便是未來贏家。」Vpon威朋大數據集團亞太區總經理陳明發認為,除了擁有大數據,更重要是如何將大量數據轉為人可以理解的信息。運用數據產業與提煉石油的概念一樣,他以非洲尼日利亞為例,雖然它擁有豐富的原油,但原油須要經過提煉,轉化成汽油才能使用;由於它欠缺提煉技術,仍然要從外地進口汽油。
現時Google與Facebook的業務以廣告為主,藉著自身的電郵、搜索工具、社交平台等收集數據,從而分析用家的年齡、性別及關注項目,向他們發放準確的廣告。Vpon亦採取相似的策略,收集用戶手機設備號(device id)的數位行為及用家平日瀏覽網站的小型文字檔案(cookie),透過數據管理平台(DMP)來判斷他們的行為模式及喜好,再與不同代理商、品牌合作,發送合適的廣告予用家。
收集大數據方式眾多,若不加注意,手機資料容易外洩或被濫用,去年香港個人資料私隱專員公署,便接獲1,838宗投訴,其中最多是未經資料當事人同意,使用其個人資料。陳明發指出,歐洲國家比較著重個人私隱,例如若要收集用戶Cookie,必須先徵求同意,但香港暫時未有完善法例,令不少個人資料流出,反而會阻礙行業發展。「在我們角度看,有監管時Environment(氛圍)比較健康,大家信心提高,市場比較容易做起,較大家沒規沒矩亂做要好。」他認為大眾對保護私隱的認知提高後,未來便會有相關法規。
人才不足 難支撐行業
Vpon在台北、上海、新加坡亦設有分公司。比較各地,陳明發指出香港缺乏數據人才,「科網爆破後,整整有十年八年,香港大學生很猶疑是否加入IT行業,因為出路比較窄,大家可以會選BBA(工商管理)、金融、地產甚至零售,食自由行的大浪。」他指出IT界對人才要求高,包括邏輯思維及溝通能力,雖然很多人明白數據行業有前景,但學生認識不深,所以並沒有狀元會視為首選,更推測「人才供應鏈落後十年」。
「到今天我仍然聽到Hi-tech揩嘢,Low-tech撈嘢」,陳明發同意運用數據的前期投資大,回報未必高,但數年後便能看出分別。過去港人對大數據認識不多,投身人數不足,他建議政府多作推廣,增加數據人才,慢慢吸引外國數據公司來港經營,提高技術水平,「如果中國、日、韓的IT企業都願意來香港設立Regional office(分公司),會帶來大量新知識、資訊及人才。」他又指香港是一個國際化平台,可以研究出一種經營模式,協助數據公司走向國際,「越能夠將你的Business model (營運模式)適應到全世界,你的水平空間便很大!」
「數據是人類活動的行為模式」,WeeAre控股有限公司聯合創辦人何國輝在訪問中多次強調,「大數據不是新鮮事物」,只是大家認識不深。他在傳媒行業打拼多年,看到傳統媒體經營愈來愈困難,甚至被取代,心中不禁思考媒體在網上應如何運作。現時他開辦的初創數據公司,以分析公開數據為主,透過自行研發的系統,實時掌握網上熱話,不論是社交平台,還是討論區,都逃不出他的天羅地網,從而得知大眾最關心的事。他希望向公關公司出售這套軟件,讓客戶即時了解網上熱話及反應,如有「公關災難」,能更快補救。他直言最困難是客戶尚未了解系統成效,但認為發展新市場需要時間,有信心將系統推出市場。
建智慧城市 紙上談兵
談起大數據在港發展,何國輝一臉不滿,「看不到政府有何實質措施推動大數據。」他又指政府不會支持本地數據公司,「本地公司發展的系統不用,怕死」。他表示香港公開的數據不多,缺乏數據,他直言無從入手,唯有收集Google及Facebook的公開數據,「政府開放數據給大眾,由民間自己找機會、空間,已經功德無量」。他以交通資訊為例,指責政府及交通公司不肯公開數據,乘客未能知道如何最快到達目的地,「這些資訊都沒有,談何智慧城市?」
近年全球先進國家開始重視建設智慧城市。早於2009年,IBM向美國政府推出「智能星球計劃」,及後更與艾奧瓦州的迪比克合作,以物聯網技術,將全市的公共資源數據化並以網絡連結,藉收集、分析各種數據,了解城市資源使用情況,建立全美首個智慧城市。南韓首爾政府亦於2011年推出「智能首爾2015計劃」,建立公開數據平台,包括環境、交通、教育等,鼓勵公司利用這些數據,開發應用程式,便利市民。
去年香港政府在《施政報告》亦重申會建設智慧城市,利用科技改善市民生活質素,惟大數據發展遲緩,或會阻礙計劃實行。「智慧城市能透過科技幫助市民有更優質生活」,智慧城市聯盟召集人楊全盛表示,大數據是發展智慧城市的條件之一。除了政府數據,他指公共服務營運商的數據也很重要,例如巴士、鐵路和電力公司,但現時香港未有法例規定須公開數據,它們亦沒有誘因開放數據,「如果沒有數據共享,是不可能有Smart city(智慧城市)。」
政府指今年內會公佈智慧城市藍圖,並投放七億元作基礎建設。楊全盛指出香港發展智能城市起步慢,是亞洲四小龍中,最遲推出規劃藍圖,希望港府盡快訂立數據共享政策,亦應帶頭使用本地科技公司的技術,以推動香港科技發展。