登錄×
電子郵件/用戶名
密碼
記住我
存儲世界

大數據的陰影

劉遠舉:這是一個大數據的時代。某些令人憂慮的領域,卻很可能比令人興奮的領域,更早獲得大數據的優勢。

這是一個大數據的時代,商業、社會管理、科研、創業,言必稱大數據。

大數據(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。「大數據」概念最早由維克托•邁爾•舍恩伯格和肯尼斯•庫克耶在編寫《大數據時代》中提出,指不用隨機分析法(抽樣調查)的捷徑,而是採用所有數據進行分析處理。所以,大數據區別於以往的數據收集的最本質區別是,拋棄人類之前限於成本的的抽樣分析方法,而是存儲一切,分析一切。

大數據的理解

這種「數據全存」的收集,在互聯網,甚至是移動互聯網出現之前的時代是不可想象的。現在,隨着儲存能力、計算能力、互聯網與移動互聯網、智能手機的深入生活,收集數據的技術發達,充滿生活中的各個場景,「把數據全部存起來」成為一種可能。

數據雖然存起來了,但如何理解數據,卻成為一個問題。

在大數據的熱潮中,人們開始相信,只要足夠好的技術,足夠多的數據,計算機能夠比人更了解他們的自己。

有一個非常經典的例子。一位男性顧客到全美第二大零售商塔吉特店中投訴,聲稱商店竟然給他還在讀書的女兒寄嬰兒用品的優惠券。後來發現,女兒真的已經懷孕了。這被宣揚成為數據比人更理解人的例子。

實際上,情況恰好相反。商場知道女兒懷孕,無非是收集了顧客的消費數據發現規律。比如,孕婦在懷孕頭三個月過後會購買大量無味的潤膚露;在頭20周,孕婦會補充如鈣、鎂、鋅等營養素;當女性開始大量採購無味肥皂和特大包裝的棉球時,說明她們的預產期要來了。然後,憑藉這些信息,商場提前郵寄相關促銷信息。

實際上,並不是大數據更理解人的例子,甚至反應了機器的愚蠢,自作主張,把嬰兒的優惠用品寄給了還在讀書的女兒,而且還寄到了她家裡。當然,預測模型可以加入變量,比如年紀、職業、婚姻狀況來避免尷尬。但是,人是複雜的,有很多非理性因素,無法加入所有變量。

大數據與計算能力的關係就像一枚硬幣的正反面一樣密不可分。大數據無法用單台的計算機進行處理,必須採用分布式架構,依託雲計算的分布式處理、分布式數據庫和雲存儲、虛擬化技術對海量數據進行分布式數據挖掘。但是,這種模式的計算能力僅是在數量上的增加。如果仍然是把數據放入模型,抽樣雖然並不時髦,但邊際效應仍然有效,少量的數量就能達到與大數據差不多的效果。

所以,只有應用各種新的數據處理方法,「數據」才能成為「大數據」,才能從中發掘出新的意義,進而產生新的價值。機器計算相比大腦的優勢在與對於巨量數量的處理,如果機器也同時也能具有大腦的邏輯、分析、判斷、聯想、想象、情感能力,則可以輕易超越大腦的智能。

目前,依靠神經網絡的機器學習,人工智能已經初步嶄露頭角。在這種方法之下,隨着數據量的積累,系統會越來越好。相比過去人工智能的方法很難受益於數據量的提升,新的方法之下,20%的貢獻來自方法的改進,80%來自數據量的提升,從而實現依靠數據量推動的,系統從量變到質變的飛躍。

讀者評論

FT中文網歡迎讀者發表評論,部分評論會被選進《讀者有話說》欄目。我們保留編輯與出版的權利。
用戶名
密碼

相關文章

相關話題

FT中文網客戶端
點擊或掃描下載
FT中文網微信
掃描關注
FT中文網全球財經精粹,中英對照
設置字號×
最小
較小
默認
較大
最大
分享×