移動互聯,改變了我們的日常生活狀態,改變了工作狀態。一個人平均每天檢視手機150次。無論你管這個時代叫什麼——數字時代、「網路+」時代、移動網路時代、CAMSS時代,形容的都是同一個現象——人類歷史上從未有過的一種現象。
2009年,雲端計算成爲熱詞;2012年,大數據被提出。
當初媒體、企業、分析機構都給出過的氣吞山河的想像,顛覆一切的氣魄:《雲端計算是終極的顛覆式創新》、《雲分析將無處不在》、《雲端計算一鼓作氣顛覆一切》、《雲勢不可擋》、《雲時代,跨時代,顛覆的世界您準備好了嗎?》、《雲端計算顛覆全球產業發展模式》、《又一次顛覆性變革,大數據!》、《大數據塑造未來IT》、《大數據是如何顛覆傳統行業的?》、《大數據顛覆你的價值觀》、《大數據時代,人類生活面臨顛覆》……
然而幾年過後,雲端計算、大數據究竟發展的怎麼樣?
2015年IBM中國,調研了中國17個行業的257家企業,發現:
網路企業的上雲率47.7% ,傳統行業15.6%。
中小企業的上雲率不足23%,大型企業的上雲率則更低。
根據調研報告,部署和使用雲端計算最多的行業爲:網遊、手遊、在線教育。在擔負著國民經濟、創造巨大價值的行業,雲端計算並沒有發揮其巨大的潛能。
企業對雲端計算的顧慮包括:穩定性差、不能滿足基礎效能的需求、服務差、網路接入困難、和傳統IT系統無縫整合能力差、在多個混合雲環境內平滑遷移的成本高、增值服務模塊不能滿足需求、開發成本高、支援語言少,學習成本高……
那麼「大數據」的現實呢?
移動數據、網路、物聯網、穿戴式設備帶來了海量數據,過去兩年產生的大數據是人類歷史上產生數據的總合。但是對企業而言,大數據是難言之隱:「大數據如水漫金山,而企業卻在水中乾渴而死」。
一個重要的原因,有80%的數據爲非結構化數據,都不能被電腦「看懂」,只能靜態地存在那裏,無法使用。這些「非結構化」實時數據成長飛快,佔到全球數據總量中的一大部分——到2020年將問鼎44ZB大關,但它們中的60%下一秒就失去了價值。
所以數據的價值不在於體量,而是能否從中獲取出洞察,並創造價值。而直到今天,能透過分析大數據、產生洞察、所能夠帶來的價值,微乎其微。
試想一下:
未來兩年,醫療衛生數據將成長99%,其中88%的醫療衛生數據都將是非結構化數據,包括電子病歷(EMR)、化驗結果、醫學影像、影片以及病患傳感器等。
未來兩年,政府和教育數據將成長94%,其中84%是非結構化數據,包括各類傳感器,建築物、道路、公共音檔/影片數據。
未來兩年,傳媒業數據將成長97%,其中82%是非結構化數據,包括書籍、雜誌、報紙和其他出版物,以及影片、影視作品、影像製品及在線遊戲等。
這樣海量的數據是不可能再用人工編程的方式來分析這些數據,而是要依靠機器學習。
這就是繼製表計算時代、編程時代之後的「認知計算時代」!
IBM在認知計算領域耕耘了近40年,兩個標誌性的事件:1997年,IBM的深藍電腦,戰勝國際象棋世界冠軍卡斯帕羅夫;2011年,IBM的Watson在美國智力競賽節目《Jeopardy!》上戰勝人類冠軍,獲得了100萬美元的獎金。這是IT史上的里程碑事件。
今天,IBM的認知計算技術是兩個部分結合:視覺、聽覺、語言相關的感知技術,理解、推理、發現的認知技術。這和市場上普遍意義的人工智慧是有區別的,很多的人工智慧產品只能實現感知技術的一個部分,或幾個部分,比如仿視覺的影像識別系統,仿聽覺的自然語音識別系統,一問一答的對話技術(絕大多數人工智慧產品是無法做到有「指示代詞」的多輪對話)。
而IBM認知商業的競爭優勢在於感知技術上能夠實現認知的部分:理解、推理、學習。
什麼叫理解:人和人的對話,有時不用字斟句酌地說得那麼明白,互相都能透過詞語背後的意涵、文化底蘊,把意思理解到位。這是因爲,對話的雙方有著類似的「語義數據儲備」。相反,如果「聊不到一起」,也是因爲對話雙方「語義資料庫」不匹配。比如有人說「我在國貿有300平米的房子」,機器識別的只是地名「國貿」,面積「300平米」,但是生活在北京的人能理解到什麼?這是位土豪啊!這就是理解的差別。
什麼是推理:多層邏輯關係,比如我們無法搜尋出「2015國際網路大會所在城市的氣溫」、「中國科技大學所在城市的人口數量」。大家可以嘗試一下。人可以很輕易的理解一句話裏兩層以上邏輯,推理出結果,但機器做不到。《Jeopardy!》節目上的Watson是能夠在進行三層邏輯推理後,快速給出答案的。
什麼是深度學習:人類無法透過推理和理解,處理海量資訊,也很難在海量資訊裏獲得關聯性的洞察,但認知計算透過機器學習,可以發現人類所無法發現的未知。
今天,IBM提出的「認知商業」,已經不是一個科幻想像的原型、一款用來展示的「概念車」,而是具備50種技術、28個API(未來一年將達到46個API)、五大能力的成熟產品,在五大行業——醫療、金融服務、教育、零售、法律實踐,與幾十家企業、機構合作,提供專業知識、創造行業價值和社會價值、解決企業問題。
比如,Watson爲一個亞裔癌症患者建議治療方案。它閱讀了3,469本醫學專著,將近24萬8千篇期刊論文,評估了69個治療大綱,分析了61,540個臨牀實驗數據,以及10萬6千多份臨牀醫學報告,並根據病患的基因圖譜和環境數據,最後提出了三個最優選的治療方案——這一切用時僅17秒。
比如,Watson或許可以讓人類實現「零癌」的可能。
過去的幾十年經過研究人們已經發現,一種基因的蛋白,P53,與癌症的關係非常密切:如果p53保持活性,它會判斷DNA變異的程度,變異較小,p53就促使細胞自我修復,若DNA變異較大,p53就誘導細胞凋亡;但如果p53與其它蛋白的相互作用,發生突變,其空間構象發生改變,失去了對細胞生長、凋亡和DNA 修復的調控作用,p53就會由抑癌基因轉變爲癌基因。
從1992年發現第一次發現蛋白激酶與p53之間的作用關係後,人類找到33種可能與之有關係的蛋白激酶。找到33種並不代表研究成功,需要進一步地驗證這種蛋白激酶與p53如何產生作用。然而,找到每一種蛋白激酶是如何作用於p53,純粹靠運氣。更何況,未來還有400多種蛋白激酶需要逐一「靠運氣」不斷測試。
關於蛋白激酶的文章有24萬篇,關於p53的研究論文有7萬篇,如果讓一位頂尖的科學家,以每天10篇論文的速度,細讀並理解所有研究,大概需要85年。如果考慮到每30秒就會有一篇新的科學文章發表,那這位科學家還要再花85年,讀新產生的研究著作……
而Watson用了幾個星期,就根據以往的研究,把範圍縮小到了7種與改變p53關係最爲密切的蛋白激酶,以及如何作用於p53的。
習近平主席宣佈,在今年啓動了精準醫療計劃,政府15年內投入600億人民幣。認知計算在醫療領域的商業應用的本質,就是精準醫療的本質——沒有針對不同患者體質、基因圖譜、不同病毒、不同藥物的醫療,只是基於經驗的機率事件。
未來,認知計算在醫療領域的價值將會表現在兩方面:個性化醫療,病患的健康管理。
從走進醫院開始,集中整合病患的基因數據、家族病史數據、環境數據、臨牀病例、研究成果、藥物數據,綜合考慮每一步醫療干預的風險、治癒的幾率,並定製藥物,所以每位病患治療的過程應該都是獨特的路徑和方法。中國的醫療資源極度匱乏,相信以後Watson能夠成爲醫生的助手,輔助臨牀診斷決策系統,讓非三甲醫院的社區醫院、鄉鎮醫院都能達到國際專家的水準。
從病患走出醫院開始,要讓病人管理自己的健康,Watson可以幫助決策如何鍛鍊、食用什麼食品輔助治療;一旦發生異常數據,如何判斷是否需要就醫;哪種習慣和行爲可能會導致慢性病的發生。
今天,IBM的認知商業,不是談論一種科幻想像,也並不想討論「機器和人的關係」這類哲學問題,或是造一個陪伴聊天的機器人,而是關注認知計算所能帶來的商業價值,關注整個商業世界的改變。這是後移動互聯時代、後大數據時代的命題。
陳黎明
IBM大中華區董事長