在網球中看懂大數據分析 - FT中文網
登錄×
電子郵件/用戶名
密碼
記住我
請輸入郵箱和密碼進行綁定操作:
請輸入手機號碼,透過簡訊驗證(目前僅支援中國大陸地區的手機號):
請您閱讀我們的用戶註冊協議私隱權保護政策,點擊下方按鈕即視爲您接受。
特別策劃

在網球中看懂大數據分析

IBM中國公司對外關係部 孟巖: 第4拍到第9拍的勝率,接對方一發的回球得分率,這些都不是隨便能在電視直播的螢幕上找到的指標。而誰又能想到,這些不起眼的指標纔是衡量戰局、決定成敗的關鍵點呢?

談到「大數據」,最令人不可思議的事情就是有那麼多人都傻呵呵的樂觀。是的,「大數據」這個詞火了一年多,「數據中藏著財富」的觀念也開始被人接受,但是實際情況是,大部分企業、組織和個人,不要說大數據,連自己手上那點小數據都只是剛剛能勉強應付。應付而已,對於其中埋藏的知識和價值不要說發掘,恐怕都沒有意識到。在這樣的情況下,如果以幾何級數成長的數據海嘯排山倒海而來,而且其中混雜著大量的模糊數據、非確定性數據和非結構化數據,一個頭腦清醒的人首先應該感到的是敬畏,而不是樂觀。

所以IBM從來都是把「大數據」跟「分析」放在一起講的。「大數據」加上「分析」,纔有可能得到價值,纔有意義。沒有「分析」的「大數據」,就是一場淹沒一切的數據海嘯,是災難。「分析」纔是關鍵能力,纔是點石成金棒,纔是降魔杵。

不過人們只談「大數據」而不談「分析」也是有道理的。「大數據」這個詞在傳播上有優勢啊!什麼詞最容易流行?既是新詞,又望文知義,既朗朗上口,又能裝深刻的詞。「大數據」和「物聯網」這兩個詞就有這些特點,所以輕而易舉地流行起來。而「分析」則是一個平淡無奇的詞,不具備可流行性。我曾經在一個專業的大數據研討會里聽到一位業內極有影響力的前輩人物說,「大數據分析」中的「分析」不是什麼新鮮玩意,想當初他的隊伍剛開張,坐在部委下屬的資訊情報所裏整天干的就是這個玩意。

這是一個悲劇。因爲「分析」不僅是整個遊戲的關鍵,而且它的本意也比字面意義要深刻和有趣的多。它所對應的英文原文是 analytics,而不是 analysis。用於數據分析的時候,這兩個詞的意思存在細微而意義重大的差別。Analysis是統計、過濾和抽取,基於現有的知識,在數據中找到關鍵的、有價值的資訊。而analytics更進一步,是透過數據的比對和相關性發現,發現新的知識。拿一個老掉牙的例子來說,超市透過analysis 可以知道哪個品牌的啤酒更受本地顧客的歡迎,平均每個週三會銷售多少棵大白菜,但是隻有透過 analytics 才能知道把啤酒和尿布放在一起能夠增加銷量。假如第一個翻譯 analytics 的人能夠更謹慎一點,換一個譯法,或許會更有利於大數據的應用真正落地,也不會讓那位前輩自以爲自己當年做的 analysis 就是今天所說的 analytics。

理解大數據分析不是一件容易的事情。我們能從各種大數據書籍文章裏得到的各種大數據故事,大多數都是把大數據問題和最終的效果介紹的濃墨重彩,卻對於分析這個環節語焉不詳。經典句型是這樣的:某牛人有了一個好點子,面向某領域的某某問題,收集了多少多少數據,然後那麼一分析啊,就得出了驚世駭俗的結論,然後就發達了。至於怎麼分析的,分析的原則、方法和過程,一概略過不談。這當然也是可以理解的,因爲真正的數據分析涉及到許多領域知識、數學原理和演算法,非專業人士弄不懂,也沒有必要知道那麼多。但是這種忽略的一個結果,就是使人們輕視這個分析的過程,以爲一個好點子加上一堆大數據就能輕而易舉地得出一個值錢的結論。這是大錯特錯的想法。我想正是這種想法,使得人們對於大數據過度樂觀,而失去了應有的敬畏。

好吧,如果你現在已經相信「分析」是一件很重要的事情,那麼我們可以談談網球了,因爲也許網球是幫你理解大數據分析的最好範例。你可以很簡單地打開溫布爾登、美網、澳網、法網的官網,然後尋找其中 IBM SlamTracker 鏈接,點擊這個鏈接,你將在20分鐘內理解大數據分析。

跟其他的體育項目一樣,網球也涉及大量的數據。一發成功率、一發得分率和Ace球是標誌球員競技水準的關鍵指標,發球速度、接發球成功率、上網成功率、得分點則突出體現了球員的打法特點,如果非受迫性失誤和雙發失誤率上升,那表明球員的心理狀態或者體力開始下滑。這就是網球中的數據,衆所周知,沒啥了不起的。

IBM贊助網球賽事並提供技術支援始於1993年,從2005年以來,IBM透過 SlamTracker 追蹤了四大滿貫賽事八年來的全部 8,128 場比賽,共收集 4,100 萬個數據點。

好,如果在這個層次上,你只是去統計和 analysis,那麼也能得到很多有用的結論,比如Ace球數量對比賽結果影響很大,首先被破發的選手失敗的可能性比較大,等等。不過,這些大家可能已經知道了。你或許還可以有一些有趣的發現,比如一發速度快的選手上網成功率也比較高,比如納達爾的得分點幾年來從底線逐漸逼近網前,等等。但是這些發現或者是平淡無奇的,或者不是那麼重要。在網球這個已經被無數人反覆琢磨的領域,想透過數據看出一些新道道,不是一件容易的事情。

圖1. 2013年溫網決賽的 Keys to the Match 介面

這就是大數據分析(analytics)顯身手的時刻了。在 IBM 的 SlamTracker 中大數據分析的精華,就體現在 Keys to the Match 裏。它的最後呈現非常簡單,只是在每場比賽中爲對陣雙方的選手找到三個獲勝的關鍵指標。比如說,當溫網男單決賽中德約科維奇對陣穆雷的時候,小德的三個獲勝關鍵指標分別是第4拍到第9拍獲勝率、Ace球數量、回球成功率,而穆雷的三個獲勝關鍵指標分別是回球得分率、二發成功率和發球成功率。Keys to the Match 不但找到了這三個關鍵的指標,而且找到了量化的及格線。比如說在今年法網女單決賽裏,Keys to the Match 告訴小威廉姆斯,要戰勝莎拉波娃,接對方一發的回球得分率要爭取超過36%,而反過來,莎拉波娃要打敗小威廉姆斯,接對方一發的回球得分率要爭取超過28%。如果在這三項指標裏A選手比B選手完成的更好,那麼A獲勝的可能性就大大高於B。

這裏神奇的地方在於,這三項關鍵指標並不都是司空見慣的普通指標。例如,第4拍到第9拍的勝率,接對方一發的回球得分率,這些都不是隨便能在電視直播的螢幕上找到的指標。而誰又能想到,這些不起眼的指標纔是衡量戰局、決定成敗的關鍵點呢?不要說是普通球迷,就是最資深的網球專家,如果僅靠平時的觀察和手工的分析,也很難找到這些關鍵指標,並且把它按重要次序排好。至於爲每一個指標設定一個及格線,那更是不可思議的事情。

是的,這就是大數據分析能夠辦到的事情,也是隻有大數據分析才能夠辦到的事情。8128場比賽,4100萬個數據點,動用5500個分析模型,在45個潛在動態指標裏選擇、對比、分析、判斷、猜測、排除、定位、評估、定量、組合,只有在這樣基礎之上,Keys to the Match才能夠爲對陣的雙方挑選出最重要的三個指標,並且確定及格線。

這才叫大數據分析,用分析從大量的數據中尋找相關性模式,發現以前不爲人知的、超越於平凡知識之上的、至關重要的新知識。這樣的新知識,是隱藏在表象之下的獲勝關鍵,是決定競爭結局的密碼,是價值,是財富,是自我實現之路。這纔是爲什麼那麼多商業界的有識之士狂熱的追捧大數據的原因所在。

圖2. Keys to the Match 的幕後故事

IBM中國公司對外關係部

孟巖

版權聲明:本文版權歸FT中文網所有,未經允許任何單位或個人不得轉載,複製或以任何其他方式使用本文全部或部分,侵權必究。

川普和海湖莊園的力量

這位前房地產開發商非常瞭解如何將建築和空間有效地用作宣傳。

爲2024年的世界感到高興的十個理由

從巴黎聖母院的修復到《抑制熱情》的大結局,這一年其實並不算太糟。

2025年德國大選:主要的競選承諾是什麼?

各大政黨提出了截然不同的計劃,以重振歐洲最大經濟體的命運。

「市場恐慌」:巴西財政赤字導致貨幣跌至新低

總統在面臨其第三個任期內的最大挑戰。

川普過渡團隊尋求在「第一天」讓美國退出世衛組織

美國的迅速退出將使全球衛生機構失去主要資金來源,並削弱其應對緊急情況的能力。

谷歌推動重新確立人工智慧領域的領先地位,提振了投資者信心

在經歷了過山車般的一年之後,人工智慧和量子計算領域的一系列突破帶來了轉機。
設置字型大小×
最小
較小
默認
較大
最大
分享×