【Maja Pantic】:(翻譯室沒有聲音)所以機器能夠有能力去做相應的反應,我們也管它叫做人工智慧,首先來看人臉的識別,其實我們也是看到,當你看到一些人的時候,你透過它臉部的一些特徵來去識別它,同時要看到年齡、性別、是否長的很漂亮,甚至可以透過人臉一些特徵判斷一些它的特點。這裏我們可以看到是我們自己大腦裏面去識別的,可以看到它的態度,看到人的特徵。
這是在人腦中來進行一個處理,我們可以看到這種人臉一個識別,它的意義是什麼?我們完全可以用到知識,用到很多的方面。我們可以知道人們在反應中,尤其對各種刺激有不同的反應。
我們其實在這方面做了很長時間的學習和研究,我們也取得了一些進步,尤其就這個人臉辨識方面。我們希望能夠進行一個交換,例如說可以和車、機器人進行互動,任何一個機器人可以進行時時的互動。我們可以看到這些結果,它可能是相當的複雜。
正是我們目前做的這些工作,人的這些表徵,我們其實過去二十年做這方面的研究,你可以看到我們有不同的方式可以做人臉的識別,最先進一個技術,我們能夠去識別人們的人臉的圖片。同時得到一些相應的資訊,並且我們可以看到這樣一個配比率可以達到98%。同時最難的是這樣的行爲模式,也就是說你透過識別人臉一些特徵識別它的性格,這個是很難。你可以任何一個人臉的表述,可以知道它的喜好,我們怎麼樣人工智慧提高這方面的準確率,這也是要求相應一個技術,你可以我們在這裏,包括像一些面具的測試。我們可以看到有不同的結果反饋和不同的教會,有不同的特徵去進行驗證。
我們可以看到這裏人臉辨識(圖片),首先你能夠在螢幕中鎖定這個人臉,你可以看到它的一些特徵,尤其是顯著特徵。比如說我們可以看到像臉、眉毛、鼻子特徵,我們可以看到其他的特徵,如果想進入深入學習,你可以看到它的一些額外的細節的捕捉,你追蹤所有的特徵,你可以看到這些特徵有什麼變化,尤其做不同表情的時候,我們分類這些所有的表情的變數。
我們可以看到這些不同步驟,我們追蹤了很長時間,這是不同的追蹤器,這是最成功的應用。可以看到右邊這塊,透過追蹤器,它能夠在不同的光線下面,也能夠去識別人類的表情。那麼我們在左邊這個角落,這個是非常受歡迎的,你可以看到它的應用很廣泛。你可以看到最右邊下面是我們最準確地一步,它現在也上市了。你可以看到它的追蹤器和我們的攝影機是相連的,你可以用到很多方面。
那麼,這樣我們要把追蹤譜或者這些變化把他們應用起來,我們喜歡的方法就是說,我們對他們的臉部肌肉進行捕捉,有43種動作單元,我們可以臉部肌肉可以生成42種動作,比如說額頭上有一個長肌肉,你讓中部啟用,我們稱爲動作一,它會造成我們的眉毛上揚,實際上你對這個肌肉外部進行啟用,你會看到你的外部眉毛上揚,把整個肌肉啟用讓你造成1+2這個動作。問題在於我們有一萬多種表情,這是我們的面部表情,實際上每天用到上千種表情。比如說從一萬到七千種表情,降到42個動作組合,實際上把這些動作,它的強弱程度加到系統當中去,我們就會生成複雜的系統。
比如說在每一個表情當中,我們都可以生成面部表情編碼系統,這個是我們對錶情自動識別系統隱性的方法。左邊是動作一,它是針對內部眉毛,你看到在很多情況下,這種驚訝,或者是我們想強調的時候,我們可以用上內部眼毛的肌肉,還有下巴上揚,我們在懷疑的時候,歐洲人懷疑的時候會抬起下巴。另外是4號這個動作,這個就是皺毛,就是生氣的時候有的表情,而且有壓力,我們也會用眉毛動作表現出來。
我們用兩種方法來識別自動錶情識別系統,比如說通用型這種表達。我們有人類學家告訴我們,這個世界上每個人展現出同樣的表情,而且另外一個人在全球都能普遍出表情,但是實際上有人說,在不同文化背景來的人,他們識別表情方式是不一樣的。比如說拿南歐人,北歐人也有差異,更不用說亞洲人,歐洲人表情差異。我們常用的兩種方法就是這個表情是正面的,還是負面的,另外一個維度它是否激動。
我們把這些表情放在維度上面,你可以看到多出這些表情,一般來說都是佔了維度的四分之一。那麼就是說生活當中,還是表現出各種各樣的表情,但是你可以看到表情集中這裏面的四分之一。
我們爲了識別這些表情,我們需要用表情判斷他們的行爲。一個就是我們的這種興趣的喚起,比如說當判斷人們如何對一種故事作出反應的時候,我們會用這種興趣表情來進行判斷,你可以看到左邊的影片,就是說我們可以時時去分析一種衝突,或者衝突的升級。在這裏面我們有三個政客在討論一個問題,他們都有自己很鮮明的觀點,你可以看到一開始的時候,一個人在說話,後來他的聲音越來越響,然後開始做一些表情,其他政客開始作出了反應,他們開始同時說話,一般來說這就是衝突很明顯的表現。
實際上這裏有很多的應用環境,一個非常成功的應用環境就是市場分析。比如說我們和一個公司合作了一個項目,這個想法就是用表情判斷這個產品或者人們對這個產品的反應,就是說我們有這個大市場的分析,我們把這個產品呈現給不同的人,我們在觀察這些人對產品的反應,一般來說80%情況下,一般來說他們就沒有什麼反應,但是在20%情況下,你會看到有一些反應。這些就是給我們帶來好的銷量這樣一個機會。我看一下這裏的20%的機會,這就是給我們帶來銷量的機會。
另外一個項目關於研究人們興趣,我們在線上進行醫生和病人之間一種遠距的診療。他們討論病人病情。因爲這是我們的遠距診療,我們用攝象頭來拍病人的表情,也拍下病人額外的表情,比如說痛苦,女士可能是肩膀疼,醫生問他,你能不能把胳膊抬起來,想看看肩膀多疼,他想這麼做,我們就可以去平衡,我們可以測量痛苦的程度,還有就是抑鬱症。西方國家有很嚴重的抑鬱症的問題,尤其是老年當中,抑鬱症甚至影響35%老年人口。還有更大問題是工作人口,在西方國家實際上給我們帶來上千億美金的損失。一般大家不願意討論自己的抑鬱的病情。
比如說我們老年人口比較多,接下來二十年當中,老年人他們癡呆也是越來越嚴重,我們用這個系統幫助我們應對這些老年人的病情。我們想用對他們表情的判斷他們的病情,這種判斷比人類自己判斷準的多。偶然差多在每一秒可以觀察到18到20貞這樣一些信號,很多是微妙的信號。我們透過微妙信號判斷他們的抑鬱,或者是癡呆病情。有時候看他們微笑的質量而不是數量,一般來說他們往往微笑完了之後,一般來說他們微笑面孔突然耷拉下來,我們就是用耷拉機會拿來分析他們的病情。實際上這種系統可以做到非常準確地判斷。
說到對癡呆的判斷,我們一般會觀察他們眼睛的變化。我們人眼是觀察不到細微信號。我們就是用攝象頭來拍下人們眼部的變化。我們在每一秒可以觀察到40貞微妙的信號,當然有的時候看網速。
你可以看到CBS在倫敦,這是我們另外做的工作,你可以看到我們之間分析他們臉部特徵,我們研究他們的表情,我們可以看到他們在老年人家中,讓他們照顧年幼的孩子,看到他們的反應,透過我們這樣一個軟體,可以客觀分析他們的反應,同時透過這種客觀的分析,我們讓他們先去看,可以看到他們的結果,我們可以看到基本上,我們的準確率可以達到90%。這個是做了三個星期,我們可以看到兩位年老人士他們的反應,我覺得他們的表情還是比較明顯的。
你可以看到有一個是有抑鬱症,另外個是沒有的。你可以看到下面這位女士是有抑鬱症?,上面這個是抑鬱症嗎?這兩個女士哪一個有抑鬱症?上面的女士反應比較消極,他們看有意思的影片,他們的表情告訴我們他們的狀況。這是我們做的另外一個項目,這是關於發展孩子的藝術天賦,你可以看到鑑別特別特徵和反應的時候,我們去分析,我們透過機器和軟體能夠去教他們,其實我們所有的軟體是很穩定的。當我們看到這些孩子很開心的時候,尤其揮動他們的手的時候,他們就是表達他們很開心。我們可以看到他們很開心。這個時候表情是笑的,我們能夠去強調它這樣表貞的變化,像頭的動作,或者眉毛的動作,都能夠預測你的表情。這些表情是臉上各個部位共同去運作,不光眉毛能夠表達一種表情,我們透過這些機器人就能夠教這些孩子特定的表情和表述。
我們現在目前有不少項目,這個是來針對手機一些數據,你可以看到拿著手機做臉部的識別,我們還有不同的這些條件分析,你可以看到有反光,包括可能有一些噪音的數據。
這些都是很難的,我們希望解決這些問題。另外一個就是自動嘎是得應用。我們知道在特斯拉里面,實際上有很多外部的傳感器,但是車內沒有傳感器,因爲實際上我們想要至少要知道駕駛員是不是看著路,實際上我們目前內部並沒有傳感器能夠捕捉到這些資訊,去年特斯拉請我們給他們提供這樣一種在車內使用的識別技術。這個是也是非常重要的。
就是基於攝象頭這種諮詢,我們可以用在很多環境下,比如說培訓人們談判技術,面試的時候也可以使用這樣的技術,我們對會議進行分析,我們覺得這個報告很重要。就是親密關係的識別或者友好關係的識別非常重要。我們知道75%病人,他們在投訴醫生的時候主要是投訴醫生對他們不夠友好,因此這種和諧友好關係的識別也很重要。
【提問】:你的這個演講非常有意思,作爲一個外行,我特別喜歡看電視,我想起了電視《對我說謊》,我覺得這種識別技術很重要應用環節就是執法,警察想知道你是不是在說謊,或者說實話,這個會影響一些法律的問題,你們這個研究有沒有達到這個層面,有沒有考慮執法方面使用?
【嘉賓】:大家都想知道對方是不是在說謊,我們並沒有這樣的數據,我們也不會有這樣的數據。問題在於人類,實際上專家可以判斷對方是不是在說謊,它的判斷準確率纔是60%,還有就是生理層面,我們判斷這個人是不是說謊話或者準確率,從生理層面纔有70%,我不想在這個領域進行開發,因爲準確率是不太高的。謝謝!