隨著ChatGPT的推出,谷歌(Google)在人工智慧領域的主導地位遭遇了意外挑戰,谷歌花了一年時間,終於對這一挑戰做出了一系列回應。
本週發佈的大型語言模型系列Gemini將爲它提供一個更強大的平臺,以對抗ChatGPT背後的OpenAI和微軟(Microsoft)。微軟今年已使用OpenAI的模型來增強其所有軟體和雲端服務。
現在的問題是,Gemini 能否給谷歌現有的服務帶來有意義的改變——也許更重要的是,它能否成爲一系列新服務的基礎,讓人工智慧更深入地融入日常生活。
隨著本週Gemini三種「口味」的公佈,谷歌終於在這項自己的研究人員開發、卻被OpenAI的ChatGPT帶入主流的技術上打上了自己的印記。例如,Pro版的定位與OpenAI的GPT-3.5完全相同,後者是ChatGPT免費版本背後的模型,也是今年其他公司推出的許多首批生成式人工智慧程式的主力。
較小的Gemini Nano可以與最小版本的LLaMa 2 (Facebook的開源模型)等系統相匹敵,使其能夠在移動設備上運行。蘋果(Apple)一如既往地在將生成式人工智慧引入iPhone之前採取了深思熟慮的態度,但Gemini在谷歌最新款Pixel手機上的出現表明,它等不了太久。
將於明年初推出的頂級模型Gemini Ultra,承載了谷歌的主要希望,即在將生成式人工智慧轉變爲更有用的日常工具的競賽中,趕上或超越OpenAI的GPT-4。該公司今年在這方面落後了,但有一些明顯的優勢可以幫助Gemini在2024年進入一個大市場。
其一是分佈。例如,谷歌本週表示,將把Gemini新增到佔瀏覽器市場逾60%份額的Chrome瀏覽器中,使數十億網路用戶即時訪問能夠分析網頁內容等功能的工具。
隨著谷歌像這樣利用其現有的市場力量來推動其人工智慧雄心,競爭監管機構將密切關注。
谷歌的另一個優勢是OpenAI的不確定性。上月,OpenAI首席執行長薩姆•奧爾特曼(Sam Altman)被令人震驚地解僱並復職後,許多在OpenAI模型基礎上建立了自己的生成式人工智慧計劃的企業將尋求對沖賭注。
這家搜尋公司也希望它的Bard聊天機器人在擁有更好的語言模型後,能更好地與ChatGPT競爭。但該公司重獲優勢的最大希望可能在於率先推出由生成式人工智慧驅動的下一個突破性服務。谷歌聲稱Gemini具備的一些功能表明,谷歌認爲這些功能可能實現。
例如,它對Gemini從一開始就被設計爲「多模式」這一事實進行了大量的宣傳——也就是說,它不僅能夠理解文字,還能夠理解影像、影片和音檔。根據谷歌的說法,這使得它比GPT-4等模型更適合處理依賴視覺和聽覺等感官的日常情況。
這可能是朝著能夠更好地在現實世界中運行的人工智慧系統邁出的一步。但現在判斷這能實現哪些應用,或者谷歌是否真的取得了它所宣稱的技術優勢,還爲時過早。
另一個發展方向在於谷歌所說的Gemini的推理和規劃能力。這些技能可以爲日後成爲能夠解決複雜問題並制定行動計劃的個人助理打下基礎。
如果這些助手與其他網路服務相連接,它們也可能成爲代理,代表用戶採取行動。例如,想像一下購物代理,它不僅能幫你找到你想要的產品,還能幫你付款。
這已經成爲2024年及以後人工智慧領域的關鍵戰役之一。OpenAI上個月在這個方向上邁出了第一步,該公司表示,它的用戶將能夠在其模型基礎上構建初級代理,然後在OpenAI的應用商店中出售。這可能預示著ChatGPT之外的下一個重大人工智慧突破——而這一次,谷歌無意被拋在後面。