2025-01-03

代理式AI崛起！Gemini 2.0變身智能助理，無需人類介入，完全自主決策和行動，我們準備好了嗎？

#Smart Living #智能助理 #創科 #代理式AI #Google #ProjectMariner #Gemini2.0 #Jules #AI #ProjectAstra

　　2024年底，Google發表Gemini 2.0模型不久，OpenAI也迅速推出次世代模型o3，兩者均懂得自我思考如何解決複雜難題，並能代替人類執行解難方案。這不但象徵著新一輪AI大戰即將展開，更預告了「代理式AI」（Agentic AI）的時代快將降臨。這新類型的AI模型跟一般大型語言模型有甚麼不同？究竟它的功能有多厲害？又可能會造成哪些潛在危害？

Google最強AI模型來襲！Gemini搶攻企業、消費者、手機3大領域，建立完整AI生態圈碾壓ChatGPT！

AI革命加速！OpenAI o3思考力大躍進！編程、科學知識更勝人類專家！離通用人工智能還有多遠

代理式AI能自我學習和改進

　　有留意生成式AI發展的讀者，可能都會聽過「AI代理」（AI Agent）——意指在無需人類介入的情況下，能夠自主做出決策、完成行動的AI工具。那麼，代理式AI又是甚麼？這是指可以利用情境感知、推理和學習功能，針對不斷變化的條件做出決策的AI系統，Tesla電動車的自駕系統正是最明顯例子，而在背後驅動AI代理運作的模型亦屬於Agentic AI。

　　代理式AI可以先從環境中蒐集資訊，跟著運用推理來評估選項、規劃最佳行動方案，並自主執行任務。隨後，它會監察執行結果，務求從回饋中學習，以改進日後表現。透過感知、規劃、行動、學習的循環，它可以在最低程度的人為監督下處理新問題、應對新挑戰，成為人類的智能助手。

Gemini 2.0具備多模態能力

　　2024年12月11日，Google發表新一代AI模型「Gemini 2.0」，將Gemini 2.0 Flash實驗版開放給所有Gemini用戶，並釋出3款AI代理：Project Astra、Project Mariner、以及Jules，標誌著代理式AI技術的重大進展。

Google表示，Gemini 2.0是旗下功能最強大的模型，不僅坐擁多模態處理能力，還可以直接調用各式Google工具來執行任務，讓他們能夠建構全新AI代理，更靠近通用型助理的願景。（圖片來源：Google官方網誌）

　　Gemini 2.0具備多模態（Multimodality）處理能力，支援文字、圖片、音頻、視訊等多種模態輸入與輸出，能在不同數據類型間無縫切換並進行整合。譬如說，上傳一幅紙箱的圖片，紙箱側面印有「新鮮水果」的文字，接著輸入提示詞：「繪製一幅俯瞰紙箱內容物的圖片」，模型能夠閱讀和理解圖片中的文字，然後進行推理並生成作品。

Astra提升跨語言交流便利性

　　為讓網民體驗AI代理，Google推出以Gemini 2.0打造的AI助理雛型Project Astra。它支援多種語言，能夠跟用戶進行自然流暢的對話，甚至能夠處理混合語言的輸入，還可以理解地方口音和不常見的詞彙。再者，它擁有強大的記憶功能，可以記住長達10分鐘的內容，並且理解對話的上下文，確保回應的相關性和精確性。

Astra可以透過Google Lens「看到」街上的裝置藝術品，跟著利用Google Maps得知藝術品的位置，然後使用Google Search找尋相關說明資訊，為用戶講解其背後含義。（圖片來源：翻攝Google官方YouTube影片）

　　Astra能夠即時調用Google Search、Maps和Lens等工具，輔助用戶完成日常任務，例如安排日程、設定提醒、提供資訊查詢等，提升生活效率；它又可以扮演語言導師的角色，用戶可跟它進行外語練習，改進外語能力。

Mariner助用戶完成網上任務

　　Project Mariner是一個可以在網頁瀏覽器內協助用戶完成網上任務的AI助手，將以Google Chrome擴充插件的形式推出。它可以閱讀網頁內容，並提取重要資訊，再以易於理解的方式呈現給用戶；更厲害的是，它可以替用戶填寫網頁上的表單、搜尋航班資訊、甚至購買家居用品，讓鍵盤與雙手減少介入操作，重新定義人們使用互聯網的方式。

Google試算表上顯示了幾家公司的名字，用戶可在右側欄的Project Mariner視窗中，鍵入「尋找這些公司的官網及聯絡電郵」，Mariner隨即自行使用Google Search尋找資訊，並瀏覽相關官網，再將整理好的資訊展示給用戶看。（圖片來源：翻攝Google官方YouTube影片）

　　Google示範了一個Mariner的應用例子：透過Chrome打開Google試算表文件，內裏只有幾家公司的名稱。用戶在Mariner視窗中輸入提示詞：「尋找這些公司的官網及聯絡電郵」，然後Mariner立即上網搜尋資料，並將操作流程展示給用戶看：可以看到Mariner游走於Google Search和不同公司官網，逐一瀏覽網頁內容，約一分鐘後整理好資訊，再向用戶提供答案。如此一來，雖然回應時間慢了一點，但把人為監督加入流程，卻提高了答案的可信性。

Jules幫助開發者生成程式碼

　　Jules則是一個可以協助開發者的編程代理，能夠整合到GitHub工作流程。它既可以根據上下文提供代碼建議，甚至直接生成所需程式碼，又可以檢測程式碼中的錯誤，並提供修復建議，以提升編程效率，縮短開發周期。

　　據悉，現時已有零售業者採用多模態AI代理來優化客服中心運作：當顧客致電客服查詢，語音經轉錄為文字後，再由AI進行分析問題並生成答案，然後輸出語音回覆。此外，金融業者也可以使用AI代理，分析文字、音頻、圖像等資料，並串連股票查詢工具，再結合財務數據與市場情緒分析，生成更精準的投資策略報告。

依賴AI讓人失去批判思考能力

　　國際市調機構Gartner評估，2024年企業應用軟件中的AI代理使用率不足1%，但預測到2028年將大幅增長至30%，並能取代15%的日常工作決策流程。這意味著代理式AI技術將快速成為市場不可或缺的一部分。

　　然而，AI代理普及後，可能會帶來一些危害。當人們發現自己難以克服的複雜任務，AI代理卻可以輕鬆完成，因而產生極大的挫折感，覺得自己變得愈來愈無用，於是漸漸將所有事情交給AI代理去辦，以致過度依賴AI，讓人們失去批判思考能力。

媒體網站或喪失網上廣告收入

　　此外，當人們透過AI代理搜集資料，只閱讀由AI生成的摘要內容，而不再直接點閱網站，或會引致媒體網站喪失龐大的網上廣告收入。《紐約郵報》指出，Google新推的AI搜尋引擎功能「AI Overviews」，可能每年為網上出版商帶來逾20億美元（約156億港元）的經濟損失。

　　無論如何，Google與OpenAI已爭相推出代理式AI，而微軟（Microsoft）、亞馬遜（Amazon）等科技巨頭也開始投入大量資源研發相關技術，相信AI產業將加速邁向自主決策的新時代，對人類社會和經濟結構產生深遠影響。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

【你點睇？】中國對美關稅措施實施反制，同樣加徵34%關稅，據報亦不會批准TikTok分拆出售。你是否支持？► 立即投票