2025-01-03
代理式AI崛起!Gemini 2.0變身智能助理,無需人類介入,完全自主決策和行動,我們準備好了嗎?
2024年底,Google發表Gemini 2.0模型不久,OpenAI也迅速推出次世代模型o3,兩者均懂得自我思考如何解決複雜難題,並能代替人類執行解難方案。這不但象徵著新一輪AI大戰即將展開,更預告了「代理式AI」(Agentic AI)的時代快將降臨。這新類型的AI模型跟一般大型語言模型有甚麼不同?究竟它的功能有多厲害?又可能會造成哪些潛在危害?
Read More
AI Agent是下一波AI浪潮?Google、Salesforce爭相搶灘布局,為何軟件巨頭押注AI代理?
Google最強AI模型來襲!Gemini搶攻企業、消費者、手機3大領域,建立完整AI生態圈碾壓ChatGPT!
AI革命加速!OpenAI o3思考力大躍進!編程、科學知識更勝人類專家!離通用人工智能還有多遠
代理式AI能自我學習和改進
有留意生成式AI發展的讀者,可能都會聽過「AI代理」(AI Agent)——意指在無需人類介入的情況下,能夠自主做出決策、完成行動的AI工具。那麼,代理式AI又是甚麼?這是指可以利用情境感知、推理和學習功能,針對不斷變化的條件做出決策的AI系統,Tesla電動車的自駕系統正是最明顯例子,而在背後驅動AI代理運作的模型亦屬於Agentic AI。
代理式AI可以先從環境中蒐集資訊,跟著運用推理來評估選項、規劃最佳行動方案,並自主執行任務。隨後,它會監察執行結果,務求從回饋中學習,以改進日後表現。透過感知、規劃、行動、學習的循環,它可以在最低程度的人為監督下處理新問題、應對新挑戰,成為人類的智能助手。
Gemini 2.0具備多模態能力
2024年12月11日,Google發表新一代AI模型「Gemini 2.0」,將Gemini 2.0 Flash實驗版開放給所有Gemini用戶,並釋出3款AI代理:Project Astra、Project Mariner、以及Jules,標誌著代理式AI技術的重大進展。
Google表示,Gemini 2.0是旗下功能最強大的模型,不僅坐擁多模態處理能力,還可以直接調用各式Google工具來執行任務,讓他們能夠建構全新AI代理,更靠近通用型助理的願景。(圖片來源:Google官方網誌)
Gemini 2.0具備多模態(Multimodality)處理能力,支援文字、圖片、音頻、視訊等多種模態輸入與輸出,能在不同數據類型間無縫切換並進行整合。譬如說,上傳一幅紙箱的圖片,紙箱側面印有「新鮮水果」的文字,接著輸入提示詞:「繪製一幅俯瞰紙箱內容物的圖片」,模型能夠閱讀和理解圖片中的文字,然後進行推理並生成作品。
Astra提升跨語言交流便利性
為讓網民體驗AI代理,Google推出以Gemini 2.0打造的AI助理雛型Project Astra。它支援多種語言,能夠跟用戶進行自然流暢的對話,甚至能夠處理混合語言的輸入,還可以理解地方口音和不常見的詞彙。再者,它擁有強大的記憶功能,可以記住長達10分鐘的內容,並且理解對話的上下文,確保回應的相關性和精確性。
Astra可以透過Google Lens「看到」街上的裝置藝術品,跟著利用Google Maps得知藝術品的位置,然後使用Google Search找尋相關說明資訊,為用戶講解其背後含義。(圖片來源:翻攝Google官方YouTube影片)
Astra能夠即時調用Google Search、Maps和Lens等工具,輔助用戶完成日常任務,例如安排日程、設定提醒、提供資訊查詢等,提升生活效率;它又可以扮演語言導師的角色,用戶可跟它進行外語練習,改進外語能力。
Mariner助用戶完成網上任務
Project Mariner是一個可以在網頁瀏覽器內協助用戶完成網上任務的AI助手,將以Google Chrome擴充插件的形式推出。它可以閱讀網頁內容,並提取重要資訊,再以易於理解的方式呈現給用戶;更厲害的是,它可以替用戶填寫網頁上的表單、搜尋航班資訊、甚至購買家居用品,讓鍵盤與雙手減少介入操作,重新定義人們使用互聯網的方式。
Google試算表上顯示了幾家公司的名字,用戶可在右側欄的Project Mariner視窗中,鍵入「尋找這些公司的官網及聯絡電郵」,Mariner隨即自行使用Google Search尋找資訊,並瀏覽相關官網,再將整理好的資訊展示給用戶看。(圖片來源:翻攝Google官方YouTube影片)
Google示範了一個Mariner的應用例子:透過Chrome打開Google試算表文件,內裏只有幾家公司的名稱。用戶在Mariner視窗中輸入提示詞:「尋找這些公司的官網及聯絡電郵」,然後Mariner立即上網搜尋資料,並將操作流程展示給用戶看:可以看到Mariner游走於Google Search和不同公司官網,逐一瀏覽網頁內容,約一分鐘後整理好資訊,再向用戶提供答案。如此一來,雖然回應時間慢了一點,但把人為監督加入流程,卻提高了答案的可信性。
Jules幫助開發者生成程式碼
Jules則是一個可以協助開發者的編程代理,能夠整合到GitHub工作流程。它既可以根據上下文提供代碼建議,甚至直接生成所需程式碼,又可以檢測程式碼中的錯誤,並提供修復建議,以提升編程效率,縮短開發周期。
據悉,現時已有零售業者採用多模態AI代理來優化客服中心運作:當顧客致電客服查詢,語音經轉錄為文字後,再由AI進行分析問題並生成答案,然後輸出語音回覆。此外,金融業者也可以使用AI代理,分析文字、音頻、圖像等資料,並串連股票查詢工具,再結合財務數據與市場情緒分析,生成更精準的投資策略報告。
依賴AI讓人失去批判思考能力
國際市調機構Gartner評估,2024年企業應用軟件中的AI代理使用率不足1%,但預測到2028年將大幅增長至30%,並能取代15%的日常工作決策流程。這意味著代理式AI技術將快速成為市場不可或缺的一部分。
然而,AI代理普及後,可能會帶來一些危害。當人們發現自己難以克服的複雜任務,AI代理卻可以輕鬆完成,因而產生極大的挫折感,覺得自己變得愈來愈無用,於是漸漸將所有事情交給AI代理去辦,以致過度依賴AI,讓人們失去批判思考能力。
媒體網站或喪失網上廣告收入
此外,當人們透過AI代理搜集資料,只閱讀由AI生成的摘要內容,而不再直接點閱網站,或會引致媒體網站喪失龐大的網上廣告收入。《紐約郵報》指出,Google新推的AI搜尋引擎功能「AI Overviews」,可能每年為網上出版商帶來逾20億美元(約156億港元)的經濟損失。
無論如何,Google與OpenAI已爭相推出代理式AI,而微軟(Microsoft)、亞馬遜(Amazon)等科技巨頭也開始投入大量資源研發相關技術,相信AI產業將加速邁向自主決策的新時代,對人類社會和經濟結構產生深遠影響。
【香港好去處】etnet全新頻道盛大推出!全港最齊盛事活動資訊盡在掌握!► 即睇