摘要: AI Agent中文是AI代理,它被視為實現通用型人工智慧(AGI)的一小步,最大不同就是擁有完成任務的「彈性」、「感知」與「調整」。
AI Agent(AI代理)是什麼?
長久以來,通用型人工智慧(Artificial General Intelligence,AGI)一直是AI界的聖杯,指的是未來AI可以模仿人類的思維和行為,應對挑戰任何複雜的任務。 而AI Agent(AI代理)被視為有機會實現通用型人工智慧的載體。AI大師吳恩達在今年3月的一場演說中就提到,「在邁向通用型人工智慧的漫長旅程中,AI Agent可以幫助我們邁出一小步。」 到底什麼是AI Agent?跟現有的大型語言模型又有什麼關係?
AI Agent(AI代理)的定義是什麼?
AI Agent的定義,指的是 能用感測器感知周圍環境,然後採取相對應的行動,做出決策的人工智慧 。 對比現在的大型語言模型可以更清楚了解,現在大家使用大型語言模型,不論是ChatGPT或是其他類型,大多處於「一問一答」的形式,你請它翻譯、它給你答案;你請它總結某篇論文,最終獲得一段結論。 但是現實世界中的人類,可以處理多步驟的複雜工作。舉例來說,記者日常生活中的專訪邀約,必須先知道主題、邀請受訪者、了解受訪者可以接受訪問的時間、選定訪問地點⋯⋯。在這個過程中,如果受訪者突然臨時有事,就必須重新調整時間;或是最後專訪的題目大轉彎,也要調整訪問的方向。 這跟一問一答的狀況完全不一樣。為了完成更複雜的任務,AI Agent要擁有更多能力,包含4個要素: 計畫 、 記憶 、 工具 與 行動 。其中計畫、記憶能力要能隨時因應環境狀態的不同修正,使用的工具、行動的方式也會視目標來調整。 修正、調整、選擇適當的行動方式(或工具),就是最大的關鍵。
AI Agent跟大型語言模型有什麼關係?
現階段,大型語言模型被視為是AI Agent的大腦。 根據《彭博》的報導,OpenAI把AI的發展階段分為5級: 聊天機器人(chatbots):具有對話功能的AI 推理者(Reasoners):能像人類一樣解決問題 代理(Agents):可以正確地採取行動(重點在於使用工具) 創新者(Innovators):可以幫助發明的AI 組織(Organizations):AI可以執行人類組織的工作 根據OpenAI發言人的說法,該公司認為它目前處於第1級,不過非常接近第2級,可以像人類一樣解決問題,但還沒有辦法直接地使用工具。 也就是說,大型語言模型就像是一顆可以對話的大腦,慢慢進化成可以解決問題、使用工具,最終執行所有人類的工作。
AI Agent其實現在就可以做得到?
其實現在就可以做到部分AI Agent的展望,靠的就是把任務拆分出來,交給不同的大型語言模型去執行。同樣以「邀約專訪」來舉例,你可以有一個約時間的AI、一個確認時間的AI、一個寫訪綱的AI⋯⋯.,這個工作流程被稱為代理工作流程(Agentic Workflow),重點在於上述提到的:計畫與記憶能夠修正、使用的工具與行動能夠調整。 「如果你期待GPT-5、Claude4、Gemini 2.0(泛指最新一代大型語言模型),現在透過代理工作流程或許就可獲得接近的表現。」吳恩達說。 所以現階段有許多擁有「垂直能力」的AI,也許目前只有工程師有能力把它們串接在一起,在不久後,或許一般人也可以享受類似AI Agent的服務,只是就像是LangChain共同創辦人暨執行長哈里森.卻斯(Harrison Chase)所說:「人類現在還是要介入,因為AI Agent還不夠可靠;但是介入的太多,代表AI Agent還不夠有用。」但相信在沒有那麼遠的未來,就會有更多成熟的AI Agent出現。 如果想要嘗試一些雛形,現有主打只要下指令就好的AutoGPT、複製自己工作流程的AgentGPT等工具,雖然褒貶不一,也是一窺未來的一道窗口。 另外,最讓人興奮的不只是「虛擬世界」的AI Agent,這一整套系統也可以被放在機器人身上。把任務交給機器人,它可以透過感測器(文字、觸覺、視覺、聽覺)感知環境狀況,去產生完成任務的計畫,然後用文字、圖像,甚至是機械手臂來完成任務,這也是AI近期能帶動機器人產業發展未來的重點原因。
轉貼自: bnnext.com
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應