【生成式AI時代下的機器學習(2025)】第二講:一堂課搞懂 AI Agent 的原理 (AI如何透過經驗調整行為、使用工具和做計劃)
95666
__________
投影片連結:docs.google.com/presentation/d/1kTxukwlmx2Sc9H7aGP…
5:45 此處應為 AlphaZero 而不是 AlphaGo Zero
6:10 此處並不是說 RL 不重要,畢竟 LLM 的訓練過程中也有使用 RL。此處想要表達的意思是,LLM 已經取得了某種程度的通用能力,不需要再針對不同的任務進行 RL 訓練。
コメント