【生成式AI時代下的機器學習(2025)】第二講：一堂課搞懂 AI Agent 的原理 (AI如何透過經驗調整行為、使用工具和做計劃)

95666 __________

投影片連結：docs.google.com/presentation/d/1kTxukwlmx2Sc9H7aGP…

5:45 此處應為 AlphaZero 而不是 AlphaGo Zero

6:10 此處並不是說 RL 不重要，畢竟 LLM 的訓練過程中也有使用 RL。此處想要表達的意思是，LLM 已經取得了某種程度的通用能力，不需要再針對不同的任務進行 RL 訓練。

【生成式AI時代下的機器學習(2025)】第二講：一堂課搞懂 AI Agent 的原理 (AI如何透過經驗調整行為、使用工具和做計劃)

コメント