现在的顶级大模型(从 GPT-4 到 Claude)几乎都在使用强化学习,而其核心算法往往都绕不开 PPO (Proximal Policy Optimization)。 这个算法由 OpenAI 在 2017 年提出。虽然当时大模型还没出世,但 OpenAI 对强化学习的执着,最终在这个算法上展现了“天才般的设计”。为什么 PPO 成了业界标配?它又是如何解决传统强化学习中“数据利用率低”和“训练不稳定”这两大难题的? 在这个视频中,我们将抽丝剥茧,带你彻底理解 PPO 的底层逻辑: 📌 你将了解到:
www.bilibili.com