图解：LLM是怎么通过PPO优化偏好的？

发表于2025-01-01|更新于2026-07-13|自然语言处理

|字数总计:260|阅读时长:1分钟|阅读量:|评论数:

TODO: 结合RL原理、图示、代码，对PPO计算流程加以说明

$\phi = \argmax_{\phi} E_{s \sim p(s;\phi)} \frac{1}{2} \min \left( \underline{ || r_t + \gamma V^{\pi}(s_{t+1}) - \tilde{V}^{\pi}(s_t) ||_2^2 }, \underline{ || r_t + \gamma V^{\pi}(s_{t+1}) - \text{clip}( \tilde{V}^{\pi}(s_t), V^{\pi}_{min}, V^{\pi}_{max} ) ||_2^2 } \right)$

$\tilde{\theta} = \argmax_{\tilde{\theta}} E_{s \sim p(s;\theta), a \sim \pi(a|s;\theta)} \min \left( \underline{ \frac{\pi(a|s;\tilde{\theta})}{\pi(a|s; \theta)} A(s, a; \theta) }, \underline{ \text{clip} ( \frac{\pi(a|s;\tilde{\theta})}{\pi(a|s; \theta)}, 1 - \epsilon, 1 + \epsilon ) A(s, a; \theta) } \right)$