TODO: 结合RL原理、图示、代码,对PPO计算流程加以说明

ϕ=ϕargmaxEs∼p(s;ϕ)21min(∣∣rt+γVπ(st+1)−V~π(st)∣∣22,∣∣rt+γVπ(st+1)−clip(V~π(st),Vminπ,Vmaxπ)∣∣22)
θ~=θ~argmaxEs∼p(s;θ),a∼π(a∣s;θ)min(π(a∣s;θ)π(a∣s;θ~)A(s,a;θ),clip(π(a∣s;θ)π(a∣s;θ~),1−ϵ,1+ϵ)A(s,a;θ))