代码实现大模型强化学习(PPO),看这个视频就够了。

UP主:
封面:
简介: