代码实现大模型强化学习(PPO)，看这个视频就够了。

ShowBL > 代码实现大模型强化学习(PPO)，看这个视频就够了。

UP主：

封面：

简介：

大模型强化学习(PPO)，看这个视频就够了。代码地址：https://github.com/RethinkFun/trian_ppo/tree/main/train_ppo环境信息：torch          2.9.1transformers...

RethinkFun的视频

条件和引导生成，conditional generation，Classifier Guidance，Classifier-Free Guidance，CFG

《RethinkFun深度学习教程》：6.6 用PyTorch实现线性回归

《RethinkFun深度学习教程》：6.5 计算图与自动求梯度

一次学懂PyTorch里的Tensor

《RethinkFun深度学习教程》：第六章线性回归 6.1 PyTorch简介

《RethinkFun深度学习教程》：5.6线性回归只能拟合直线吗？

ShowBL
www.showbl.com

代码实现大模型强化学习(PPO)，看这个视频就够了。

条件和引导生成，conditional generation，Classifier Guidance，Classifier-Free Guidance，CFG

《RethinkFun深度学习教程》：6.6 用PyTorch实现线性回归

《RethinkFun深度学习教程》：6.5 计算图与自动求梯度

一次学懂PyTorch里的Tensor

《RethinkFun深度学习教程》：第六章线性回归 6.1 PyTorch简介

《RethinkFun深度学习教程》：5.6线性回归只能拟合直线吗？

《RethinkFun深度学习教程》：5.5动手实现多元线性回归

《RethinkFun深度学习教程》5.4 多元线性回归

《RethinkFun深度学习教程》5.3 梯度下降算法

《RethinkFun深度学习教程》：4.8极大似然估计

《RethinkFun深度学习教程》：4.7中心极限定理和正态分布

《RethinkFun深度学习教程》：4.5大数定律

《RethinkFun深度学习教程》：3.8方向导数与梯度

《RethinkFun深度学习教程》：3.7全微分

《RethinkFun深度学习教程》：3.5一元函数微分

《RethinkFun深度学习教程》：前言

一次学懂多模态算法：ALBEF模型

《RethinkFun深度学习教程》：15.3 层归一化

《RethinkFun深度学习教程》：9.8 批量归一化

《RethinkFun深度学习教程》：9.6 权重衰减

ShowBLwww.showbl.com

条件和引导生成，conditional generation，Classifier Guidance，Classifier-Free Guidance，CFG

《RethinkFun深度学习教程》：6.6 用PyTorch实现线性回归

《RethinkFun深度学习教程》：6.5 计算图与自动求梯度

一次学懂PyTorch里的Tensor

《RethinkFun深度学习教程》：第六章 线性回归 6.1 PyTorch简介

《RethinkFun深度学习教程》：5.6线性回归只能拟合直线吗？

《RethinkFun深度学习教程》：5.5动手实现多元线性回归

《RethinkFun深度学习教程》5.4 多元线性回归

《RethinkFun深度学习教程》5.3 梯度下降算法

《RethinkFun深度学习教程》：4.8极大似然估计

《RethinkFun深度学习教程》：4.7中心极限定理和正态分布

《RethinkFun深度学习教程》：4.5大数定律

《RethinkFun深度学习教程》：3.8方向导数与梯度

《RethinkFun深度学习教程》：3.7全微分

《RethinkFun深度学习教程》：3.5一元函数微分

《RethinkFun深度学习教程》：前言

一次学懂多模态算法：ALBEF模型

《RethinkFun深度学习教程》：15.3 层归一化

《RethinkFun深度学习教程》：9.8 批量归一化

《RethinkFun深度学习教程》：9.6 权重衰减

ShowBL
www.showbl.com

《RethinkFun深度学习教程》：第六章线性回归 6.1 PyTorch简介