RethinkFun的视频 一次学懂多模态算法:ALBEF模型 《RethinkFun深度学习教程》:15.3 层归一化 《RethinkFun深度学习教程》:9.8 批量归一化 《RethinkFun深度学习教程》:9.6 权重衰减 《RethinkFun深度学习教程》:9.7 Dropout Flash Attention 为什么那么快?原理讲解 十分钟搞明白Adam和AdamW,SGD,Momentum,RMSProp,Adam,AdamW 一次学懂对比学习:MOCO VIT (Vision Transformer)深度讲解 多模态模型CLIP深度讲解 模型量化二:训练后动态量化 PTQ PTDQ,pytorch里进行模型训练后动态量化 模型量化一:量化基础 对称量化 非对称量化 极大值量化 零点量化 DPO (Direct Preference Optimization) 算法讲解 DeepSeek-GRPO 大模型微调看这个视频就够了 SFT NEFTune 用梯度检查点来节省显存 gradient checkpointing 《RethinkFun深度学习教程》:17.2 旋转位置编码 《RethinkFun深度学习教程》:16.3 GPT2 《RethinkFun深度学习教程》:16.1 GPT1 一次学懂混合精度训练 AMP Automatic Mixed Precision