UP主: 封面: 简介:使用 AMD MI50 32G、NVIDIA V100 32G/16G 等专业显卡,完整记录 Qwen3.5-27B/35B 等大模型的本地部署、量化推理、多卡加速与分布式实验。📌 你将会看到:• 双卡/四卡推理...
视频选集 01_双 MI50 32G 成功运行 Qwen3.5-27B!量化版多模态实测 + 本地部署指南 02_Qwen3.5 27B vs 35B-A3B 全数据展示 双卡 MI50 详细测速 03_Qwen 系列真实体验排名 + 六模型速度对比实测 04_MI50 跑 Qwen3.5 出现乱码?一次远程排查耗费 4 小时 05_MI50 的 llama.cpp ROCm vs Vulkan 实测对比|Qwen3.5 27B 35B 速度差异 06_双 V100 32G vs 双 MI50 32G|llama.cpp 实测 Qwen3.5 27B35B 性能对比 07_运行本地大模型的极简方案 08_RPC 分布式推理实验报告:双机四卡跨网络跑大模型 09_CUDA vs Vulkan:双 V100 跑 Qwen3.5 实测对比 llama.cpp 性能测试 10_RPC 分布式推理实验:同机 PCIe 与跨机网络性能对比 11_双 V100 32G vs 双 MI50 32G:Qwen3.5 27B35B 推理性能完整对比(CUDA ROCm Vulkan) 12_四卡 V100 16G vs 双卡 V100 32G:Qwen3.5 27B 35B 推理性能测试 13_vLLM 张量并行到底有多强?V100 跑 Qwen3.5 35B 实测 14_V100 跑 Qwen3.5-27B 实测对比:vLLM vs llama.cpp,输出速度差距 4 倍? 15_群满了:200 人群升级 1000 人群 16_双机四卡分布式推理实验:MI50 + V100 合跑 Qwen3.5 27B,llama.cpp RPC 与网络带宽测试 17_ROCm 反超 Vulkan!MI50 跑 Qwen3.5 27B 35B 速度测试 18_NVLink vs PCIe:从数据传输角度重新理解大模型推理瓶颈 19_LMDeploy vs llama.cpp:Qwen3.5 27B35B 实测对比(V100×2) 20_1Cat-vLLM 直接碾压?V100 实测:1Cat-vLLM vs LMDeploy 性能全对比 21_llama.cpp b8575 性能实测|v100 32g2 Qwen3.5 27B CUDA 预处理速度提升 50% 22_LMDeploy 性能暴涨?对比 3 月数据:预处理最高提升 4 倍 23_资料分享:AI服务器配置指南 从需求到硬件选型 24_PG503 32G4 使用 1Cat-vLLM 框架推理 Qwen3.6 35B 的数据 25_双 MI50 跑 Qwen3.5 3.6 实测数据曝光,还有人感兴趣吗? 26_多后端加载机制解析:llama.cpp 新编译选项解读 27_多后端加载实测:A卡+N卡混合推理真的实现了 28_1Cat-vLLM 1.0.0 来了!实测 MTP1MTP2 对 27B35B 模型的输出速度影响