抖音播放https://www.douyin.com/video/7599982426655427866 作者 封面: 简介:如何从0到1打造自己的agent评估体系 Anthropic《Demystifying evals for AI agents》⑤#大模型开发 #agent开发 #agent #agent评估
慢学AI的视频 Agent 评估工具要不要自建?如何理性选择框架 从 Evals 到监控:为什么只有评估还不够? 如何从0到1打造自己的agent评估体系 四类 Agent 的评分器侧重点 驯服随机性:Agent 评估中的Pass@k 与Pass^k Agent评估中的评分器Grader怎么做? 没有评估的 Agent,注定不可规模化 Workflow 模式之:并行分段—— 用结构换效率 Workflow 模式之:routing路由 Workflow 模式之:Prompt Chaining 构建长效Agent功能清单、增量开发与端到端测试 单agent如何突破 上下文窗口上限?用“串行接力”对抗失忆 顶级Agent的上下文工程共识 摘要、压缩与处理大工具输出的技巧 system prompt中工具太多,模型无法选择? 上下文隔离的两种模式 上下文缩减新视角可逆vs不可逆 如何防止fewshot导致的模仿者陷阱 为什么要在上下文中保留错误信息 Agent的专注力法则—通过复述操控注意力