DeepSeek V4 模型的 Agent 能力实测
DeepSeek V4 系列发布之后,关于它能不能用、好不好用的讨论很多,但大部分评测还停留在普通对话或编码上。CowAgent 作为一个中立的 Agent 框架,则更关心模型在 Agent 链路中的真实表现,包括工具调用、长上下文、长期记忆、浏览器自动化、知识组织,本文用这 6 个真实场景在 CowAgent 中对 DeepSeek V4 模型做了全面测试。
DeepSeek V4 系列发布之后,关于它能不能用、好不好用的讨论很多,但大部分评测还停留在普通对话或编码上。CowAgent 作为一个中立的 Agent 框架,则更关心模型在 Agent 链路中的真实表现,包括工具调用、长上下文、长期记忆、浏览器自动化、知识组织,本文用这 6 个真实场景在 CowAgent 中对 DeepSeek V4 模型做了全面测试。