测评国内大模型的Agent能力,是不是真如新闻稿里那么强?

/ 0评 / 0

文首备注:本文中的 Agent 是具备自主思考、决策、行动和反馈的模型应用,不是 Dify、Coze 之类工作流智能体应用。

7 月以来,Kimi、Qwen、GLM 等模型厂牌陆续发布了聚焦 Agent 能力的大模型。

这篇文章,是我使用一个简单数据分析任务,对它们Agent能力横向测评的过程记录。

结论放在最前面:除了 K2 以外,一个能打的都没有。

测评模型

除了开篇列出的厂牌,字节、腾讯和百度 6 月以来也都发布/开源了自家的模型,但是在介绍宣传中没提 Agent 能力,所以本次测评没选。

测评模型 List:

以下是摘自他们的官方文档的介绍:

Kimi-K2
2025-07-11发布

Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。

Qwen3-coder-480b
2025-07-22发布

Qwen3-Coder-480B-A35B-Instruct 在 Agentic Coding、Agentic Browser-Use 和 Agentic Tool-Use 上取得了开源模型的 SOTA 效果,可以与 Claude Sonnet4 媲美。

GLM-4.5
2025-07-28发布

国产综合评测第一,推理、代码、智能体等综合能力达开源模型SOTA!

测评任务和背景

测评环境:Dify-1.7.1 版本
测评工具:Agent 策略节点
测评任务:提供一个包含 12 个字段、1000行数据的 Excel 表格,交代表格的基础信息和分析要求。由模型根据 ReAct 自动完成。

关于 Dify 是啥,不赘述。

Agent 策略节点介绍一下

简单说,就是把模型工具提示词封装在了一个节点中,你可以配置模型、工具,输入指令后,模型会根据任务需求自动选用、使用工具,自主迭代直到完成任务。

ReAct 是 Agent 的核心工作逻辑

测评选择的 Agent 策略使用了开发者提供的默认调度提示词模板,位置在@junjiem/dify-plugin-agent-mcp_sse/prompt。太长了,就不贴出来了。

Agent 节点配置了两个工具:

  1. 代码解释器:用来运行模型生成的代码。
  2. mcp-server-chart:一个生成可视化图表的 MCP

Agent 节点的指令提示词(指挥模型干活的附属指令,理论上是多余的):

扮演一个资深的数据分析师,充分理解用户的分析要求,挖掘要求背后的业务需求,调用可用的工具高效完成数据分析。在执行分析任务之前,确保你已经查看了数据的结构,理解了每个字段的意义,有了清晰的单变量、双变量和多变量分析计划。
最终生成分析报告时,确保整合了每一轮分析生成的图表(均为图片URL),以 Markdown 格式输出。
注意:`generate_`相关的工具仅用于分析结果的可视化呈现。

测评的任务也需要详细介绍一下

分析任务提示词:

附件路径下的 Excel 表格内,是我导出的市场部营销活动的数据表格,请充分挖掘表格中各项数据的价值,为我生成一份可视化数据分析复盘报告。

提供的数据为模拟数据,12 个字段、1000 行数据,表头如下:

数据分析任务,是我个人觉得考验大模型推理工具调用长上下文注意力最好的方式,原因有四:

  1. 需要频繁写代码、调用执行器、读取运行结果,即考验代码能力、又考验工具调用能力;
  2. 必须分步处理,有计划的写代码、分析、处理分析结果,考验模型的规划能力;
  3. 需要根据表头和分析需求,输出可进行的分析维度,考验文本理解和推理能力;
  4. 大量过程步骤生成的结果数据、结论几乎能撑满上下文窗口长度,考验超长上下文情境下的注意力水平(能否考虑到每一步输出的结果,呈现在最终的分析报告中)

测评工作流

使用 Dify 的 ChatFlow,包含四个节点:

  1. 开始节点,上传数据表
  2. 代码节点,提取上传 Excel 的路径
  3. Agent 策略节点,执行分析任务,最大迭代次数 30 轮
  4. 直接回复节点,输出结果

背景信息交代完毕,下面是测评结果。

测评结果

K2:输出完整报告,可复现

测评次数:3 次
运行时间:500s-600s
消耗token:200W-300W
迭代轮次:10 轮左右
任务结果:输出 5-6 个维度+分析结论的图文分析报告

K2 驱动的 Agent 节点的完整输入输出超级长,我放在文末的飞书文档了。

GLM-4.5:不能完成任务,重复读取表格

测评次数:3 次
运行时间:200s-300s
消耗 token:40W-60W
迭代轮次:30 轮耗尽
任务结果:一直重复“我要写代码看看表格内容”,直到迭代次数耗尽。

到第 30 次迭代的时候 GLM-4.5 甚至自己造了个工具read_excel……且不说 Agent 能力了,这连 Function Call 都不行……

(根据 Agent 策略的提示词和工具列表,action_name只有simple_codemcp-server-chart下的generate_系列可选。)

GLM-4.5 驱动的 Agent 节点的完整输入输出也在飞书文档。

Qwen3-coder-480b:不能完成任务,重复读表

测评次数:5 次
运行时间:60s-400s
消耗 token:44W / 未显示
迭代轮次:30 轮耗尽
任务结果:一次一直重复思考+读表任务,一次重复修改代码报错,直到迭代次数耗尽;两次任务完成一半因为非要使用一个不允许的库报错终止。

截图为半成功的一次

第一次使用百炼云的 Key,一轮测试迭代了 30 轮“I am thinking about how to help you”+输出代码。(前面还有一次因为我提供的文件路径不对,迭代了 7 轮以后自行放弃),两次就消耗完了百炼云赠送的免费额度……

然后使用魔搭社区赠送的额度,测试了 4 次。

第一次测试在第 9 轮自动结束,过程看路径是对的,有在一步一步分析,从第九步开始,试图使用matplotlib库生成图表,报错后终止任务。

于是修改了代码解释器工具的描述为:运行一段代码并返回结果。当前 python 环境为沙盒环境,仅提供基础库和numpy、pandas、seaborn三个三方库。

再次测试,又用matplotlib库,然后在第四轮自行结束。

第三次测试,迭代 30 轮,重复“Let's start by loading the Excel file……”+输出代码,直到 30 次迭代耗尽

第四次测试,迭代 30 轮,死磕一个JSON blob format的错误,连续修改了 30 轮也没修好……(因为每次生成的代码跟之前的都一样)

部分输入输出的过程代码,放在飞书文档了。

MiniMax-M1:浅测一下,还不错

MiniMax 6 月份发布的 M1,也宣传转为 Agent 而生,所以也拿来测试了一下。

测了两次,第一次顺利完成任务了,只是输出的报告信息量不是很高;第二次因为系统原因崩溃,过程每一轮都在推进分析。

有一个很拧巴的点:M1会把接下来要正式输出的代码在思考过程中也输出一遍。

这就很费时,第一次测试,每一轮迭代的时间都接近 1 分钟;第二次有两轮甚至超过了 2 分钟。

而测评的其他模型,每一轮迭代都在 20s 以内。

总结一下

K2 是真强,已堪 Agent 重任。期待 K2 驱动的、面相国人的首个 Manus 类产品,引爆国内 Agent 生态。

M1 也很棒。

其他的,少些宣传,多些钻研吧。

测评的部分输入输出数据文档地址:https://bytesmore.feishu.cn/docx/AcgqdkS0vo31VRxMrt6cHhvgnMh

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注