通义千问Qwen3.7-Max编程能力登顶全球第二,国产大模型终于攻下了这个山头

by JeariCk 1 min read
通义千问qwen3.7 - max

2026年5月26日凌晨,Code Arena更新了最新榜单。

阿里通义千问的Qwen3.7-Max,得分1541分,全球第二。前面只剩Anthropic的Claude系列,后面跟着GPT-5.5、Gemini-3.5-Flash、DeepSeek-v4-pro。

国产大模型第一次在编程这条线上杀进全球前二。

阿里巴巴大模型qwen3.7 - max
阿里巴巴大模型qwen3.7 – max

Code Arena 1541分是个什么概念

Code Arena不是那种跑个Hello World就过关的测试。LMArena旗下的人工盲测,覆盖前端开发、后端逻辑、智能体编程这些真实场景,测的是模型在复杂工程环境里实际写代码的本事。

排名长这样:

1. Claude系列(v7-thinking版)— 1667分
2. Qwen3.7-Max — 1541分
3. GLM-5.1 — 1633分(单点排名,综合盲测不如Qwen)
4. 后面一堆

细看的话:SWE-bench Pro(软件工程)拿了60.6%,SWE-Multilingual多语言编程78.3%,SciCode科学编程53.5%。单个看不炸,放一块就清楚了——能跟Claude掰手腕的国产模型,通义千问的Qwen3.7-Max是头一个。


35小时,它自己把芯片内核写出来了

比榜单数字更让开发者圈子震动的,是阿里云峰会当天(5月20日)的一个极限测试

工程师给了Qwen3.7-Max一个它从没见过的题目:在一块全新的、还没公开发布的平头哥”真武M890″芯片上优化AI推理内核。

没有性能数据,没有硬件文档,没有现成示例内核。从空白工作空间起步,Qwen3.7-Max自己动手了:

432次内核评估
1158次工具调用
– 连续35小时
完全自己搞定编写、编译、性能分析、迭代改进整个流程

结果:芯片推理速度比官方原生版本快了10倍。前代模型同样任务只跑到1.1倍。

这不是”AI帮你写代码”——是一个AI自己定位问题、设计方案、反复试错、最后交出比人类工程师水平还高的成果。


Agent 生态的核心枢纽

Qwen3.7-Max的真正定位不是”聊天更顺”,而是为Agent场景从头设计的智能体基座。放到今年整个Agent生态里看会清楚很多。

跨框架兼容,不挑环境

Qwen3.7-Max没打算搞封闭生态。它在Claude Code、OpenClaw、Qwen Code三种框架下都完整测过,表现稳定。你可以在自己习惯的Agent框架里直接换用Qwen3.7-Max,不用改架构。

这点其实挺实在的。Claude Code占了AI编程54%的份额,OpenClaw是增长最快的本地Agent框架。能在两个框架下都跑好,说明工具调用格式、指令遵循、多轮对话一致性上确实下了功夫。

MCP 生态深度嵌入

MCP(Model Context Protocol)已经是LLM对接外部工具的事实标准了。Qwen3.7-Max原生支持MCP,在MCP-Atlas和MCP-Mark两项Agent现实能力测试中都跑出国产最高分。对开发者的实际好处:不用写适配层,直接让模型调数据库、文件系统、第三方API。

Alibaba Cloud的文档直接给了开箱即用的OpenClaw配置,三行代码搞定:

```json
"agents": {
"defaults": {
"model": {
"primary": "modelstudio/qwen3.7-max"
}
}
}
```

全域思考 vs 其他模型的Agent模式

几款旗舰模型对Agent场景各有各的思路:

GPT-5.5走”自适应推理”,简单任务快跑、复杂任务多分配推理时间,偏黑盒优化
Claude Opus 4.7的”思考模式”在推理步骤上更透明,能看思考链条,但只限文本
Qwen3.7-Max的”全域思考”是第一个把文本、图像、代码归到一条推理链里的方案。Think模式做深度推理(类似系统二思维),No-Think模式做快速响应,用户按场景切换

这个差异对Agent开发挺关键。Agent任务经常要同时处理代码上下文、UI截图、文档这些混合输入,全域思考让模型在同一框架里理解这些信号,省了”切模型”或”搭桥接”的功夫。


不只是模型——千问云是Agent的”操作系统”

Qwen3.7-Max不是单独发的。阿里云在峰会上同步上线了千问云(Qwen Cloud),思路全新。

首页没有密密麻麻的产品列表和嵌套的导航菜单——只有一行醒目的代码:

```bash
npx skills add QianWen-AI/qianwen-ai
```

写给Agent看的,不是给人看的。

千问云做的事:把Qwen、GLM、Kimi等150多款模型API聚到一起,全封装成Agent可以直接调用的Skills和CLI工具。开发者不用在几十个产品页面之间跳转,一键对比参数、价格、上下文长度,用真实任务验证效果。从体验模型到部署Agent,链路压到了最短。

配合百炼MaaS平台的”龙虾”(LangChain兼容)等Agent开发工具链,是一个”开箱即跑的Agent开发环境”。

阿里云资深副总裁刘伟光原话:”云的用户正在从人变成Agent。”

真武芯片就是为Agent做的

Agent场景跟传统推理有个关键区别:Agent是并发的。几千几万个Agent同时跑、互相交互,芯片间的通信压力是传统推理的好几倍。

真武M890配自研ICN Switch 1.0,P2P通信时延压到150纳秒以下,128卡全带宽互联。专门为Agent时代海量并发推理做的架构。加上真武系列累计出货56万片、服务400+企业客户,这条”芯片→模型→云”的闭环正在变成实实在在的生产力。


代理机器人图例
代理机器人图例

对开发者来说

Qwen3.7-Max的API预计6月上百炼平台。对全栈开发者,几个值得看的点:

写代码的辅助多了个能打的。 Agent Coding场景下已经证明能处理真实的复杂工程问题,不光是写写CRUD。

长程Agent任务不再是脑补。 35小时自主执行验证了”模型能长时间保持上下文一致”这个前提——很多Agent应用真正落地就卡在这。

Agent开发的门槛在降。 千问云 + MCP原生支持 + 跨框架兼容,你不必成为大模型专家就能搭一个能用的Agent。

国产模型的性价比优势还在扩大。 DeepSeek V3打了样之后,Qwen3.7-Max编程能力追平国际第一梯队,开发者用更低成本就能拿到顶级的Agent编程能力。

从2023年ChatGPT掀起的大模型热潮,到2026年国产模型在编程这条线上站到全球第二,中间只隔了三年。但Qwen3.7-Max真正值得看的不是排名——是一整套为Agent设计的体系,从模型到云平台到芯片,正在从”能聊天”走向”能干活”。


📖 推荐阅读

看看这些文章,你可能会感兴趣:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注