通义千问Qwen3.7-Max编程能力登顶全球第二，国产大模型终于攻下了这个山头 JeariCk

2026年5月26日凌晨，Code Arena更新了最新榜单。

阿里通义千问的Qwen3.7-Max，得分1541分，全球第二。前面只剩Anthropic的Claude系列，后面跟着GPT-5.5、Gemini-3.5-Flash、DeepSeek-v4-pro。

国产大模型第一次在编程这条线上杀进全球前二。

阿里巴巴大模型qwen3.7 - max — 阿里巴巴大模型qwen3.7 – max

Code Arena 1541分是个什么概念

Code Arena不是那种跑个Hello World就过关的测试。LMArena旗下的人工盲测，覆盖前端开发、后端逻辑、智能体编程这些真实场景，测的是模型在复杂工程环境里实际写代码的本事。

排名长这样：

1. Claude系列（v7-thinking版）— 1667分
2. Qwen3.7-Max — 1541分
3. GLM-5.1 — 1633分（单点排名，综合盲测不如Qwen）
4. 后面一堆

细看的话：SWE-bench Pro（软件工程）拿了60.6%，SWE-Multilingual多语言编程78.3%，SciCode科学编程53.5%。单个看不炸，放一块就清楚了——能跟Claude掰手腕的国产模型，通义千问的Qwen3.7-Max是头一个。

35小时，它自己把芯片内核写出来了

比榜单数字更让开发者圈子震动的，是阿里云峰会当天（5月20日）的一个极限测试。

工程师给了Qwen3.7-Max一个它从没见过的题目：在一块全新的、还没公开发布的平头哥”真武M890″芯片上优化AI推理内核。

没有性能数据，没有硬件文档，没有现成示例内核。从空白工作空间起步，Qwen3.7-Max自己动手了：

– 432次内核评估
– 1158次工具调用
– 连续35小时
– 完全自己搞定编写、编译、性能分析、迭代改进整个流程

结果：芯片推理速度比官方原生版本快了10倍。前代模型同样任务只跑到1.1倍。

这不是”AI帮你写代码”——是一个AI自己定位问题、设计方案、反复试错、最后交出比人类工程师水平还高的成果。

Agent 生态的核心枢纽

Qwen3.7-Max的真正定位不是”聊天更顺”，而是为Agent场景从头设计的智能体基座。放到今年整个Agent生态里看会清楚很多。

跨框架兼容，不挑环境

Qwen3.7-Max没打算搞封闭生态。它在Claude Code、OpenClaw、Qwen Code三种框架下都完整测过，表现稳定。你可以在自己习惯的Agent框架里直接换用Qwen3.7-Max，不用改架构。

这点其实挺实在的。Claude Code占了AI编程54%的份额，OpenClaw是增长最快的本地Agent框架。能在两个框架下都跑好，说明工具调用格式、指令遵循、多轮对话一致性上确实下了功夫。

MCP 生态深度嵌入

MCP（Model Context Protocol）已经是LLM对接外部工具的事实标准了。Qwen3.7-Max原生支持MCP，在MCP-Atlas和MCP-Mark两项Agent现实能力测试中都跑出国产最高分。对开发者的实际好处：不用写适配层，直接让模型调数据库、文件系统、第三方API。

Alibaba Cloud的文档直接给了开箱即用的OpenClaw配置，三行代码搞定：

```json
"agents": {
"defaults": {
"model": {
"primary": "modelstudio/qwen3.7-max"
}
}
}
```

全域思考 vs 其他模型的Agent模式

几款旗舰模型对Agent场景各有各的思路：

– GPT-5.5走”自适应推理”，简单任务快跑、复杂任务多分配推理时间，偏黑盒优化
– Claude Opus 4.7的”思考模式”在推理步骤上更透明，能看思考链条，但只限文本
– Qwen3.7-Max的”全域思考”是第一个把文本、图像、代码归到一条推理链里的方案。Think模式做深度推理（类似系统二思维），No-Think模式做快速响应，用户按场景切换

这个差异对Agent开发挺关键。Agent任务经常要同时处理代码上下文、UI截图、文档这些混合输入，全域思考让模型在同一框架里理解这些信号，省了”切模型”或”搭桥接”的功夫。

不只是模型——千问云是Agent的”操作系统”

Qwen3.7-Max不是单独发的。阿里云在峰会上同步上线了千问云（Qwen Cloud），思路全新。

首页没有密密麻麻的产品列表和嵌套的导航菜单——只有一行醒目的代码：

```bash
npx skills add QianWen-AI/qianwen-ai
```

写给Agent看的，不是给人看的。

千问云做的事：把Qwen、GLM、Kimi等150多款模型API聚到一起，全封装成Agent可以直接调用的Skills和CLI工具。开发者不用在几十个产品页面之间跳转，一键对比参数、价格、上下文长度，用真实任务验证效果。从体验模型到部署Agent，链路压到了最短。

配合百炼MaaS平台的”龙虾”（LangChain兼容）等Agent开发工具链，是一个”开箱即跑的Agent开发环境”。

阿里云资深副总裁刘伟光原话：”云的用户正在从人变成Agent。”

真武芯片就是为Agent做的

Agent场景跟传统推理有个关键区别：Agent是并发的。几千几万个Agent同时跑、互相交互，芯片间的通信压力是传统推理的好几倍。

真武M890配自研ICN Switch 1.0，P2P通信时延压到150纳秒以下，128卡全带宽互联。专门为Agent时代海量并发推理做的架构。加上真武系列累计出货56万片、服务400+企业客户，这条”芯片→模型→云”的闭环正在变成实实在在的生产力。

对开发者来说

Qwen3.7-Max的API预计6月上百炼平台。对全栈开发者，几个值得看的点：

写代码的辅助多了个能打的。 Agent Coding场景下已经证明能处理真实的复杂工程问题，不光是写写CRUD。

长程Agent任务不再是脑补。 35小时自主执行验证了”模型能长时间保持上下文一致”这个前提——很多Agent应用真正落地就卡在这。

Agent开发的门槛在降。 千问云 + MCP原生支持 + 跨框架兼容，你不必成为大模型专家就能搭一个能用的Agent。

国产模型的性价比优势还在扩大。 DeepSeek V3打了样之后，Qwen3.7-Max编程能力追平国际第一梯队，开发者用更低成本就能拿到顶级的Agent编程能力。

—

从2023年ChatGPT掀起的大模型热潮，到2026年国产模型在编程这条线上站到全球第二，中间只隔了三年。但Qwen3.7-Max真正值得看的不是排名——是一整套为Agent设计的体系，从模型到云平台到芯片，正在从”能聊天”走向”能干活”。

📖 推荐阅读

看看这些文章，你可能会感兴趣：