三个月连更三版后，Qwen3.7-Max好像更会干活了

大模型正取代 APP 成为互联网的新入口。

但不同的是，过去，APP 可以依靠快速迭代，一周一个版本，去承接用户的需求和反馈，模型升级却没法这样。

放眼国内外的模型，一次升级，往往需要积攒很长时间，因为其中牵涉到训练数据，训练策略和安全边界等多种底层架构的优化。换句话说，模型越大，迭代起来就越重。

但现在，千问正试图打破这个一成不变的节奏。

从 3 月的 Qwen3.5-Max-Preview，到 4 月的 Qwen3.6-Max-Preview，再到 5 月新鲜出炉的 Qwen3.7-Max，千问旗舰模型在三个月内连续更新了三个版本，基本是在用 App 时代的速度做旗舰模型。

当然，AI 发展到 Agent 的阶段，我们不再像 App 时代一样关心某个具体的功能，而是关注模型能不能做好广泛而又繁杂的各种事。

所以速度本身不是答案，真正的问题是，这种高频迭代，是否真的转化成了 Agent 能力？

整体来看，在 Artificial Analysis 新鲜出炉的智力指标中，Qwen3.7-Max 冲进前五，拿下了国产榜首，即使跟撞档期的 Gemini-3.5-Flash 相比，也领先了一个身位。

而在更具体的官方跑分表里，它展现出了更多面的优势，不是单点刷榜，而是结构更完整的能力覆盖。

和 Claude Opus-4.6 Max 等 5 个前沿模型对比，共 41 项测试，Qwen3.7-Max 拿下了半数榜首位置；在 Coding Agent 里 8 项拿到 5 个第一，在 STEM 推理里 7 项拿到 5 个第一，在多语言里 8 项拿到 5 个第一。

更关键的是，它在 MCP-Mark、Skillbench、MRCR-v2 128k、Kernel Bench L3 这些更接近真实任务执行的指标上提升明显，说明它在调用工具，处理长任务，完成复杂交付时能够更好地调度 Agent 互相配合。

在垂直一些的编程任务上，它在 SWE-Pro、SWE-Multilingual、SciCode、QwenSVG 等评测中也进入了头部梯队，放到真实工程任务中，这就是代码理解和修复能力的体现。

值得一提的是，这些成绩来自多种智能体框架，也就意味着，无论是各种 Claw，还是什么 Code，评测中的能力都能够进行迁移和泛化。

单看纸面数据，Qwen3.7-Max 无愧大厂之名。但跑分只是评测的入口，远不到终点。

一个模型最终能不能成为任务入口，取决于它在日常问题里是否稳定，在复杂任务里是否能持续推进，在生产场景里是否能交付结果。

为此，我们提前内测了一把。

先拿最基础的逻辑推理题试试它，像是“洗车店离我 50 米，是走路还是开车去洗车？”，或者小数比大小等经典的误导题。

好消息是他基本都能拿捏，坏消息是这些问题都已经进题库了，看思维链就能发现，这些已经被模型识别为了经典的逻辑陷阱，它会采用更取巧的推理捷径。

但其实相比结果，推理过程要更耐人寻味一点，因为单纯的背题其实不具备泛化能力，如果没有把推理能力训练到位，哪怕逻辑一样，只要换个情景，该露馅还会露馅。

这里千问的表现就非常稳健，无论是错误的对象引导，关系推理，还是字符级的操作，或者结合世界知识的视角变化，它都能妥善处理，在思考过程中将条件和用到的方法理清楚，盘明白，并不是单纯的背题库。

这些普通的任务虽然容易，但也并非鸡肋，管窥知豹，只有指令遵循，常识判断的能力夯实了，上面才能接各种 Harness 的约束框架，去跑更复杂的长线任务。

接下来，我们先接入阿里的 AI 编程工具 Qoder 试试，因为同一个生态下，自家的模型往往有相应的适配和优化，运行起来一般效率会更高。

先来个简单的物理模拟试试水，单个物理效果模拟太常见了，这里让它做个合集，风洞布料，软体液体一起上，看看它组织的调度情况是否合理。

在给出想要的效果，简单描述后，千问会生成一份计划书，里面对开发的步骤和用到的标准做了详细的规划，对于不同的物理效果，参照现有的技术栈进行不同的方案设计。

提示词：

请做一个单文件版本的物理模拟网页，模拟效果：风洞，布料，软体，液体，以合适的形态；

要求：只输出一个 index.html，CSS 和 JS 全部写在 index.html 内。

就效果来看，它将项目设计成了一个物理实验室，不同的模拟效果对应不同的实验。

无论是风洞模拟，还是布料模拟，它都考虑到了性能问题，采用了更节省资源的方案，比如用 Verlet 积分弹簧网格去模拟布料，这样能够提高运行时的帧数，实际拖拽和切割起来，反馈也要更丝滑一些。

我们继续上难度，直接从 GitHub 拉一个现成的开源项目给它，让它辅助我们理解仓库，方便后续开发。在拉到本地后，千问就弹出了提示，问要不要调用插件，构建整个项目的 wiki 系统。

在确认后，它就开始忙活了，整个耗时几十分钟，远超我的预期，但结果也同样超预期，尤其是它对整个仓库的梳理，细致入微。

其中不但有框架性的架构，而且针对核心模块，配置管理，部署安装都有对应的操作说明，特别是每个章节中涉及源代码的地方都有引用，不明白的地方点击后就能跳转到对应文件的函数片段，算是做到了有据可循。

接着我发现，项目本身只有 Windows 的安装包，Mac 和 Linux 都需要自己源码部署，也就是命令行启动。于是我直接让千问根据 wiki，分析出可行的打包方案，给我构建一个 Mac 上的启动入口。很快，确定好方案后，它就交付了入口，点击后就能直接启动，足以见得，wiki 的合理构建对于后续的开发能节省大量算力。

提示词：

我不想在终端中唤起项目，再打开 webui，给我换个简易的方案，现在的环境是 Mac，Apple 的 CPU。

除此之外，咱们之前说过，Qwen3.7-Max 对市面上的 Agent 框架都有良好的泛化能力，所谓好模型不挑框架，我们也试着把它接入了第三方的 Agent 框架中，发现任务表现依然很出色。

案例我们选择了美国战争部最近解密的 UAP（不明异常现象，UFO 的官方称呼）文件。

整套文件 1.22GB 大小，共有 118 份文档，28 段视频以及 14 张图片，而且其中部分 PDF 文档还是扫描件，文字排版和图片混合，很不清晰，但为了充分压榨 Qwen3.7-Max 的性能，我们还是强制要求了逐份整理分析。

千问意识到这是一项非常复杂的任务，它先调用提前安装好的技能组，先行设计了一套可落地的研究方案，内容涵盖从解压到最终验证的 7 个阶段，在手动删改部分细节后，它就开始执行了。

首先我们让它整理了这上百份文件，根据内容进行提取，解析，建立元数据索引。为了方便查阅，直接接入了 IM 软件，让它把成品交付到工作空间。

提示词

美国战争部披露了 UAP 相关的解密资料，非常多。

资料压缩包在本地，解压，逐份分析，进行深度解析；

在飞书云盘中新建相应文件夹，飞书有对应的文档，表格，多维表格，中间的交付物，以合适的格式放到飞书云盘中，追求可视化；

分类并按合适的专业框架进行梳理，生成汇总目录，生成专业的学术风格的报告，严谨，再生成锐评版总结，可以发散一点。

生成 slides，对调查结果进行展示，要求符合主题，去除 AI 味，选择合适的设计 skill。

生成落地页，要求符合主题，展示此次研究的概览和成果；内嵌地球仪，用于展示事件发生的地点，可互动。生成完检查一下，看功能是否正常。

它拉出来的数据表格相当规整，而且针对我特别提到的坐标问题，额外整理了一份地理事件库，其中区域，经纬坐标，传感器乃至重要性都标注得很清晰。

接下来，针对整理出的数据，让它出具两份报告，一份正经的，一份锐评一些的。在正经版的报告中，它调用 Python 脚本提前生成了图表，避免了纯文本表格的视觉单调性，而且相比文生图也更加精准，不容易出数据纰漏。

值得注意的是，两份报告的长度都非常给力，都在万字以上，而且不是空洞的堆砌，每个章节都能对原文件进行回溯。怕我看不明白，最后还按学术风格整理了一份术语对照表，就格式和流程来看，已经非常严谨了。

任务继续，针对后面要交付的汇总文档和 PPT，落地页等展示内容，它判断到这些都共用刚才整理的数据源，且互不干扰，所以就新建了 4 个子 Agent 并行执行，效率拉满。

当然，快归快，能不能用还得看交付物的质量。就 PPT 的审美来看，跟主题结合的色调和风格都基本到位，而且还复用了报告中生成的图表，这在长线任务中是非常重要的一环。

而最惊喜的是落地页的展示效果，在充分调用不同的 Skill 组合后，整个页面的设计更有人味儿，排版组织合理，表格能筛选，时间轴有对应，互动的二级菜单也有准确的内容呼出。

在确认后，它就开始忙活了，整个耗时几十分钟，远超我的预期，但结果也同样超预期，尤其是它对整个仓库的梳理，细致入微。

提示词：

我不想在终端中唤起项目，再打开 webui，给我换个简易的方案，现在的环境是 Mac，Apple 的 CPU。

案例我们选择了美国战争部最近解密的 UAP（不明异常现象，UFO 的官方称呼）文件。

首先我们让它整理了这上百份文件，根据内容进行提取，解析，建立元数据索引。为了方便查阅，直接接入了 IM 软件，让它把成品交付到工作空间。

提示词

美国战争部披露了 UAP 相关的解密资料，非常多。

资料压缩包在本地，解压，逐份分析，进行深度解析；

在飞书云盘中新建相应文件夹，飞书有对应的文档，表格，多维表格，中间的交付物，以合适的格式放到飞书云盘中，追求可视化；

分类并按合适的专业框架进行梳理，生成汇总目录，生成专业的学术风格的报告，严谨，再生成锐评版总结，可以发散一点。

生成 slides，对调查结果进行展示，要求符合主题，去除 AI 味，选择合适的设计 skill。

生成落地页，要求符合主题，展示此次研究的概览和成果；内嵌地球仪，用于展示事件发生的地点，可互动。生成完检查一下，看功能是否正常。

不得不提的是，这一套流程走完，消耗了将近一个小时，算是很长的任务了，但千问并没有出现卡壳或者上下文爆炸的情况，交付物的效果都有十分不错的亮点。从这也能看出，作为 Agent 框架的底座，它还是非常合格的。

总的来说，Qwen3.7-Max 最值得关注的，不只是一次模型分数的提升，让它来到了国产榜首，而是它开始呈现出更强的任务执行感，踏实做事的实在感。

从千问 3.5 开始，阿里就朝着智能体的方向一路狂奔。几个月前，新成立的 ATH，也是在集合芯片，模型，以及应用等多面力量，去深耕模型能力的多模态，继而打通智能体的全链路。

特别是在月更的夸张效率下，模型优化的迭代更快了，这意味着你今天用的时候吐槽的 BUG，下个月发新版可能就被填平了。

最为关键的是，受限于模型的能力，我们总是需要搭建各种复杂的限制性工程，去让 AI 做事，让它指哪打哪。

但其中的绝大多数工程可能都只是过渡手段，因为随着迭代闭环的重复，模型会不断内化这些工程，将其吸收为自身能力的一部分。

就像未来的图像编辑可能不再需要精通 PS 一样，那个不再需要复杂框架，LLM 一力降百会的时代，也会在模型迭代中越来越近。

DC娱乐网

三个月连更三版后，Qwen3.7-Max好像更会干活了

热门分类