Qwen3.7-Max 完全评测:阿里巴巴最强 AI 模型,全球排名第 5
什么是 Qwen3.7-Max?
Qwen3.7-Max 是阿里巴巴集团于 2026 年 6 月最新发布的旗舰级大语言模型,也是通义千问(Qwen)系列迄今为止性能最强的闭源模型。在 Artificial Analysis Intelligence Index v4.0 的权威评测中,Qwen3.7-Max 以推理模式 56.6 分的成绩位列全球第 5-7 名,成为排名最高的中文大语言模型,也被国际 AI 分析媒体 The Batch 称为"挑战 Google 第三名的有力竞争者"。
与 FreeAITool 此前介绍过的 Qwen3 Coder(#035) 不同——那是一款面向代码生成的开源模型——Qwen3.7-Max 定位为通用旗舰模型,参数规模和训练方法均未公开。这一变化标志着阿里巴巴正在延续行业趋势,从开源策略逐步转向闭源商业化运营。
阿里巴巴最新旗舰模型
Qwen3.7-Max 的关键规格如下:
| 规格 | 参数 |
|---|---|
| 输入上限 | 100 万 tokens |
| 输出上限 | 64,000 tokens |
| 生成速度 | 208.3 tokens/sec(全球第 3) |
| 幻觉率 | 23%(前沿模型中最低) |
| 推理模式 | 支持(增强数学、逻辑推理能力) |
| 工具调用 | 支持 |
| Prompt 缓存 | 支持 |
| API 兼容 | OpenAI API、Anthropic API |
为什么从开源转向闭源?
阿里巴巴的 Qwen 系列一直是开源社区的重要贡献者。从 Qwen、Qwen1.5、Qwen2、Qwen2.5 到 Qwen3 Coder,开源路线帮助阿里建立了强大的开发者生态和品牌认知。然而,Qwen3.7-Max 以及同期的 Qwen3.6-Max-Preview、Qwen3.6-Plus 均为闭源模型。
这一转变背后的原因不难理解:
- 模型能力已接近或超越开源模型的「甜点区」:当模型参数量达到数百亿甚至上千亿级别时,开源的成本(算力、带宽、合规风险)显著上升,而闭源可以通过 API 计费实现更好的商业化回报
- API 定价极具竞争力:Qwen3.7-Max 的输入价格为 $2.50 / 百万 tokens,远低于 GPT-4o 的 $2.50-5.00 和 Claude Sonnet 的 $3.00,这让闭源模式同样具有市场吸引力
- 保护核心技术机密:训练方法中采用的「解耦式强化学习」等创新技术是阿里巴巴的核心竞争力,不公开参数有助于保持竞争优势
如果你更关注开源模型,我们此前的 AI Leaderboard 排名文章(#033) 提供了更全面的开源模型横向对比。
性能评测:全球排名第 5
Artificial Analysis Intelligence Index 排名
Artificial Analysis 是全球最权威的 AI 模型评测平台之一,其 Intelligence Index v4.0 综合考量模型在推理、编码、指令跟随、多语言等多个维度的表现。Qwen3.7-Max 在该评测中取得以下成绩:
- 推理模式综合得分:56.6 分
- 全球排名:第 5-7 名(取决于其他模型是否启用推理模式)
- 中文模型排名:第 1 名
这一排名意味着 Qwen3.7-Max 已经超越了 Google 的部分旗舰模型(如 Gemini 3.5 Flash),正在逼近 Claude Sonnet 4.6 和 GPT-4.1 等顶级模型的水平。对于一款中国公司开发的模型来说,这一成绩具有里程碑意义。
📌 来源:The Batch #357 详细报道 和 Artificial Analysis Qwen3.7 Max 分析页
速度:全球第 3(208 tokens/sec)
在生成速度方面,Qwen3.7-Max 以 208.3 tokens/sec 的成绩位列全球第 3,仅次于 GPT-OSS 120B(313 tokens/sec)和 GPT-OSS 20B(238 tokens/sec)。
速度对于实际应用至关重要:
- 实时对话体验更流畅:208 tokens/sec 意味着每秒可以生成约 150-160 个中文字符,用户几乎感觉不到延迟
- 批量处理更高效:对于需要大量生成内容的场景(如批量翻译、文档摘要),速度优势直接转化为时间成本节省
- API 调用成本更低:更快的生成速度意味着在相同的 API 超时时间内可以完成更多任务
幻觉率:前沿模型最低(23%)
幻觉(Hallucination)是大语言模型生成不实信息的现象,也是当前 AI 应用面临的最大挑战之一。Qwen3.7-Max 的幻觉率仅为 23%,在所有前沿模型中最低。
这意味着什么?假设你让模型回答一个专业问题:
- 如果其他前沿模型的幻觉率约为 30-40%,那么每 10 个回答中可能有 3-4 个包含不准确信息
- 而 Qwen3.7-Max 每 10 个回答中只有约 2-3 个可能不准确
对于需要高可靠性的场景(如医疗咨询、法律辅助、金融分析),低幻觉率是选择模型的重要考量因素。
与 Gemini 3.5 Flash、Claude Sonnet 4.6 对比
| 维度 | Qwen3.7-Max | Gemini 3.5 Flash | Claude Sonnet 4.6 |
|---|---|---|---|
| Intelligence Index | 56.6 | ~55 | ~58 |
| 速度(tokens/sec) | 208 | ~180 | ~150 |
| 幻觉率 | 23% | ~30% | ~28% |
| 输入上限 | 100 万 tokens | 100 万 tokens | 20 万 tokens |
| API 输入价格 | $2.50/M tokens | $1.25/M tokens | $3.00/M tokens |
| 上下文保留 | 跨轮次保留推理文本 | 部分支持 | 支持 |
综合来看,Qwen3.7-Max 在速度和幻觉率方面具有明显优势,在综合智力排名上接近 Claude Sonnet 4.6 但略低。如果你的应用场景对生成速度和准确性要求较高,Qwen3.7-Max 是一个非常值得考虑的选项。
核心功能
100 万 token 上下文窗口
Qwen3.7-Max 支持高达 100 万 tokens 的上下文输入,这意味着你可以:
- 上传整本书籍进行分析:一本 20 万字的中文小说约需 40-50 万 tokens,Qwen3.7-Max 可以一次性处理
- 分析大型代码库:包含数百个文件的代码项目可以被完整输入,模型能够理解全局架构
- 处理超长会议记录:数小时的会议逐字稿可以直接交给模型生成摘要和待办事项
在实际使用中,建议将上下文控制在 50 万 tokens 以内,以获得最佳的响应速度和准确率。超过此阈值后,模型对上下文早期部分信息的关注度可能会降低。
推理模式与工具调用
Qwen3.7-Max 的推理模式(Reasoning Mode)显著增强了模型在数学计算、逻辑推理和复杂问题分析方面的能力。开启推理模式后,模型会在回答前进行多步骤的思考过程,类似于人类的"先思考再回答"。
此外,模型支持工具调用(Tool Calling)功能,可以在对话中自动调用外部 API、搜索引擎、数据库等工具,获取实时信息后再给出答案。这在以下场景中尤为实用:
- 实时信息查询:当用户询问当前天气、股票价格等需要最新数据的问时,模型可以自动调用搜索工具
- 代码执行:结合代码执行环境,模型可以编写并运行代码来验证答案
- 多步任务分解:将复杂任务拆分为多个子任务,依次调用不同工具完成
Prompt 缓存加速
Qwen3.7-Max 支持 Prompt 缓存功能,对于重复使用的系统提示词或长上下文,可以通过缓存机制显著降低成本和延迟:
- 缓存命中价格:仅 $0.25 / 百万 tokens(正常价格的 1/10)
- 适用场景:固定的系统提示词、反复使用的知识库文档、批量处理相同模板的数据
- 加速效果:缓存命中的请求响应速度通常比非缓存请求快 2-3 倍
如果你的应用场景涉及大量重复性请求(如客服机器人、批量文档处理),善用 Prompt 缓存可以大幅降低 API 成本。
跨轮次保留推理文本
在启用推理模式的多轮对话中,Qwen3.7-Max 会保留每一轮的推理过程文本,而非仅保留最终回答。这使得模型在后续对话中能够:
- 延续之前的思考路径:如果用户在后续对话中追问"为什么",模型可以参考之前的推理过程给出更深入的解释
- 修正之前的错误:当用户指出回答中的问题时,模型可以在已有推理基础上进行修正,而非从头开始
- 保持上下文一致性:跨轮次的推理文本帮助模型维持对话的逻辑连贯性
原生兼容 OpenAI/Anthropic API
Qwen3.7-Max 的 API 接口原生兼容 OpenAI API 和 Anthropic API 规范,这意味着:
- 无需修改代码即可切换模型:如果你现有的应用使用 OpenAI 或 Anthropic SDK,只需更改
base_url和api_key即可使用 Qwen3.7-Max - 支持主流开发框架:LangChain、LlamaIndex、AutoGen 等框架可以直接接入
- 降低迁移成本:对于已经使用其他模型 API 的团队,迁移到 Qwen3.7-Max 的工作量最小化
# OpenAI SDK 兼容调用示例
from openai import OpenAI
client = OpenAI(
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
api_key="你的阿里云API Key",
)
response = client.chat.completions.create(
model="qwen3.7-max",
messages=[
{"role": "system", "content": "你是一个专业的AI助手。"},
{"role": "user", "content": "请解释量子计算的基本原理。"},
],
max_tokens=4096,
)
print(response.choices[0].message.content)
使用方式
方式一:Qwen Chat 免费使用(推荐新手)
对于想要体验 Qwen3.7-Max 但不想编写代码的用户,最直接的方式是通过 Qwen Chat 在线使用。
使用步骤:
- 访问 qwen.ai
- 使用手机号或邮箱注册账号
- 登录后即可在聊天界面中选择 Qwen3.7-Max 模型
- 直接在对话框中输入问题或上传文件
免费使用限制:
- 每日有一定的免费额度(具体额度可能根据账号等级调整)
- 不支持自定义系统提示词的高级设置
- 不适合需要大量 API 调用的自动化场景
对于个人用户偶尔查询信息、翻译文档、生成创意内容等场景,Qwen Chat 的免费额度通常足够使用。
方式二:阿里云百炼 API 调用
对于开发者和企业用户,通过阿里云百炼平台调用 API 是更灵活和强大的选择。
开通步骤:
Python SDK 调用示例:
# 安装 SDK
# pip install dashscope
import dashscope
from dashscope import Generation
dashscope.api_key = "你的API Key"
response = Generation.call(
model="qwen3.7-max",
prompt="请帮我写一段关于人工智能未来发展的简短文章,约200字。",
max_tokens=2048,
)
if response.status_code == 200:
print(response.output.text)
else:
print(f"错误: {response.code} - {response.message}")
方式三:兼容 OpenAI API 的第三方工具接入
如果你使用 LangChain、LlamaIndex、AutoGen 等开发框架,可以直接使用 OpenAI 兼容模式接入 Qwen3.7-Max:
# LangChain 集成示例
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(
model="qwen3.7-max",
openai_api_key="你的API Key",
openai_api_base="https://dashscope.aliyuncs.com/compatible-mode/v1",
temperature=0.7,
)
response = llm.invoke("请列出 2026 年最值得关注的 5 个 AI 趋势。")
print(response.content)
这种方式特别适合已有 OpenAI 生态经验、希望快速接入新模型的开发者。
定价详解
API 价格对比
Qwen3.7-Max 在阿里云百炼平台的定价如下:
| 项目 | 价格($ / 百万 tokens) |
|---|---|
| 输入 | $2.50 |
| 缓存命中输入 | $0.25 |
| 输出 | $7.50 |
| 混合成本(7:2:1 比例) | ~$2.125 |
与其他主流模型的对比:
| 模型 | 输入价格 | 输出价格 | 混合成本(约) |
|---|---|---|---|
| Qwen3.7-Max | $2.50 | $7.50 | ~$2.125 |
| GPT-4o | $2.50-5.00 | $10.00-15.00 | ~$4.50 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | ~$4.80 |
| Gemini 3.5 Flash | $1.25 | $5.00 | ~$1.75 |
从定价来看,Qwen3.7-Max 的输入价格与 GPT-4o 持平,但输出价格仅为 GPT-4o 的一半。在综合性价比方面,Qwen3.7-Max 明显优于 GPT-4o 和 Claude Sonnet 4.6,但略高于 Gemini 3.5 Flash。
缓存命中的成本优势
Qwen3.7-Max 的缓存命中输入价格仅为 $0.25 / 百万 tokens,是正常输入价格的 1/10。如果你的应用场景涉及以下情况,善用缓存可以大幅降低成本:
- 固定系统提示词:每次请求都携带相同的 system prompt,第一次正常计费,后续命中缓存
- 知识库文档:将参考文档作为上下文输入,重复使用时享受缓存优惠
- 批量数据处理:对大量相似数据使用相同处理模板,缓存命中率会非常高
假设你的混合成本比例为 70% 输入、20% 缓存命中、10% 输出:
实际成本 = 70% × $2.50 + 20% × $0.25 + 10% × $7.50
= $1.75 + $0.05 + $0.75
= $2.55 / 百万 tokens
通过优化缓存命中率,成本可以进一步降低。
免费使用限制
Qwen Chat 提供免费使用 Qwen3.7-Max 的机会,但有以下限制:
- 每日免费额度:具体额度由阿里云根据账号类型动态调整,通常可满足个人日常使用需求
- 并发限制:免费用户的并发请求数有限制,不适合高并发场景
- 功能限制:部分高级功能(如自定义 system prompt、工具调用配置)仅在 API 中可用
对于需要稳定、大量调用的企业用户,建议直接使用百炼平台 API。
训练方法揭秘
解耦式强化学习
Qwen3.7-Max 在训练方法上的最大创新是采用了「解耦式强化学习」架构。传统的强化学习方法通常将任务定义、工具调用框架和结果验证器耦合在一起训练,这导致模型容易学习到特定设置的「捷径」,而在面对新场景时泛化能力不足。
阿里巴巴的解耦方法将三个核心组件分开训练:
- 任务组件:定义模型需要完成的任务目标和约束条件
- 工具调用框架:定义模型可以使用的工具类型和调用方式
- 验证器:评估模型输出是否符合预期
通过在多种任务、框架、验证器的组合上进行训练,模型学会了更通用的推理能力,而非对特定训练环境的记忆。这种方法显著提升了模型在未知场景中的表现。
内部 Agent 测试:自主优化 attention kernel
在内部测试中,Qwen3.7-Max 展现了令人印象深刻的自主 Agent 能力。在一个 attention kernel(注意力核心)优化任务中,模型:
- 在 35 小时内自主完成了 1158 次工具调用
- 进行了 432 次代码评估和迭代
- 最终将代码执行速度提升了 10 倍
整个过程中,模型自主规划了「分析现有代码 → 提出优化方案 → 编写新代码 → 测试验证 → 迭代优化」的完整流程,几乎不需要人工干预。这充分展示了 Qwen3.7-Max 在复杂工程任务中的自主决策和执行能力。
与 FreeAITool 其他 Qwen 文章对比
vs #035 Qwen3 Coder(开源 vs 闭源)
FreeAITool 此前详细介绍过 Qwen3 Coder(#035),那是一款面向代码生成的开源模型。以下是两者的关键区别:
| 维度 | Qwen3 Coder (#035) | Qwen3.7-Max (#102) |
|---|---|---|
| 模型类型 | 开源 | 闭源 |
| 主要定位 | 代码生成和补全 | 通用旗舰模型 |
| 参数公开 | 部分公开 | 未公开 |
| 使用方式 | 可本地部署 | 仅可通过 API/Qwen Chat 使用 |
| 最佳场景 | IDE 代码补全、代码生成 | 对话、分析、多模态任务 |
| 成本 | 免费(自部署算力成本) | API 计费 / Qwen Chat 免费额度 |
简单来说,Qwen3 Coder 适合需要在本地部署、对代码场景有专精需求的开发者;而 Qwen3.7-Max 适合需要强大通用能力、不想管理基础设施的用户。
vs #033 AI Leaderboard 排名更新
我们此前的 AI Leaderboard 文章(#033) 建立了大语言模型的综合排名体系。Qwen3.7-Max 的加入将刷新该排名的中文模型最高分,建议读者将本文与此前的 Leaderboard 文章对照阅读,了解当前 AI 模型的竞争格局。
总结与建议
Qwen3.7-Max 是阿里巴巴在 2026 年的重要作品,它不仅代表了中文大语言模型的最高水平,也在全球 AI 竞赛中占据了前列位置。
我们推荐以下用户群体使用 Qwen3.7-Max:
- 🟢 中文内容创作者:在中文理解和生成方面,Qwen3.7-Max 具有天然的语言优势,幻觉率低,内容质量高
- 🟢 API 成本敏感型开发者:相比 GPT-4o 和 Claude Sonnet,Qwen3.7-Max 的性价比突出,且 API 完全兼容
- 🟢 需要长上下文分析的研究者:100 万 tokens 的上下文窗口是大多数模型的 2-5 倍
- 🟢 企业级应用:低幻觉率和工具调用能力使其适合构建可靠的商业应用
以下情况可以考虑其他方案:
- 🔴 需要完全本地部署、数据不出网的场景:考虑开源模型如 Qwen3 Coder 或通过 Ollama 部署的开源模型
- 🔴 预算极其有限的个人项目:Gemini 3.5 Flash 的 API 价格更低,且有更慷慨的免费额度
- 🔴 追求极致推理能力:Claude Sonnet 4.6 在综合智力排名上仍然领先
快速开始链接:
- 免费体验:Qwen Chat
- API 接入:阿里云百炼平台
- 了解更多:The Batch 报道 | Artificial Analysis 数据