跳转至

Qwen3.7-Max 完全评测:阿里巴巴最强 AI 模型,全球排名第 5

什么是 Qwen3.7-Max?

Qwen3.7-Max 是阿里巴巴集团于 2026 年 6 月最新发布的旗舰级大语言模型,也是通义千问(Qwen)系列迄今为止性能最强的闭源模型。在 Artificial Analysis Intelligence Index v4.0 的权威评测中,Qwen3.7-Max 以推理模式 56.6 分的成绩位列全球第 5-7 名,成为排名最高的中文大语言模型,也被国际 AI 分析媒体 The Batch 称为"挑战 Google 第三名的有力竞争者"。

与 FreeAITool 此前介绍过的 Qwen3 Coder(#035) 不同——那是一款面向代码生成的开源模型——Qwen3.7-Max 定位为通用旗舰模型,参数规模和训练方法均未公开。这一变化标志着阿里巴巴正在延续行业趋势,从开源策略逐步转向闭源商业化运营。

阿里巴巴最新旗舰模型

Qwen3.7-Max 的关键规格如下:

规格 参数
输入上限 100 万 tokens
输出上限 64,000 tokens
生成速度 208.3 tokens/sec(全球第 3)
幻觉率 23%(前沿模型中最低)
推理模式 支持(增强数学、逻辑推理能力)
工具调用 支持
Prompt 缓存 支持
API 兼容 OpenAI API、Anthropic API

为什么从开源转向闭源?

阿里巴巴的 Qwen 系列一直是开源社区的重要贡献者。从 Qwen、Qwen1.5、Qwen2、Qwen2.5 到 Qwen3 Coder,开源路线帮助阿里建立了强大的开发者生态和品牌认知。然而,Qwen3.7-Max 以及同期的 Qwen3.6-Max-Preview、Qwen3.6-Plus 均为闭源模型。

这一转变背后的原因不难理解:

  • 模型能力已接近或超越开源模型的「甜点区」:当模型参数量达到数百亿甚至上千亿级别时,开源的成本(算力、带宽、合规风险)显著上升,而闭源可以通过 API 计费实现更好的商业化回报
  • API 定价极具竞争力:Qwen3.7-Max 的输入价格为 $2.50 / 百万 tokens,远低于 GPT-4o 的 $2.50-5.00 和 Claude Sonnet 的 $3.00,这让闭源模式同样具有市场吸引力
  • 保护核心技术机密:训练方法中采用的「解耦式强化学习」等创新技术是阿里巴巴的核心竞争力,不公开参数有助于保持竞争优势

如果你更关注开源模型,我们此前的 AI Leaderboard 排名文章(#033) 提供了更全面的开源模型横向对比。

性能评测:全球排名第 5

Artificial Analysis Intelligence Index 排名

Artificial Analysis 是全球最权威的 AI 模型评测平台之一,其 Intelligence Index v4.0 综合考量模型在推理、编码、指令跟随、多语言等多个维度的表现。Qwen3.7-Max 在该评测中取得以下成绩:

  • 推理模式综合得分:56.6 分
  • 全球排名:第 5-7 名(取决于其他模型是否启用推理模式)
  • 中文模型排名:第 1 名

这一排名意味着 Qwen3.7-Max 已经超越了 Google 的部分旗舰模型(如 Gemini 3.5 Flash),正在逼近 Claude Sonnet 4.6 和 GPT-4.1 等顶级模型的水平。对于一款中国公司开发的模型来说,这一成绩具有里程碑意义。

📌 来源:The Batch #357 详细报道Artificial Analysis Qwen3.7 Max 分析页

速度:全球第 3(208 tokens/sec)

在生成速度方面,Qwen3.7-Max 以 208.3 tokens/sec 的成绩位列全球第 3,仅次于 GPT-OSS 120B(313 tokens/sec)和 GPT-OSS 20B(238 tokens/sec)。

速度对于实际应用至关重要:

  • 实时对话体验更流畅:208 tokens/sec 意味着每秒可以生成约 150-160 个中文字符,用户几乎感觉不到延迟
  • 批量处理更高效:对于需要大量生成内容的场景(如批量翻译、文档摘要),速度优势直接转化为时间成本节省
  • API 调用成本更低:更快的生成速度意味着在相同的 API 超时时间内可以完成更多任务

幻觉率:前沿模型最低(23%)

幻觉(Hallucination)是大语言模型生成不实信息的现象,也是当前 AI 应用面临的最大挑战之一。Qwen3.7-Max 的幻觉率仅为 23%,在所有前沿模型中最低。

这意味着什么?假设你让模型回答一个专业问题:

  • 如果其他前沿模型的幻觉率约为 30-40%,那么每 10 个回答中可能有 3-4 个包含不准确信息
  • 而 Qwen3.7-Max 每 10 个回答中只有约 2-3 个可能不准确

对于需要高可靠性的场景(如医疗咨询、法律辅助、金融分析),低幻觉率是选择模型的重要考量因素。

与 Gemini 3.5 Flash、Claude Sonnet 4.6 对比

维度 Qwen3.7-Max Gemini 3.5 Flash Claude Sonnet 4.6
Intelligence Index 56.6 ~55 ~58
速度(tokens/sec) 208 ~180 ~150
幻觉率 23% ~30% ~28%
输入上限 100 万 tokens 100 万 tokens 20 万 tokens
API 输入价格 $2.50/M tokens $1.25/M tokens $3.00/M tokens
上下文保留 跨轮次保留推理文本 部分支持 支持

综合来看,Qwen3.7-Max 在速度和幻觉率方面具有明显优势,在综合智力排名上接近 Claude Sonnet 4.6 但略低。如果你的应用场景对生成速度和准确性要求较高,Qwen3.7-Max 是一个非常值得考虑的选项。

核心功能

100 万 token 上下文窗口

Qwen3.7-Max 支持高达 100 万 tokens 的上下文输入,这意味着你可以:

  • 上传整本书籍进行分析:一本 20 万字的中文小说约需 40-50 万 tokens,Qwen3.7-Max 可以一次性处理
  • 分析大型代码库:包含数百个文件的代码项目可以被完整输入,模型能够理解全局架构
  • 处理超长会议记录:数小时的会议逐字稿可以直接交给模型生成摘要和待办事项

在实际使用中,建议将上下文控制在 50 万 tokens 以内,以获得最佳的响应速度和准确率。超过此阈值后,模型对上下文早期部分信息的关注度可能会降低。

推理模式与工具调用

Qwen3.7-Max 的推理模式(Reasoning Mode)显著增强了模型在数学计算、逻辑推理和复杂问题分析方面的能力。开启推理模式后,模型会在回答前进行多步骤的思考过程,类似于人类的"先思考再回答"。

此外,模型支持工具调用(Tool Calling)功能,可以在对话中自动调用外部 API、搜索引擎、数据库等工具,获取实时信息后再给出答案。这在以下场景中尤为实用:

  • 实时信息查询:当用户询问当前天气、股票价格等需要最新数据的问时,模型可以自动调用搜索工具
  • 代码执行:结合代码执行环境,模型可以编写并运行代码来验证答案
  • 多步任务分解:将复杂任务拆分为多个子任务,依次调用不同工具完成

Prompt 缓存加速

Qwen3.7-Max 支持 Prompt 缓存功能,对于重复使用的系统提示词或长上下文,可以通过缓存机制显著降低成本和延迟:

  • 缓存命中价格:仅 $0.25 / 百万 tokens(正常价格的 1/10)
  • 适用场景:固定的系统提示词、反复使用的知识库文档、批量处理相同模板的数据
  • 加速效果:缓存命中的请求响应速度通常比非缓存请求快 2-3 倍

如果你的应用场景涉及大量重复性请求(如客服机器人、批量文档处理),善用 Prompt 缓存可以大幅降低 API 成本。

跨轮次保留推理文本

在启用推理模式的多轮对话中,Qwen3.7-Max 会保留每一轮的推理过程文本,而非仅保留最终回答。这使得模型在后续对话中能够:

  • 延续之前的思考路径:如果用户在后续对话中追问"为什么",模型可以参考之前的推理过程给出更深入的解释
  • 修正之前的错误:当用户指出回答中的问题时,模型可以在已有推理基础上进行修正,而非从头开始
  • 保持上下文一致性:跨轮次的推理文本帮助模型维持对话的逻辑连贯性

原生兼容 OpenAI/Anthropic API

Qwen3.7-Max 的 API 接口原生兼容 OpenAI API 和 Anthropic API 规范,这意味着:

  • 无需修改代码即可切换模型:如果你现有的应用使用 OpenAI 或 Anthropic SDK,只需更改 base_urlapi_key 即可使用 Qwen3.7-Max
  • 支持主流开发框架:LangChain、LlamaIndex、AutoGen 等框架可以直接接入
  • 降低迁移成本:对于已经使用其他模型 API 的团队,迁移到 Qwen3.7-Max 的工作量最小化
# OpenAI SDK 兼容调用示例
from openai import OpenAI

client = OpenAI(
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    api_key="你的阿里云API Key",
)

response = client.chat.completions.create(
    model="qwen3.7-max",
    messages=[
        {"role": "system", "content": "你是一个专业的AI助手。"},
        {"role": "user", "content": "请解释量子计算的基本原理。"},
    ],
    max_tokens=4096,
)

print(response.choices[0].message.content)

使用方式

方式一:Qwen Chat 免费使用(推荐新手)

对于想要体验 Qwen3.7-Max 但不想编写代码的用户,最直接的方式是通过 Qwen Chat 在线使用。

使用步骤:

  1. 访问 qwen.ai
  2. 使用手机号或邮箱注册账号
  3. 登录后即可在聊天界面中选择 Qwen3.7-Max 模型
  4. 直接在对话框中输入问题或上传文件

免费使用限制:

  • 每日有一定的免费额度(具体额度可能根据账号等级调整)
  • 不支持自定义系统提示词的高级设置
  • 不适合需要大量 API 调用的自动化场景

对于个人用户偶尔查询信息、翻译文档、生成创意内容等场景,Qwen Chat 的免费额度通常足够使用。

方式二:阿里云百炼 API 调用

对于开发者和企业用户,通过阿里云百炼平台调用 API 是更灵活和强大的选择。

开通步骤:

  1. 注册阿里云账号(阿里云官网
  2. 访问百炼平台控制台
  3. 开通「通义千问」服务并完成实名认证
  4. 创建 API Key
  5. 通过 SDK 或 REST API 调用

Python SDK 调用示例:

# 安装 SDK
# pip install dashscope

import dashscope
from dashscope import Generation

dashscope.api_key = "你的API Key"

response = Generation.call(
    model="qwen3.7-max",
    prompt="请帮我写一段关于人工智能未来发展的简短文章,约200字。",
    max_tokens=2048,
)

if response.status_code == 200:
    print(response.output.text)
else:
    print(f"错误: {response.code} - {response.message}")

方式三:兼容 OpenAI API 的第三方工具接入

如果你使用 LangChain、LlamaIndex、AutoGen 等开发框架,可以直接使用 OpenAI 兼容模式接入 Qwen3.7-Max:

# LangChain 集成示例
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="qwen3.7-max",
    openai_api_key="你的API Key",
    openai_api_base="https://dashscope.aliyuncs.com/compatible-mode/v1",
    temperature=0.7,
)

response = llm.invoke("请列出 2026 年最值得关注的 5 个 AI 趋势。")
print(response.content)

这种方式特别适合已有 OpenAI 生态经验、希望快速接入新模型的开发者。

定价详解

API 价格对比

Qwen3.7-Max 在阿里云百炼平台的定价如下:

项目 价格($ / 百万 tokens)
输入 $2.50
缓存命中输入 $0.25
输出 $7.50
混合成本(7:2:1 比例) ~$2.125

与其他主流模型的对比:

模型 输入价格 输出价格 混合成本(约)
Qwen3.7-Max $2.50 $7.50 ~$2.125
GPT-4o $2.50-5.00 $10.00-15.00 ~$4.50
Claude Sonnet 4.6 $3.00 $15.00 ~$4.80
Gemini 3.5 Flash $1.25 $5.00 ~$1.75

从定价来看,Qwen3.7-Max 的输入价格与 GPT-4o 持平,但输出价格仅为 GPT-4o 的一半。在综合性价比方面,Qwen3.7-Max 明显优于 GPT-4o 和 Claude Sonnet 4.6,但略高于 Gemini 3.5 Flash。

缓存命中的成本优势

Qwen3.7-Max 的缓存命中输入价格仅为 $0.25 / 百万 tokens,是正常输入价格的 1/10。如果你的应用场景涉及以下情况,善用缓存可以大幅降低成本:

  • 固定系统提示词:每次请求都携带相同的 system prompt,第一次正常计费,后续命中缓存
  • 知识库文档:将参考文档作为上下文输入,重复使用时享受缓存优惠
  • 批量数据处理:对大量相似数据使用相同处理模板,缓存命中率会非常高

假设你的混合成本比例为 70% 输入、20% 缓存命中、10% 输出:

实际成本 = 70% × $2.50 + 20% × $0.25 + 10% × $7.50
        = $1.75 + $0.05 + $0.75
        = $2.55 / 百万 tokens

通过优化缓存命中率,成本可以进一步降低。

免费使用限制

Qwen Chat 提供免费使用 Qwen3.7-Max 的机会,但有以下限制:

  • 每日免费额度:具体额度由阿里云根据账号类型动态调整,通常可满足个人日常使用需求
  • 并发限制:免费用户的并发请求数有限制,不适合高并发场景
  • 功能限制:部分高级功能(如自定义 system prompt、工具调用配置)仅在 API 中可用

对于需要稳定、大量调用的企业用户,建议直接使用百炼平台 API。

训练方法揭秘

解耦式强化学习

Qwen3.7-Max 在训练方法上的最大创新是采用了「解耦式强化学习」架构。传统的强化学习方法通常将任务定义、工具调用框架和结果验证器耦合在一起训练,这导致模型容易学习到特定设置的「捷径」,而在面对新场景时泛化能力不足。

阿里巴巴的解耦方法将三个核心组件分开训练:

  1. 任务组件:定义模型需要完成的任务目标和约束条件
  2. 工具调用框架:定义模型可以使用的工具类型和调用方式
  3. 验证器:评估模型输出是否符合预期

通过在多种任务、框架、验证器的组合上进行训练,模型学会了更通用的推理能力,而非对特定训练环境的记忆。这种方法显著提升了模型在未知场景中的表现。

内部 Agent 测试:自主优化 attention kernel

在内部测试中,Qwen3.7-Max 展现了令人印象深刻的自主 Agent 能力。在一个 attention kernel(注意力核心)优化任务中,模型:

  • 在 35 小时内自主完成了 1158 次工具调用
  • 进行了 432 次代码评估和迭代
  • 最终将代码执行速度提升了 10 倍

整个过程中,模型自主规划了「分析现有代码 → 提出优化方案 → 编写新代码 → 测试验证 → 迭代优化」的完整流程,几乎不需要人工干预。这充分展示了 Qwen3.7-Max 在复杂工程任务中的自主决策和执行能力。

与 FreeAITool 其他 Qwen 文章对比

vs #035 Qwen3 Coder(开源 vs 闭源)

FreeAITool 此前详细介绍过 Qwen3 Coder(#035),那是一款面向代码生成的开源模型。以下是两者的关键区别:

维度 Qwen3 Coder (#035) Qwen3.7-Max (#102)
模型类型 开源 闭源
主要定位 代码生成和补全 通用旗舰模型
参数公开 部分公开 未公开
使用方式 可本地部署 仅可通过 API/Qwen Chat 使用
最佳场景 IDE 代码补全、代码生成 对话、分析、多模态任务
成本 免费(自部署算力成本) API 计费 / Qwen Chat 免费额度

简单来说,Qwen3 Coder 适合需要在本地部署、对代码场景有专精需求的开发者;而 Qwen3.7-Max 适合需要强大通用能力、不想管理基础设施的用户。

vs #033 AI Leaderboard 排名更新

我们此前的 AI Leaderboard 文章(#033) 建立了大语言模型的综合排名体系。Qwen3.7-Max 的加入将刷新该排名的中文模型最高分,建议读者将本文与此前的 Leaderboard 文章对照阅读,了解当前 AI 模型的竞争格局。

总结与建议

Qwen3.7-Max 是阿里巴巴在 2026 年的重要作品,它不仅代表了中文大语言模型的最高水平,也在全球 AI 竞赛中占据了前列位置。

我们推荐以下用户群体使用 Qwen3.7-Max:

  • 🟢 中文内容创作者:在中文理解和生成方面,Qwen3.7-Max 具有天然的语言优势,幻觉率低,内容质量高
  • 🟢 API 成本敏感型开发者:相比 GPT-4o 和 Claude Sonnet,Qwen3.7-Max 的性价比突出,且 API 完全兼容
  • 🟢 需要长上下文分析的研究者:100 万 tokens 的上下文窗口是大多数模型的 2-5 倍
  • 🟢 企业级应用:低幻觉率和工具调用能力使其适合构建可靠的商业应用

以下情况可以考虑其他方案:

  • 🔴 需要完全本地部署、数据不出网的场景:考虑开源模型如 Qwen3 Coder 或通过 Ollama 部署的开源模型
  • 🔴 预算极其有限的个人项目:Gemini 3.5 Flash 的 API 价格更低,且有更慷慨的免费额度
  • 🔴 追求极致推理能力:Claude Sonnet 4.6 在综合智力排名上仍然领先

快速开始链接: