我们正式介绍两个新的 GLM 系列成员:GLM-4.5 和 GLM-4.5-Air——我们最新的旗舰模型。GLM-4.5 拥有 3550 亿总参数和 320 亿激活参数,而 GLM-4.5-Air 拥有 1060 亿总参数和 120 亿激活参数。两者都旨在将推理、编码和智能体能力统一到一个模型中,以满足快速增长的智能体应用日益复杂的需求。
GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。它们可在 Z.ai、智谱清言(和开放平台 BigModel 上使用,开放权重可在 HuggingFace 和 ModelScope 获取。欢迎开发者、企业、用户广泛测试与集成,探索 AGI 的奥秘。
背景:大语言模型的目标是在广泛领域达到人类认知水平,而非针对特定任务而设计专家模型。一个优秀的大语言模型必须具备通用问题解决、泛化能力、常识推理和自我改进等核心能力。过去五年里,OpenAI 的 GPT-3 学会了常识知识,而 o1 模型则通过强化学习实现了“先思考后回答”,在编程、数据分析和复杂数学问题上的推理能力得到了显著提升。然而,现有模型仍然算不上真正的通用模型:有些擅长编程,有些精于数学,有些在推理方面表现出色,但没有一个能在所有任务上都达到最佳表现。GLM-4.5 正是朝着统一各种能力这一目标努力,力求在一个模型中集成所有这些不同的能力。
网页浏览是一个流行的智能体应用,需要复杂的推理和多轮工具使用。我们在 BrowseComp 基准测试上评估了 GLM-4.5,这是一个具有挑战性的网页浏览基准测试,包含需要简短回答的复杂问题。借助网页浏览工具,GLM-4.5 对 26.4% 的问题给出了正确回答,明显优于 Claude-4-Opus(18.8%),接近 o4-mini-high(28.3%)。下图显示了 GLM-4.5 在 BrowseComp 上随测试时扩展的准确性提升。
在思考模式下,GLM-4.5 和 GLM-4.5-Air 可以解决复杂的推理问题,包括数学、科学和逻辑问题。
对于 AIME 和 GPQA 基准测试,我们分别报告了 32 个和 8 个样本的平均准确率(@8)以减轻结果方差。使用 LLM 进行自动答案验证。对于 HLE 基准测试,仅评估基于文本的问题,正确性由 gpt-4o 判断。
GLM-4.5 擅长编程,包括从头开始构建编程项目和在现有项目中作为智能体解决编程任务。
2 对于 Terminal-Bench,我们使用 Terminus 框架进行评估。我们使用标准函数调用而不是直接提示进行评估。
我们对所有比较模型进行了帕累托前沿分析(如下图所示)。GLM-4.5 和 GLM-4.5-Air 相对于相似规模的模型表现出优越的性能,在性能-参数量权衡上实现了最佳效率。
为了评估 GLM-4.5 的智能体编程能力,我们使用 Claude Code 作为评测工具,将其与 Claude 4 Sonnet、Kimi K2 和 Qwen3-Coder 进行对比。测试涵盖了 52 个编程任务,包括前端开发、工具开发、数据分析、测试和算法实现等多个领域。所有评测都在独立的 Docker 容器中进行,并通过多轮人机交互并采用标准化的评估准则确保测试的一致性和可重复性。实验结果显示,GLM-4.5 对 Kimi K2 的胜率达到 53.9%,对 Qwen3-Coder 更是取得了 80.8% 的压倒性优势。尽管 GLM-4.5 展现出了不错的竞争力,但与 Claude-4-Sonnet 相比,仍有进一步优化的空间。
值得注意的是,GLM-4.5 的平均工具调用成功率最高(90.6%),优于 Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和 Qwen3-Coder(77.1%),展示了在智能体编程任务中的可靠性。所有 52 个编程任务的轨迹公开在此处供社区进一步研究。链接:
在 GLM-4.5 系列模型中,我们采用了 MoE(专家混合)架构,这种架构能够显著提升训练和推理时的计算效率。我们在 MoE 层采用了 loss-free balance 路由和 sigmoid gate 机制。与 DeepSeek-V3 和 Kimi K2 的设计思路不同,我们选择了瘦高的模型结构——减少模型的宽度(包括隐藏维度和路由专家的数量),同时增加模型的深度(层数)。我们发现,更深的模型在推理能力上表现更加出色。在自注意力机制方面,我们采用了 partal RoPE 的分组查询注意力(Grouped-Query Attention)。另外,我们将注意力头的数量增加到了 2.5 倍(在 5120 的隐藏维度下使用 96 个注意力头)。有意思的是,虽然增加注意力头的数量并没有让训练 loss 更低,但在 MMLU 和 BBH 等推理基准测试中,模型的表现却得到了稳定提升。GLM-4.5 使用了 Muon 优化器,这个优化器不仅能加快模型收敛速度,还能在更大的 Batch Size 下相比 AdamW 保持更好的收敛效果,从而提升训练效率。我们还引入了 QK-Norm 技术来提升注意力 logits 的数值稳定性。GLM-4.5 和 GLM-4.5-Air 都加入了 MTP(Multi Token Predition)层,用于在推理阶段实现推测解码,进一步提升推理效率。
我们的基础模型经历了几个训练阶段。在预训练期间,模型首先在 15T token 的通用预训练语料库上训练,然后在 7T token 的代码和推理语料库上训练。预训练后,我们引入了 Mid-Training 阶段来进一步提升模型在专有领域上的性能。
为了支持 GLM-4.5 这样的大模型进行高效的强化学习(RL)训练,我们设计、开发并开源了 slime。这是一个在灵活性、效率和可扩展性方面都表现卓越的 RL 框架,欢迎社区使用并参与贡献。
slime 旨在解决强化学习中的常见瓶颈,并针对复杂的智能体任务做了优化。
灵活的混合训练架构: slime 的核心优势在于其多功能的混合架构。它既支持同步、集中式训练(适合推理和通用强化学习训练),也支持分布式、异步训练模式。这种异步模式对于 Agentic RL 至关重要,因为在这类场景中,数据生成往往是一个缓慢的外部过程。通过将训练与数据收集解耦,我们可以确保训练 GPU 始终保持满负荷运行,最大化硬件利用率。面向智能体的解耦设计:Agentic RL 经常面临环境交互时延迟高且分布长尾的问题,这严重限制了训练吞吐量。为此,slime 实现了完全解耦的基础架构,将环境交互引擎与训练引擎分离。这两个组件在不同的硬件上独立运行,将数据生成的瓶颈转化为可并行化的非阻塞过程。这种设计是加速长序列智能体任务的关键。混合精度加速数据生成: 为了进一步提升吞吐量,slime 采用混合精度推理来加速环境交互。它使用 FP8 格式进行数据生成(Rollout),同时在模型训练中保留 BF16 以确保训练稳定性。这种技术在不影响训练质量的前提下,大幅提升了数据生成速度。
这种整体化的设计使得 slime 能够无缝集成多个智能体框架,支持各种任务类型,并通过统一而强大的接口高效管理长序列环境交互。
后训练对大语言模型至关重要,模型通过自主探索和积累经验来不断优化策略。强化学习(RL)是突破模型能力边界的关键步骤。GLM-4.5 不仅整合了 GLM-4-0414 的通用能力和 GLM-Z1 的推理能力,还重点提升了智能体能力,包括智能体编程、深度搜索和通用工具使用。
训练过程首先在精选的推理数据和合成的智能体场景上进行监督微调,然后通过专门的强化学习阶段分别训练专家模型。
推理能力训练:我们在完整的 64K 上下文长度上进行单阶段强化学习,采用基于难度的课程学习来进行多阶段 RL。为了确保训练稳定性,我们引入了改进的技术:使用动态采样温度来平衡探索与利用。智能体任务训练:训练聚焦于两个可验证的任务:基于信息检索的问答和软件工程任务。我们开发了可扩展的策略来合成基于搜索的问答对,方法是通过人工参与的内容提取和选择性地模糊网页内容。编程任务则通过在真实软件工程任务上基于执行结果的反馈来驱动。
虽然强化学习训练只针对有限的可验证任务,但获得的能力提升可以迁移到相关领域,比如通用工具使用能力。最后,我们通过专家蒸馏将这些专门技能整合起来,使 GLM-4.5 在各项任务上都具备全面的能力。
在 GLM-4.5 工具使用和 HTML 编码能力的基础上,我们开发了一个模型原生的 PPT/ Poster 智能体。无论用户需要简单还是复杂的设计,或是上传文档资料,GLM-4.5 Agent 都能自动搜索网络资源、获取相关图片,并生成相应的幻灯片。
GLM-4.5 在前后端开发上游刃有余,是构建现代 Web 应用的利器。为了充分展现这一能力,我们借鉴 Claude Code 框架打造了一款编码智能体。基于预置的全栈网站框架,用户可以一句话生成完整网站,并通过多轮对话轻松添加新功能、完善项目细节。
GLM-4.5 可通过 Z.ai 平台访问,方法是选择 GLM-4.5 模型选项。该平台全面支持前端产物生成、演示幻灯片创建和全栈开发能力。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。