
不管 Pony Alpha 是不是智谱的,下一代旗舰大模型 GLM-5 都要来了。
GitHub 代码确认,新一代架构细节曝光。

GLM-5 采用了 DeepSeek-V3/V3.2 架构,包括稀疏注意力机制(DSA)和多 Token 预测(MTP),总参数量 745B,是上一代 GLM-4.7 的 2 倍。

与此同时,OpenRouter 平台上突然出现的神秘匿名模型「Pony Alpha」,编程和推理能力极为强劲,被社区 91% 以上的用户判断为 GLM-5 测试版。
{jz:field.toptypename/}受这些消息影响,智谱 AI 港股两日暴涨 60%。

开源代码泄露参数架构
GLM-5 的架构信息并非来自智谱官方,而是被开源社区从代码提交中"挖"出来的。
在 vLLM 推理框架的 PR 中,开发者发现 GLM-5 的实现逻辑被直接映射到了 DeepSeek-V3 的组件上。

GLM-5 继承的第一项核心技术是 DeepSeek 稀疏注意力(DeepSeek Sparse Attention,DSA)。
DSA 通过两阶段流程做到长文本处理效率大幅提升,输出质量几乎不受影响。
首先由 Lightning Indexer 轻量级组件快速扫描所有历史 token 并打分,评估它们与当前 query token 的相关性;然后只挑选得分最高的 Top-k 个 token 进行完整的注意力计算,其余全部跳过。
第二项技术是多 Token 预测(Multi-Token Prediction,MTP),用于提升模型的生成效率。
从代码中推断出的架构参数看,GLM-5 包含 78 层隐藏层,采用 MoE(混合专家)架构,共 256 个专家,幸运5每次推理激活 8 个,激活参数约 44B,稀疏度 5.9%,与 DeepSeek-V3.2 的 5.4% 基本持平。
上下文窗口支持最高 202K token。

有开发者指出,复用 DeepSeek 架构意味着 GLM-5 可以直接受益于 vLLM、SGLang 等推理框架已有的优化,部署门槛会更低。
但也有人提出疑问:DeepSeek-V3 架构以纯文本为主,GLM-5 首发版本是否会因此缺失多模态能力?

匿名测试与春节档大混战
2 月初,OpenRouter 平台上新匿名免费模型,代号「Pony Alpha」,支持 200K 上下文窗口。

模型一上线就引起了开发者社区的广泛关注,它的编程能力非常突出,能根据单条提示直接生成完整的功能性应用程序,在复杂推理和 Agent 工作流上同样表现出色。
"这到底是谁家的模型"迅速成为社区热议话题。

指向 GLM-5 的证据链覆盖了多个维度:
时间上,「Pony Alpha」出现的节点与智谱首席科学家唐杰多次暗示的 GLM-5 发布窗口完全吻合。

有开发者测试发现该模型对特定 token 的反应和 GLM 系列一致。
风格上,它的输出排版习惯也与 GLM 系列高度一致。

GLM-5 的发布窗口,恰好撞上了一个异常拥挤的档期。
唐杰在内部信中已明确预告 GLM-5 即将发布,多方信息指向 2026 年 2 月中旬,即春节前后。
而在同一时间段,DeepSeek 新模型、Qwen 3.5、MiniMax M2.2 等模型也都有消息将发布更新。
2026 年的"春节档",AI 比电影那边还热闹。
参考链接:
[ 1 ] https://github.com/vllm-project/vllm/pull/34124
[ 2 ] https://x.com/chetaslua/status/2020832197771714943
— 欢迎 AI 产品从业者共建 —
� �「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。
一键关注 � � 点亮星标
科技前沿进展每日见

备案号: