
英伟达整合LPU(话语处理单位)时期、OpenAI多线押注推理芯片,正在将AI算力竞争的主战场从锻真金不怕火切换至推理。筹商觉得,2026年算力产业的中枢枢纽词将是推理,Token耗尽总量与时期范式均将围绕这一主题深度重构。
2月28日,据《华尔街日报》报谈,贪图鄙人月的GTC设立者大会上发布一款整合了Groq“话语处理单位”(LPU)时期的全新推理芯片,英伟达首席本质官黄仁勋称其为“寰球从未见过”的全新系统。OpenAI已答应成为该处理器的最大客户之一,并将向英伟达购买大领域“专用推理产能”。
与此同期,OpenAI上月还与初创公司Cerebras达成数十亿好意思元想象配合,后者称其推理芯片速率已卓绝英伟达GPU(图形处理器)。这一系列动向标明,AI巨头正在从锻真金不怕火算力的武备竞赛,转向推理算力的多线布局。
申万宏源讲演指出,Token经济时期,推理算力正迎来四大趋势:一是纯CPU(中央处理器)部署场景增多,低老本推理需求加速算力下千里;二是LPU等专用架构崛起,挑战GPU在推理轮番的主导地位;三是国产算力芯片加速打破,供应链多元化趋势明确;四是推理算力的需求结构从“单次锻真金不怕火”向“海量Token耗尽”曲折,性价比成为中枢竞争成分。
讲演示意,大要提供富足、高性价比推理芯片的厂商将最为受益,而CPU、LPU及国产芯片的共同打破,正组成这一轮算力风物重塑的中枢印迹。
推理需求全面爆发,Token耗尽创历史新高
申万宏源筹商觉得,需求捏续彭胀的背后是两大结构性驱能源:一是大模子货币化加速,Claude等模子运转向诓骗端切入,发布多款行业插件;二是Agent落地提速,openclaw、千问Agent等家具标记着Agent正参加真确的使命与分娩场景,而每一次模子调用和Agent任务本质,背后均需大王人推理算力缓助。
申万宏源筹商征引数据透露,春节时候国内头部大模子推理量大幅增长:豆包除夜本日推理迷糊量达633亿tokens,元宝月活跃用户达1.14亿,千问“春节大免单”步履参与东谈主数超1.2亿。
民众AI模子API团员平台OpenRouter的数据进一步揭示了这一趋势的量级。2月9日至15日当周,中国模子以4.12万亿Token的调用量初次逾越好意思国模子的2.94万亿Token;16日至22日当周,中国模子调用量进一步冲高至5.16万亿Token,三周大涨127%,民众调用量前五的模子中中国占据四席。

LPU成新贵,锻真金不怕火与推理芯片走向分化
英伟达斥资200亿好意思元获取Groq中枢时渴望可,并在“中枢聘请”来回中吸纳了包括首创东谈主Jonathan Ross在内的高管团队。申万宏源筹商觉得,这一来回标记着纯推理芯片的进犯性已赢得顶级玩家的弘扬招供。
LPU与传统GPU的架构互异,恰是其在推理场景中具备恶果上风的根柢原因。AI推理分为预填充息争码两个阶段,澳洲幸运5app大型模子的解码经过尤其冉冉,而LPU针对延伸和内存带宽这两大推理瓶颈进行了专项优化。据华尔街见闻此前报谈,英伟达行将发布的新品可能触及下一代Feynman架构,或摄取更鄙俚的SRAM集成决议,以致通过3D堆叠时期将LPU深度整合其中。
申万宏源筹商据此判断,昔日AI芯片将变成明确的时期单干风物:锻真金不怕火端持续沿用GPU-HBM组合,推理端则演进为ASIC+LPU-SRAM+SSD的组合决议。跟着算力需求从锻真金不怕火向推理切换,专注推理芯片的厂商将迎来发展机遇。
推理系统全面翻新,CPU与收集需求同步普及
从单一芯片到系统层面的翻新,是本轮推理算力升级的另一进犯维度。申万宏源筹商指出,跟着诓骗场景从chatbot转向Agent,算力系统对延伸、迷糊与想考深度的条目同期普及,推进系统架构向三层收集演进。
第一层为快响应层,由搭载SRAM的纯推理芯片提供极致低延伸反馈;第二层为慢想考层,使用超大迷糊算力集群负责复杂逻辑推演,多核多线程CPU在此层的需求将显耀加多;第三层为操心层,对应英伟达发布的ContextMemory System,通过Bluefield4 DPU处理的SSD存储Agent的长久操心与KV Cache。
英伟达在硬件层面也在调遣计策。此前将Vera CPU与Rubin GPU绑缚部署的尺度作念法,在特定AI智能体使命负载下被解释老本过高。英伟达本月文书扩大与Meta Platforms的配合,完成初次大领域纯CPU部署,以支捏Meta的告白定向AI智能体,标记着公司正卓绝单一GPU销售模式。
{jz:field.toptypename/}
国产算力加速打破
申万宏源筹商觉得,国产推理芯片的时期升级值得要点原宥,且存在商场预期差。
在时期层面,新一代国产推理芯片杀青了多项根人性普及:新增支捏FP8/MXFP8/MXFP4等低精度数据神色,算力划分达到1P和2P;大幅普及向量算力,摄取支捏SIMD/SIMT双编程模子的新同构想象;互联带宽比拟前代普及2.5倍,达到2TB/s。
尤为值得原宥的是,芯片层面杀青了PD分离:通过自研两种不同规格的HBM,划分组成面向Prefill和推选场景的PR版块,以及面向Decode和锻真金不怕火场景的DT版块。其中PR版块摄取低老本HBM,可大幅裁减推理Prefill阶段的投资老本,预测于2026年Q1推出。
供应链层面,国产封测厂商的进展提供了佐证。阐述某头部封测企业首轮问询回复函,其2.5D封装业务收入主要来自傲性能想象芯片封装工作,该项收入从2022年的0.5亿元快速增长至2024年的18.2亿元,侧面印证国产算力芯片供给材干捏续普及,供应链国产化进度加速。

备案号: