澳洲幸运5app下载 0.3B参数,600MB内存!腾讯混元实现产业级2Bit量化,端侧模型小如手机App

澳洲幸运5app下载 0.3B参数,600MB内存!腾讯混元实现产业级2Bit量化,端侧模型小如手机App

你的位置:澳洲幸运5官方网站 > 开奖 > 澳洲幸运5app下载 0.3B参数,600MB内存!腾讯混元实现产业级2Bit量化,端侧模型小如手机App
澳洲幸运5app下载 0.3B参数,600MB内存!腾讯混元实现产业级2Bit量化,端侧模型小如手机App
发布日期:2026-02-12 11:50    点击次数:105

澳洲幸运5app下载 0.3B参数,600MB内存!腾讯混元实现产业级2Bit量化,端侧模型小如手机App

参数量仅0.3B,内存占用仅600MB,更适合端侧部署还带思维链的模型来了。

腾讯混元最新推出面向消费级硬件场景的"极小"模型HY-1.8B-2Bit,体量甚至比常用的一些手机应用还小。

该模型基于混元团队首创的产业级 2Bit 端侧量化方案,通过对此前混元的小尺寸语言模型—— HY-1.8B-Instruct 进行 2 比特量化感知训练(QAT)产出,对比原始精度模型等效参数量降低了 6 倍,在沿用原模型全思考能力同时,在真实端侧设备上对比原始精度模型生成速度提升 2 — 3 倍,可大幅提升使用体验。

{jz:field.toptypename/}

随着大语言模型普及,如何将模型在比如手机、耳机或者智能家居设备应用,成为业界难题,尤其不少应用对模型的离线部署、私密性等都有更高的需求,这就需要更多能够在端侧运行的又小又强的模型。

端侧部署的展开,本质上是一条在"小而精,快而准"的艰难探索之路,我们既需要模型足够聪明,能应对千变万化的真实需求,又必须将它约束在极其有限的硬件资源内部署并快速推理,这就好像在给模型进行"减脂增肌,减重提质"。

△  HY-1.8B 原始精度模型

△  HY-1.8B-2Bit 模型

比特(Bit)是计算机存储的最小单位,1 比特能表示 2 种状态(0 或 1),2 比特能表示 4 种状态,依此类推,一般模型的精度有 2 比特、4 比特、8 比特、32 比特等表示方法,数值越大模型的精度更高,所占的内存就越大。

虽然 2 比特量化的精度损失较大,但通过 QAT 和先进的量化策略,已经能让 2 比特模型接近全精度模型的性能。

在模型能力方面,对比 4 比特 PTQ 模型版本数学、代码、科学等指标上表现相当,实现了"小而强"的设计目标。同时,这一模型已经支持了 gguf 格式,在真实端侧设备上对比原始精度模型生成速度提升 2 — 3 倍,可以大幅提升用户使用体验。

此外,HY-1.8B-2Bit 模型还沿用了 Hunyuan-1.8B-Instruct 的全思考能力,澳门游戏网用户可以灵活使用,为简单的查询提供了简洁的思维链,为复杂的任务提供了详细长思维链,用户可以根据其应用的复杂性和资源限制灵活地选择这两种模式。

技术上,量化作为大模型部署上线不可或缺的一环,肩负了降低部署成本与保精度的使命,大部分情况下对于 int4、int8、fp8 的压缩精度要求,采用 PTQ 量化策略即可实现几乎无损,但随着原始模型大小的缩小、压缩 bit 数的进一步降低,PTQ 带来的量化损失是巨大的。

因此,对于原始模型大小只有 1.8B,量化 bit 数只有 2bit 的 HY-1.8B-2Bit,混元团队采用了量化感知训练策略,这显著提升了量化后模型的性能。

腾讯混元还通过数据优化、弹性拉伸量化以及训练策略创新三个方法来最大限度的提升 HY-1.8B-2Bit 的全科能力。

数据优化

对不同类别的数据进行实验表明,幸运5提高理科数据占比和加入适当的长文数据能够明显提高 QAT 后模型的全面能力,推测这是由于量化后的模型对于逻辑推理和长文的损失是要远远大于其他 Topic。因此,本次模型训练强化了这部分数据的比例作为 HY-1.8B-2Bit 的训练数据集。

弹性拉伸量化

针对 2-bit 极低精度的挑战,HY-1.8B-2Bit 在量化算法上进行了差异化布局。为了规避高 bit QAT 中常见方案在超低比特下导致的精度崩塌,结合前序研究,应用了"弹性拉伸量化"(SEQ)策略。

SEQ 策略的核心逻辑是摒弃了传统包含 0 值的非对称映射(如 INT2{-2, -1, 0, 1}),转而采用 {-1.5, -0.5, 0.5, 1.5} 的对称映射方案。这一改进旨在通过平移量化重心,解决 2-bit 下有效能级受限的问题,从而最大化动态范围的覆盖能力。

配合算法对量化区间缩放因子的自适应微调,该方案显著缓解了极低精度下的信息流失,为 HY-1.8B-2Bit 在有限位宽下捕捉高维特征分布提供了坚实的算法支撑。

训练策略

训练感知量化,在训练阶段就让模型提前适应权重被量化到更低比特数下产生的精度损失,腾讯混元团队选定 Instruct 模型而不是预训练权重作为 QAT 模型的初始化权重,以节省训练 token 使模型更快收敛。

2bit 量化和高 bit 量化(3bit 以上)在 QAT 过程中存在显著差异,其根本原因在于 3bit 以上的量化信息损失并不大,QAT 主要是在在"补偿"精度损失,模型权重保持在原始分布附近;而 2bit 量化中,QAT 更多的是一种"重构"过程,权重分布会发生剧烈变化以适应新的低精度表示。因此,训练配置的搜索尤为重要。

为了快速锁定正确的训练配置,通过大量的风洞试验在小规模数据下(10B)试验确定了最优的超参配置,并通过不同 token 数量的对比实验确定最低限度 token,以追求效率与精度的最佳平衡。最终,训练 HY-1.8B-2Bit 所消耗的 token 数量仅为 Bitnet-2B 的 10%,这意味着低比特模型的 QAT 训练不需要从预训练开始做起,使用更少的训练成本就可以获得极低比特版本的模型,为极低 bit 的模型生产规模化带来信心。

部署方面,腾讯混元提供了 HY-1.8B-2Bit 的 gguf-int2 格式的模型权重与 bf16 伪量化权重,对比原始精度模型,HY-1.8B-2Bit 实际模型大小直降 6 倍,仅有 300MB,能够灵活用于端侧设备上。该模型也已在 Arm 等计算平台上完成适配,可部署于启用 Arm SME2 技术的移动设备上,并实现高效运行。

在 MacBook M4 芯片上,HY-1.8B-2Bit 固定了线程数为 2 测试了不同窗口大小下的首字时延和生成速度,模型选定 fp16、Q4、HY-1.8B-2Bit 三种 gguf 格式作为对比,首字时延在 1024 输入内能够保持 3~8 倍的加速,生成速度上常用窗口下对比原始模型精度,HY-1.8B-2Bit 能够实现至少 2 倍稳定加速。

在天玑 9500 上同样进行了测试,对比 HY-1.8B-Q4 格式首字时延能够加速 1.5~2 倍,生成速度加速约 1.5 倍。

为在边缘设备上实现大语言模型的灵活部署,HY-1.8B-2Bit 采用了极低比特量化技术,在保持与 INT4-PTQ 方法相当模型性能的同时,实现了在端侧设备上的高效稳定推理。

当前,HY-1.8B-2Bit 的能力仍受限于监督微调(SFT)的训练流程,以及基础模型本身的性能与抗压能力。针对这一问题,混元团队未来将重点转向强化学习与模型蒸馏等技术路径,以期进一步缩小低比特量化模型与全精度模型之间的能力差距,从而为边缘设备上的大语言模型部署开拓更广阔的应用前景。

项目链接:

{jz:field.toptypename/}

https://github.com/Tencent/AngelSlim

模型地址:

https://huggingface.co/AngelSlim/HY-1.8B-2Bit

https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

技术报告地址:

https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生  � �

感兴趣的小伙伴欢迎关注 � �  了解详情

� � 点亮星标 � �

科技前沿进展每日见



Copyright © 1998-2026 澳洲幸运5官方网站™版权所有

qdbfcec.com 备案号 备案号: 

技术支持:®幸运5  RSS地图 HTML地图