logologo
logo
热门活动
HOT
产品
解决方案
客户价值
文档
支持与帮助
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
模型服务
模型定制
模型研发
模型托管
模型评测
数据管理
系统管理
产品计费
API说明
常见问题
相关协议
文档中心
模型服务模型定制模型量化

模型量化


一、什么是模型量化

模型量化是一种模型压缩技术,通过降低模型参数的数值精度(如从 16bit 降至 8bit 或 4bit),在保持模型效果基本不变的前提下,大幅减少模型体积和计算资源需求,将模型中连续、高精度的数值(通常是32位浮点数)转换为离散、低精度的数值(如8位整数),从而大幅减少模型对存储和计算资源的需求,并提升推理速度。平台当前支持支持 AWQGPTQ 两种主流的训练后量化方法,使您能在保持模型核心能力的前提下,实现高效的模型部署。


二、核心价值

价值

说明

显存节省

模型体积显著缩小,GPU 显存占用大幅降低

推理加速

计算量减少,推理响应速度提升

精度保持

经过优化的量化方案,精度损失很小

成本降低

所需 GPU 资源更少,硬件和云服务成本相应降低


三、 典型应用场景

  • 场景 1:成本敏感型部署
    • 痛点:中小企业 AI 预算有限,大模型推理成本过高
    • 方案:使用 AWQ 量化将模型压缩至 4bit,大幅降低 GPU 需求
    • 效果:同等预算可服务更多用户,或以更少预算达到同等效果


  • 场景 2:有限显存环境部署
    • 痛点:部署环境 GPU 显存有限
    • 方案:量化后的模型可在更小显存的 GPU 上运行
    • 效果:降低硬件配置要求,扩大可部署环境范围


  • 场景 3:高并发推理
    • 痛点:业务高峰期需处理大量并发请求
    • 方案:量化后模型单卡占用更少,同一 GPU 可部署更多推理实例
    • 效果:系统吞吐量显著提升,高峰期响应能力增强


四、核心能力

万擎支持两种量化方式:

对比维度

AWQ(W4A16)

GPTQ(Wfp8Afp8)

权重精度

4bit 整数

fp8 浮点

激活精度

16bit 浮点

fp8 浮点

压缩比

较高(约 4 倍压缩)

适中(约 2 倍压缩)

显存节省

非常显著

显著

精度保持

略有损失,大部分场景可接受

精度保持更好

适用场景

成本敏感、显存有限

精度敏感、质量优先

选择建议:

  • 追求极致成本优化、显存紧张 → 选择 AWQ
  • 追求精度优先、不希望损失效果 → 选择 GPTQ

支持模型

  • 预置模型:万擎平台内置的公开模型
  • 定制模型:通过 SFT、DPO、蒸馏等方式产生的定制模型

【⚠️注意:当前不支持用户自主上传外部模型后进行量化。】


五、场景示例

背景:某企业使用 70B 参数大模型构建内部知识问答系统,效果良好但 GPU 成本较高。

目标:在尽量保持效果的前提下,降低部署和推理成本。

Step 1:选择要量化的模型

在万擎平台模型列表中,选择当前使用的 32B 模型。

Step 2:选择量化方式

  • 追求最大成本节省 → 选择 AWQ(4bit),相同QPS情况下,TTFT略慢于基础模型1%~3%,TPOT快50%
  • 追求最小精度损失 → 选择 GPTQ(fp8),相同QPS情况下,TTFT快20%,TPOT快30%

Step 3:创建量化任务

在平台上创建量化任务,系统自动完成量化过程。

Step 4:部署量化后模型

将量化后的模型部署为推理接入点,替换原有的全精度模型。

预期效果:GPU 显存占用和推理成本可大幅降低,推理速度相应提升,模型效果损失较小。具体数据视所选量化方式和业务场景而定。建议量化后进行业务测试,确认效果满足需求后再正式切换。


六、操作流程

6.1 创建量化任务

左侧导航页选择模型定制 - 模型量化,点击「新建量化任务」,进入新建量化任务页面:

  1. 填写任务名称、描述;
  2. 选择需进行量化的模型,当前支持平台预置模型及用户微调后模型,暂不支持上传模型;
  3. 选择量化方式,量化位宽将根据您选择的量化方式自动填充;
  4. 选择数据集,若量化来源为微调后的模型,则默认填充微调的数据集,您可选择切换为其他数据集;
  5. 选择发布方式并完成基础信息填写。

6.2 查看量化任务

当项目下存在量化任务时,用户可在模型量化页面查看该项目下的所有量化任务信息,点击某个任务名称将进入该任务详情,可查看任务的详情信息及任务日志。

上一篇:模型蒸馏下一篇:模型研发能力介绍
该篇文档内容是否对您有帮助?
有帮助没帮助