产品

解决方案

支持与帮助

售前咨询

快手万擎(Vanchin)

开始使用

产品介绍

产品计费

免费推理额度

模型服务价格

模型计费说明

资源包抵扣规则

税率与发票

API说明

控制台介绍

常见问题

相关协议

产品计费模型服务价格

模型服务价格

更新时间：2025-10-31 16:16:43

不同模型服务支持的能力及单价各不相同，本文为您介绍各模型的计费公式及单价，方便您进行模型价格查阅和比较。

一、在线推理

按 Token 后付费价格

计费公式

在线推理费用 = 输入单价 × 输入Token + 输出单价 × 输出Token，其中输出Token 包括模型输出content内容和思维链reasoning_content内容。

若开启上下文缓存，在线推理费用 = 输入单价 × (输入Token - 缓存命中Token) + 缓存命中单价 × 缓存命中Token + 输出单价 × 输出Token。

部分模型支持指定思考/非思考模式，若不指定，则以默认逻辑为准。

计费单价

模型名称	上下文长度	输入（元/百万Token）	缓存命中（元/百万Token）	输出（元/百万Token）
DeepSeek R1	128K	4	1.6	16
DeepSeek V3	64K	2	0.8	8
Qwen3-32B	128K	2	0.8	思考：20 非思考：8
Qwen3-30B-A3B	128k	0.75	0.3	思考：7.5 非思考：3
Qwen3-8B	128k	0.5	0.2	思考：5 非思考：2
Qwen2.5-72B-Instruct（即将上线）	128k	4	1.6	12
Qwen2.5-7B-Instruct	128k	0.5	0.2	1
kimi-k2-Instruct	256K	4	1.6	16
DeepSeek-V3.1	160K	4	1.6	12
DeepSeek-V3.2-Exp	128K	2	-	3
Qwen3-235B-A22B-Thinking-2507	128K	2	-	20
Qwen3-VL-235B-A22B-Thinking	128K	2	-	20
Qwen3-VL-235B-A22B-Instruct	128K	2	-	8

KAT-Coder系列	上下文长度	输入token数	输入（元/百万 token）	缓存命中（元/百万 token）	输出（元/百万 token）
KAT-Coder（已下线）	256K	0-32K	4	0.8	16
		32-128K	6	1.2	24
		128-256K	10	2	40
KAT-Coder-Pro V1	256K	0-32K	4	0.8	16
		32-128K	6	1.2	24
		128-256K	10	2	40
KAT-Coder-Air V1	128K	0-128K	免费	免费	免费
KAT-Coder-Exp-72B 1010	128K	0-128K	免费	免费	免费

说明：KAT-Coder-Pro V1 是KAT-Coder 的升级版，KAT-Coder即将下线，欢迎切换到Pro V1进行使用。

二、批量推理

按 Token 后付费价格

部分模型的批量推理价格是在线推理价格的50%，实际请以下面表格中的价格为准。

计费公式

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token, 其中输出token包括模型输出content内容和思维链reasoning_content内容。

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token。

计费单价

模型名称	上下文长度	输入（元/百万Token）	输出（元/百万Token）
DeepSeek R1	128K	2	8
DeepSeek V3	64K	1	4
Qwen3-32B	128K	1	思考：10 非思考：4
Qwen3-30B-A3B	128k	0.375	思考：3.75 非思考：1.5
Qwen3-8B	128k	0.25	思考：2.5 非思考：1
Qwen2.5-72B-Instruct（即将上线）	128k	2	6
Qwen2.5-7B-Instruct	128k	0.25	0.5
kimi-k2-Instruct	256K	2	8
DeepSeek-V3.1	160K	2	6
DeepSeek-V3.2-Exp	128K	1	1.5
Qwen3-235B-A22B-Thinking-2507	128K	1	10
Qwen3-VL-235B-A22B-Thinking	128K	1	10
Qwen3-VL-235B-A22B-Instruct	128K	1	4

三、模型微调

计费方式：按 token 后付费

计费公式：训练费用 =（训练集 tokens ） x epoch（迭代轮次）x 微调单价

微调方式：支持SFT/DPO
训练方法：支持LoRA/FULL

计费单价：根据不同模型的微调方式和训练方法，价格不同

序号	模型	微调方式 \ 训练方法	SFT	DPO	价格单位
1	Qwen2.5-1.5B-Instruct	全量更新	2	10	元/百万Token
1	Qwen2.5-1.5B-Instruct	LoRA	2	10	元/百万Token
2	Qwen2.5-7B-Instruct	全量更新	4.8	4.8	元/百万Token
2	Qwen2.5-7B-Instruct	LoRA	3	4.8	元/百万Token
3	Qwen2.5-14B-Instruct	全量更新	6	6.5	元/百万Token
3	Qwen2.5-14B-Instruct	LoRA	4	4.5	元/百万Token
4	Qwen2.5-32B-Instruct	全量更新	20	24	元/百万Token
4	Qwen2.5-32B-Instruct	LoRA	10	24	元/百万Token
5	Qwen3-0.6B	全量更新	2	8	元/百万Token
5	Qwen3-0.6B	LoRA	2	7	元/百万Token
6	Qwen3-1.7B	全量更新	2	8	元/百万Token
6	Qwen3-1.7B	LoRA	2	7	元/百万Token
7	Qwen3-4B	全量更新	3	40	元/百万Token
7	Qwen3-4B	LoRA	2.5	30	元/百万Token
8	Qwen3-8B	全量更新	4	4.8	元/百万Token
8	Qwen3-8B	LoRA	3	4.8	元/百万Token
9	Qwen3-14B	全量更新	9	24	元/百万Token
9	Qwen3-14B	LoRA	6.5	24	元/百万Token
10	Qwen3-32B	全量更新	15	32	元/百万Token
10	Qwen3-32B	LoRA	10	32	元/百万Token
11	DeepSeek-R1-Distill-Qwen-14B	全量更新	9	24	元/百万Token
11	DeepSeek-R1-Distill-Qwen-14B	LoRA	6.5	24	元/百万Token
12	DeepSeek-R1-Distill-Qwen-32B	全量更新	15	32	元/百万Token
12	DeepSeek-R1-Distill-Qwen-32B	LoRA	10	32	元/百万Token

四、微调后推理

计费方式：按模型单元付费

模型单元提供专属算力，对精调后模型表现更优。模型单元按照您选择的模型和使用时长进行收费，支持「按小时后付费」，您可依据业务流量灵活采购，支持随时调整增加或调减。

序号	模型单元	单元价格（元/小时/个）
1	Qwen2.5-1.5B-Instruct	40
2	Qwen2.5-7B-Instruct	40
3	Qwen2.5-14B-Instruct	40
4	Qwen2.5-32B-Instruct	80
5	Qwen3-0.6B	40
6	Qwen3-1.7B	40
7	Qwen3-4B	40
8	Qwen3-8B	40
9	Qwen3-14B	40
10	Qwen3-32B	80
11	DeepSeek-R1-Distill-Qwen-14B	40
12	DeepSeek-R1-Distill-Qwen-32B	80

上一篇：免费推理额度下一篇：模型计费说明

该篇文档内容是否对您有帮助？

有帮助没帮助

关于我们

了解我们文档中心

支持与服务

服务咨询意见与反馈

法律支持

服务协议隐私政策

联系我们

业务咨询市场合作电话与邮箱

友情链接

快手 Acfun 快手云剪 AI开放平台

京ICP备19034532号-192通信电信许可证京B2-20202468. B1-20202319 版权所有 @北京溪流湖科技有限公司 2022 版权所有

京ICP备19034532号-192通信电信许可证京B2-20202468. B1-20202319版权所有 @北京溪流湖科技有限公司 2022 版权所有