不同模型服务支持的能力及单价各不相同,本文为您介绍各模型的计费公式及单价,方便您进行模型价格查阅和比较。
按 token 后付费价格
计费公式
在线推理费用 = 输入单价 × 输入token + 输出单价 × 输出token,其中输出 token 包括模型输出content内容和思维链reasoning_content内容。
若开启上下文缓存 ,在线推理费用 = 输入单价 × (输入token - 缓存命中token) + 缓存命中单价 × 缓存命中token + 输出单价 × 输出token。
部分模型支持指定思考/非思考模式,若不指定,则以默认逻辑为准。
计费单价
模型名称 | 上下文长度 | 输入(元/百万 tokens) | 缓存命中(元/百万 tokens) | 输出(元/百万 tokens) |
DeepSeek R1 | 128K | 4 | 1.6 | 16 |
DeepSeek V3 | 64K | 2 | 0.8 | 8 |
Qwen3-32B | 128K | 2 | 0.8 | 思考:20 非思考:8 |
Qwen3-30B-A3B | 128k | 0.75 | 0.3 | 思考:7.5 非思考:3 |
Qwen3-8B | 128k | 0.5 | 0.2 | 思考:5 非思考:2 |
Qwen2.5-72B-Instruct(即将上线) | 128k | 4 | 1.6 | 12 |
Qwen2.5-7B-Instruct | 128k | 0.5 | 0.2 | 1 |
kimi-k2-Instruct | 128K | 4 | 1.6 | 16 |
DeepSeek-V3.1 | 160K | 4 | 1.6 | 思考:12 非思考:12 |
模型名称 | 上下文长度 | 输入token数 | 输入(元/百万 tokens) | 缓存命中(元/百万 tokens) | 输出(元/百万 tokens) |
KAT-Coder | 256K | 0-32K | 5.5 | 0.8 | 22 |
32-128K | 6.5 | 1.2 | 26 | ||
128-256K | 9.5 | 2 | 38 |
按 token 后付费价格
部分模型的批量推理价格是在线推理价格的50%,实际请以下面表格中的价格为准。
计费公式
批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token, 其中输出token包括模型输出content内容和思维链reasoning_content内容。
批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token。
计费单价
模型名称 | 上下文长度 | 输入(元/百万 tokens) | 输出(元/百万 tokens) |
DeepSeek R1 | 128K | 2 | 8 |
DeepSeek V3 | 64K | 1 | 4 |
Qwen3-32B | 128K | 1 | 思考:10 非思考:4 |
Qwen3-30B-A3B | 128k | 0.375 | 思考:3.75 非思考:1.5 |
Qwen3-8B | 128k | 0.25 | 思考:2.5 非思考:1 |
Qwen2.5-72B-Instruct(即将上线) | 128k | 2 | 6 |
Qwen2.5-7B-Instruct | 128k | 0.25 | 0.5 |
kimi-k2-Instruct | 128K | 2 | 8 |
DeepSeek-V3.1 | 160K | 2 | 思考:6 非思考:6 |
计费方式:按 token 后付费
计费公式:训练费用 =(训练集 tokens ) x epoch(迭代轮次)x 微调单价
计费单价:根据不同模型的微调方式和训练方法,价格不同
序号 | 模型 | 微调方式 \ 训练方法 | SFT | DPO | 价格单位 |
1 | Qwen2.5-1.5B-Instruct | 全量更新 | 2 | 10 | 元/百万token |
LoRA | 2 | 10 | 元/百万token | ||
2 | Qwen2.5-7B-Instruct | 全量更新 | 4.8 | 4.8 | 元/百万token |
LoRA | 3 | 4.8 | 元/百万token | ||
3 | Qwen2.5-14B-Instruct | 全量更新 | 6 | 6.5 | 元/百万token |
LoRA | 4 | 4.5 | 元/百万token | ||
4 | Qwen2.5-32B-Instruct | 全量更新 | 20 | 24 | 元/百万token |
LoRA | 10 | 24 | 元/百万token | ||
5 | Qwen3-0.6B | 全量更新 | 2 | 8 | 元/百万token |
LoRA | 2 | 7 | 元/百万token | ||
6 | Qwen3-1.7B | 全量更新 | 2 | 8 | 元/百万token |
LoRA | 2 | 7 | 元/百万token | ||
7 | Qwen3-4B | 全量更新 | 3 | 40 | 元/百万token |
LoRA | 2.5 | 30 | 元/百万token | ||
8 | Qwen3-8B | 全量更新 | 4 | 4.8 | 元/百万token |
LoRA | 3 | 4.8 | 元/百万token | ||
9 | Qwen3-14B | 全量更新 | 9 | 24 | 元/百万token |
LoRA | 6.5 | 24 | 元/百万token | ||
10 | Qwen3-32B | 全量更新 | 15 | 32 | 元/百万token |
LoRA | 10 | 32 | 元/百万token | ||
11 | DeepSeek-R1-Distill-Qwen-14B | 全量更新 | 9 | 24 | 元/百万token |
LoRA | 6.5 | 24 | 元/百万token | ||
12 | DeepSeek-R1-Distill-Qwen-32B | 全量更新 | 15 | 32 | 元/百万token |
LoRA | 10 | 32 | 元/百万token |
计费方式:按模型单元付费
模型单元提供专属算力,对精调后模型表现更优。模型单元按照您选择的模型和使用时长进行收费,支持「按小时后付费」,您可依据业务流量灵活采购,支持随时调整增加或调减。
序号 | 模型单元 | 单元价格(元/小时/个) |
1 | Qwen2.5-1.5B-Instruct | 40 |
2 | Qwen2.5-7B-Instruct | 40 |
3 | Qwen2.5-14B-Instruct | 40 |
4 | Qwen2.5-32B-Instruct | 80 |
5 | Qwen3-0.6B | 40 |
6 | Qwen3-1.7B | 40 |
7 | Qwen3-4B | 40 |
8 | Qwen3-8B | 40 |
9 | Qwen3-14B | 40 |
10 | Qwen3-32B | 80 |
11 | DeepSeek-R1-Distill-Qwen-14B | 40 |
12 | DeepSeek-R1-Distill-Qwen-32B | 80 |