不同模型服务支持的能力及单价各不相同,本文为您介绍各模型的计费公式及单价,方便您进行模型价格查阅和比较。
按 token 后付费价格
计费公式
在线推理费用 = 输入单价 × 输入token + 输出单价 × 输出token,其中输出 token 包括模型输出content内容和思维链reasoning_content内容。
若开启上下文缓存 ,在线推理费用 = 输入单价 × (输入token - 缓存命中token) + 缓存命中单价 × 缓存命中token + 输出单价 × 输出token。
部分模型支持指定思考/非思考模式,若不指定,则以默认逻辑为准。
计费单价
模型名称 | 上下文长度 | 输入(元/百万 tokens) | 缓存命中(元/百万 tokens) | 输出(元/百万 tokens) |
DeepSeek R1 | 128K | 4 | 1.6 | 思考:16 非思考:6.4 |
DeepSeek V3 | 64K | 2 | 0.8 | 8 |
Qwen3-32B | 128K | 2 | 0.8 | 思考:20 非思考:8 |
Qwen3-30B-A3B | 128k | 0.75 | 0.3 | 思考:7.5 非思考:3 |
Qwen3-8B | 128k | 0.5 | 0.2 | 思考:5 非思考:2 |
Qwen2.5-72B-Instruct | 128k | 4 | 1.6 | 12 |
Qwen2.5-7B-Instruct | 128k | 0.5 | 0.2 | 1 |
kimi-k2-Instruct(即将上线) | 128K | 4 | 1.6 | 16 |
按 token 后付费价格
部分模型的批量推理价格是在线推理价格的50%,实际请以下面表格中的价格为准。
计费公式
批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token, 其中输出token包括模型输出content内容和思维链reasoning_content内容。
批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token。
计费单价
模型名称 | 上下文长度 | 输入(元/百万 tokens) | 输出(元/百万 tokens) |
DeepSeek R1 | 128K | 2 | 思考:8 非思考:3.2 |
DeepSeek V3 | 64K | 1 | 4 |
Qwen3-32B | 128K | 1 | 思考:10 非思考:4 |
Qwen3-30B-A3B | 128k | 0.375 | 思考:3.75 非思考:1.5 |
Qwen3-8B | 128k | 0.25 | 思考:2.5 非思考:1 |
Qwen2.5-72B-Instruct | 128k | 2 | 6 |
Qwen2.5-7B-Instruct | 128k | 0.25 | 0.5 |
kimi-k2-Instruct(即将上线) | 128K | 2 | 8 |