logologo
售前咨询
快手万擎
开始使用
模型介绍
产品计费
API说明
控制台介绍
相关协议
文档中心
产品计费模型服务价格

模型服务价格


不同模型服务支持的能力及单价各不相同,本文为您介绍各模型的计费公式及单价,方便您进行模型价格查阅和比较。

一、在线推理

按 token 后付费价格

计费公式

在线推理费用 = 输入单价 × 输入token + 输出单价 × 输出token,其中输出 token 包括模型输出content内容和思维链reasoning_content内容。

若开启上下文缓存 ,在线推理费用 = 输入单价 × (输入token - 缓存命中token) + 缓存命中单价 × 缓存命中token + 输出单价 × 输出token。

部分模型支持指定思考/非思考模式,若不指定,则以默认逻辑为准。

计费单价

模型名称

上下文长度

输入(元/百万 tokens)

缓存命中(元/百万 tokens)

输出(元/百万 tokens)

DeepSeek R1

128K

4

1.6

思考:16

非思考:6.4

DeepSeek V3

64K

2

0.8

8

Qwen3-32B

128K

2

0.8

思考:20

非思考:8

Qwen3-30B-A3B

128k

0.75

0.3

思考:7.5

非思考:3

Qwen3-8B

128k

0.5

0.2

思考:5

非思考:2

Qwen2.5-72B-Instruct

128k

4

1.6

12

Qwen2.5-7B-Instruct

128k

0.5

0.2

1

kimi-k2-Instruct(即将上线)

128K

4

1.6

16

二、批量推理

按 token 后付费价格

部分模型的批量推理价格是在线推理价格的50%,实际请以下面表格中的价格为准。

计费公式

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token, 其中输出token包括模型输出content内容和思维链reasoning_content内容。

批量推理费用 = 输入单价 × 输入token + 输出单价 × 输出token。

计费单价

模型名称

上下文长度

输入(元/百万 tokens)

输出(元/百万 tokens)

DeepSeek R1

128K

2

思考:8

非思考:3.2

DeepSeek V3

64K

1

4

Qwen3-32B

128K

1


思考:10

非思考:4

Qwen3-30B-A3B

128k

0.375

思考:3.75

非思考:1.5

Qwen3-8B

128k

0.25

思考:2.5

非思考:1

Qwen2.5-72B-Instruct

128k

2

6

Qwen2.5-7B-Instruct

128k

0.25

0.5

kimi-k2-Instruct(即将上线)

128K

2

8

上一篇:免费推理额度下一篇:模型计费说明
该篇文档内容是否对您有帮助?
有帮助没帮助