产品

解决方案

支持与帮助

售前咨询

快手万擎(Vanchin)

开始使用

产品介绍

产品计费

API说明

控制台介绍

模型定制

常见问题

相关协议

控制台介绍在线推理

在线推理

更新时间：2025-08-15 22:43:57

在线推理 (Online Inference)：模型在收到用户请求（如点击按钮、输入查询）时实时进行计算，并立即返回单个预测结果（通常在毫秒级）。它要求模型服务低延迟、高并发，常用于需要即时反馈的应用，如推荐系统、欺诈检测、聊天机器人对话等。用户在新建推理接入点后，通过API Key的方式调用接入点。

体验链接：在线推理

新建推理接入点

权限申请：

主账号（即溪流湖账户）拥有账号下所有项目的访问/管理权限，无需权限申请；
子账号：可由主账号为名下子账号设置某项目的只读/管理权限；

若账户余额不足，请先充值。

点击「新建推理服务」进入信息填写页面，用户需填写以下信息：

页面截图

需填写字段

名称（必填）：支持中英文、数字、下划线、中划线，不能以下划线和中划线开头，用户最多可输入64个字符，同一项目内推理点名称不能重复；
描述（非必填）：用户最多可输入200个字符；
标签（非必填）：最多可选20个标签；
接入模型（必填）：默认为空，选择模型后支持切换；
计费方式：若资源包有余量，则计费时优先抵扣资源包余量；
接入点限流（非必填）：默认关闭，若开启，则填写内容必须大于0；

TPM：tokens per minute / 每分钟 token 数；
RPM ：requests per minute / 每分钟处理的 Token 数量。

用户填写完成后点击「下一步」进入信息确认与提交页面，提交成功后将自动跳转至推理点详情-API 调用页面。

推理点详情

用户在此页面可查看某个推理点的API调用方式及推理点基本信息。

API调用

API调用页面可以查看模型推理接入点的调用方法，点击「查看API Key」获取API Key，在环境变量中进行设置，参考API示例对模型推理接入点进行调用。查看API Key调用详细说明请点击：API调用。

基本信息

用户在此页面可查看选中推理点的名称、标签、描述、接入模型、接入点限流情况，点击「编辑」按钮可修改该接入点的名称、标签及描述。

在线推理列表

当某个项目下存在多个推理接入点时，用户可在在线推理列表页面查看该项目下的所有推理点信息，包括接入点名称、状态、模型服务、限流情况、标签等信息。该页面支持通过接入点名称/ID、描述进行搜索。用户在该页面可对选中的推理点进行以下操作：

页面截图

参数说明

API调用：点击后，当前页面打开详情-API调用；
监控：点击后将在新标签页打开推理点的调用统计；
体验：点击后将在新标签页打开此推理点接入模型的模型体验页面；
编辑：点击后打开编辑信息弹窗，支持修改名称、描述、标签；
开启/停止：

开启：仅已停止的推理点支持操作「开启」；
停止：仅运行中的推理点支持操作「停止」；

删除：仅已停止的推理点支持操作「删除」，删除需二次确认。

上一篇：模型广场下一篇：批量推理

该篇文档内容是否对您有帮助？

有帮助没帮助

关于我们

了解我们文档中心

支持与服务

服务咨询意见与反馈

法律支持

服务协议隐私政策

联系我们

业务咨询市场合作电话与邮箱

友情链接

快手 Acfun 快手云剪 AI开放平台

京ICP备19034532号-192通信电信许可证京B2-20202468. B1-20202319 版权所有 @北京溪流湖科技有限公司 2022 版权所有

京ICP备19034532号-192通信电信许可证京B2-20202468. B1-20202319版权所有 @北京溪流湖科技有限公司 2022 版权所有