logologo
售前咨询
快手万擎
开始使用
模型介绍
产品计费
API说明
控制台介绍
相关协议
文档中心
控制台介绍在线推理

在线推理


在线推理 (Online Inference):模型在收到用户请求(如点击按钮、输入查询)时实时进行计算,并立即返回单个预测结果(通常在毫秒级)。它要求模型服务低延迟、高并发,常用于需要即时反馈的应用,如推荐系统、欺诈检测、聊天机器人对话等。用户在新建推理接入点后,通过API Key的方式调用接入点。

体验链接:在线推理

新建推理接入点

  1. 权限申请:
  • 主账号(即溪流湖账户)拥有账号下所有项目的访问/管理权限,无需权限申请;
  • 子账号:可由主账号为名下子账号设置某项目的只读/管理权限;
  1. 若账户余额不足,请先充值

点击「新建推理服务」进入信息填写页面,用户需填写以下信息:

页面截图

需填写字段

  1. 名称(必填):支持中英文、数字、下划线、中划线,不能以下划线和中划线开头,用户最多可输入64个字符,同一项目内推理点名称不能重复;
  2. 描述(非必填):用户最多可输入200个字符;
  3. 标签(非必填):最多可选20个标签;
  4. 接入模型(必填):默认为空,选择模型后支持切换;
  5. 计费方式:若资源包有余量,则计费时优先抵扣资源包余量;
  6. 接入点限流(非必填):默认关闭,若开启,则填写内容必须大于0;
  • TPM:tokens per minute / 每分钟 token 数;
  • RPM :requests per minute / 每分钟处理的 Token 数量。

用户填写完成后点击「下一步」进入信息确认与提交页面,提交成功后将自动跳转至推理点详情-API 调用页面。

推理点详情

用户在此页面可查看某个推理点的API调用方式及推理点基本信息。

API调用

API调用页面可以查看模型推理接入点的调用方法,点击「查看API Key」获取API Key,在环境变量中进行设置,参考API示例对模型推理接入点进行调用。查看API Key调用详细说明请点击:API调用

基本信息

用户在此页面可查看选中推理点的名称、标签、描述、接入模型、接入点限流情况,点击「编辑」按钮可修改该接入点的名称、标签及描述。

在线推理列表

当某个项目下存在多个推理接入点时,用户可在在线推理列表页面查看该项目下的所有推理点信息,包括接入点名称、状态、模型服务、限流情况、标签等信息。该页面支持通过接入点名称/ID、描述进行搜索。用户在该页面可对选中的推理点进行以下操作:

页面截图

参数说明

  1. API调用:点击后,当前页面打开详情-API调用;
  2. 监控:点击后将在新标签页打开推理点的调用统计;
  3. 体验:点击后将在新标签页打开此推理点接入模型的模型体验页面;
  4. 编辑:点击后打开编辑信息弹窗,支持修改名称、描述、标签;
  5. 开启/停止:
  • 开启:仅已停止的推理点支持操作「开启」;
  • 停止:仅运行中的推理点支持操作「停止」;
  1. 删除:仅已停止的推理点支持操作「删除」,删除需二次确认。




上一篇:模型广场下一篇:批量推理
该篇文档内容是否对您有帮助?
有帮助没帮助