在线推理 (Online Inference):模型在收到用户请求(如点击按钮、输入查询)时实时进行计算,并立即返回单个预测结果(通常在毫秒级)。它要求模型服务低延迟、高并发,常用于需要即时反馈的应用,如推荐系统、欺诈检测、聊天机器人对话等。用户在新建推理接入点后,通过API Key的方式调用接入点。
体验链接:在线推理
点击「新建推理服务」进入信息填写页面,用户需填写以下信息:
页面截图 | 需填写字段 |
|
用户填写完成后点击「下一步」进入信息确认与提交页面,提交成功后将自动跳转至推理点详情-API 调用页面。
用户在此页面可查看某个推理点的API调用方式及推理点基本信息。
API调用页面可以查看模型推理接入点的调用方法,点击「查看API Key」获取API Key,在环境变量中进行设置,参考API示例对模型推理接入点进行调用。查看API Key调用详细说明请点击:API调用。
用户在此页面可查看选中推理点的名称、标签、描述、接入模型、接入点限流情况,点击「编辑」按钮可修改该接入点的名称、标签及描述。
当某个项目下存在多个推理接入点时,用户可在在线推理列表页面查看该项目下的所有推理点信息,包括接入点名称、状态、模型服务、限流情况、标签等信息。该页面支持通过接入点名称/ID、描述进行搜索。用户在该页面可对选中的推理点进行以下操作:
页面截图 | 参数说明 |
|