

参数名 | 类型 | 说明 |
|---|---|---|
model | string | 模型名称,填写万擎平台的具体模型推理点名称,如:ep-b0cx22-1111111111111111111 |
input | string 或 array | 模型输入。支持两种格式:string 纯文本输入;array 消息数组,按对话顺序排列 |
参数名 | 类型 | 默认值 | 说明 |
|---|---|---|---|
stream | boolean | false | 是否开启流式输出。设置为 true 时,模型响应数据将实时流式返回给客户端 |
max_output_tokens | integer | — | 限制生成内容的最大 Token 数 |
instructions | string | — | 作为系统指令插入到上下文起始位置。使用 previous_response_id 时,上一轮的 instructions 不会传入本轮上下文 |
⚠️ previous_response_id 与 conversation 不能同时使用。
参数名 | 类型 | 说明 |
|---|---|---|
previous_response_id | string | 上一个响应的唯一 ID,有效期 7 天。用于创建多轮对话,服务端会自动检索并组合该轮次的输入与输出作为上下文 |
conversation | string | 当前响应所属的会话 ID。会话中的历史项会自动作为上下文传入本次请求,本次请求的输入和输出也会在响应完成后自动添加到会话中 |
参数名 | 类型 | 说明 |
|---|---|---|
temperature | float | 采样温度,控制生成文本的多样性。取值范围:[0, 2)。建议与 top_p 只设置其中一个 |
top_p | float | 核采样概率阈值。取值范围:(0, 1.0]。建议与 temperature 只设置其中一个 |
参数名 | 类型 | 默认值 | 说明 |
|---|---|---|---|
reasoning | object | — | 控制模型的推理强度。模型会在回复前进行思考,思考内容将通过 reasoning 类型的输出项返回。 reasoning.effort 的优先级高于 enable_thinking,建议优先使用 reasoning.effort,enable_thinking 后续将不再支持。 |
enable_thinking 【Deprecated】 | boolean | 根据模型 | 是否开启思考模式。开启后模型会在回复前进行思考,思考内容将通过reasoning类型的输出项返回。开启思考模式时建议开启内置工具。Python SDK通过extra_body传递;Node.js SDK和curl直接使用作为顶层参数。 |
参数名 | 类型 | 默认值 | 说明 |
|---|---|---|---|
tools | array | — | 模型在生成响应时可调用的工具数组 |
tool_choice | string 或 object | auto | 控制模型如何选择工具:字符串模式:auto-模型自动决定、none-禁止调用工具、required-强制调用工具;对象模式为模型设定可用工具范围 |