参数名	类型	说明
model	string	模型名称，填写万擎平台的具体模型推理点名称，如：ep-b0cx22-1111111111111111111
messages	array	传递给大模型的上下文，按对话顺序排列。包含 System Message、User Message、Assistant Message、Tool Message 四种类型

参数名	类型	默认值	说明
stream	boolean	false	是否以流式输出方式回复。false：一次性返回；true：边生成边输出。推荐设置为 true，可提升阅读体验并降低超时风险
stream_options	object	false	流式输出的配置项，仅在 stream 为 true 时生效。包含 include_usage 属性（可选，默认 false），表示是否在最后一个数据块中包含 Token 消耗信息
modalities	array	["text"]	输出数据的模态，仅适用于 Qwen-Omni 模型。["text","audio"]：输出文本与音频；["text"]：仅输出文本
audio	object	—	输出音频的音色与格式，需同时设置 modalities 为 ["text","audio"]
max_completion_tokens	integer	—	限制输出的最大 Token 数，推荐使用此参数替代 max_tokens
max_tokens 【Deprecated】	integer	模型最大输出长度	用于限制模型输出的最大 Token 数。若生成内容超过此值，生成将提前停止。请使用 max_completion_tokens 替代
n	integer	1	生成响应的数量，取值范围 1-4。仅支持 Qwen3（非思考模式）、qwen-plus-character 模型
response_format	object	{"type":"text"}	返回内容的格式：{"type":"text"} 输出文字回复；{"type":"json_object"} 输出 JSON 字符串；{"type":"json_schema"} 输出符合 schema 定义的 JSON 结构
stop	string 或 array	—	停止词。当模型生成的文本中出现指定字符串时，生成立即终止

参数名	类型	默认值	说明
temperature	float	—	采样温度，控制生成文本的多样性。取值范围：[0, 2)。值越高生成越多样，越低越确定。建议与 top_p 只设置其中一个
top_p	float	—	核采样概率阈值，控制生成文本的多样性。取值范围：(0, 1.0]。建议与 temperature 只设置其中一个
top_k	integer	—	指定生成过程中用于采样的候选Token数量。取值必须为大于或等于 0 的整数，值越大输出越随机。通过Python SDK调用时需放入extra_body对象。
presence_penalty	float	—	控制生成文本的内容重复度。取值范围：[-2.0, 2.0]。正值降低重复度，负值增加重复度
seed	integer	—	随机数种子，用于确保在相同输入和参数下生成结果可复现。取值范围：[0, 2^31-1]

参数名	类型	默认值	说明
logprobs	boolean	false	是否返回输出 Token 的对数概率
top_logprobs	integer	0	每步生成时返回最大概率的候选 Token 个数。取值范围：[0, 5]。仅当 logprobs 为 true 时生效

参数名	类型	默认值	说明
enable_thinking	boolean	根据模型	使用混合思考模型时，是否开启思考模式。通过 Python SDK 调用时需放入 extra_body 对象

参数名	类型	默认值	说明
tools	array	—	包含一个或多个工具对象的数组，供模型在 Function Calling 中调用
tool_choice	string 或 object	auto	工具选择策略：auto 大模型自主选择；none 禁止工具调用；required 强制调用工具
parallel_tool_calls	boolean	false	是否开启并行工具调用

该篇文档内容是否对您有帮助？

有帮助没帮助

关于我们

支持与服务

法律支持

联系我们

友情链接