

模型托管是为降低算力门槛与成本而设计的部署服务。支持将预置、开源或自主微调模型一键部署为专属推理服务,通过预付费、后付费灵活计费,并配合弹性伸缩与高可用能力,快速将模型能力转化为稳定可靠的在线API服务,让用户省去底层资源运维的烦恼。当前平台主要提供【在线部署】能力。
在线部署:无需编写脚本或配置环境,一键将模型部署为可调用API服务,提供专属资源隔离、弹性伸缩与高可用保障,分钟级模型上线
万擎将算力从一种复杂、不稳定、难以管理的基础设施,打包为一种简单、可靠、可按需采购的标准化商品(模型单元),提供独占、隔离的专属算力,为用户AI应用建设提供成本、性能、稳定性以及规模化落地的全面保障。
场景建议:对于流量极低或间歇性、偶发性的推理需求,由于需要承载一个模型服务单元的起步资源,其成本优势可能不显著。
具体模型以控制台实际为准:
模型单元 | A型模型单元 | B型模型单元 | C型模型单元 | D型模型单元 | L型模型单元 | M型模型单元 |
适用模型 | Qwen3-8B ... | Qwen2.5-8B Qwen2.5-14B ... | Qwen2.5-32B Qwen3-32B ... | DeepSeek-r1 DeepSeek-v3 Qwen3-235B-A22B-Thinking-2507 ... | Qwen3-4B ... | Qwen3-8B ... |
注意:推荐用户通过模型压测方式选择所需模型单元类型及数量。
前置准备
1.权限申请:
2.若账户余额不足,请先充值;
3.确认权限及余额无问题后,在左侧导航栏中「模型托管」下方点击「模型部署」进入产品页面,点击「+模型部署」进入创建页面。
💰 账户额度提示
1. 欠费状态限制:
a. 余额➕信用额度无法覆盖本次任务1小时使用时长所需费用时,将无法正常新建任务
b. 欠费状态下运行中的任务不会中断,当账户状态由欠费变为冻结时,平台将自动释放资源,服务将缩容为0
2. 冻结后使用平台能力:
a. 冻结状态下用户无法新建,请先充值,使账号状态恢复正常
b. 在完成充值后,因冻结被中止的任务【需用户手动操作扩容后】再继续使用,当账户余额➕信用额度可覆盖任务1小时使用时长所需费用时,任务才能恢复运行
万擎预置模型部署:用万擎提供的开源模型 → 部署 → 评测 → 创建推理点 → API调用
Step 1:选择开源模型部署为模型服务
操作「模型部署」 → 「新建模型部署」 → 「添加模型」选择目标开源模型 → 选择资源规格与计费方式(按量/包年包月) → 提交
Step 2:模型评测
已部署的模型可通过点击评测进入效果评测流程,支持人工评测和自动评测,自动评测可大幅提升评测效率,评测完成后可通过评测详情和评测结果对比模型表现。
操作:「模型部署列表」→「更多-评测」→ 选择评测方式、数据集等配置 → 提交
您也可以创建性能评测任务检验模型在不同压力条件下的推理性能表现,包括延迟、吞吐量、成功率等关键指标,可基于此制定合理的调用策略和限流配置。
Step 3:部署成功后创建推理点
操作「新建推理点」 → 「设置名称描述等信息」 → 提交
Step 4:API 调用推理点
操作「推理点详情」 → 「API调用」Tab → 选择已有API Key 或新建一个API Key → 复制示例代码测试调用→ 查看监控 → 查看用量
自主微调后部署:用户自主微调模型上传到平台 → 部署 → 评测 → 创建推理点 → API调用。
Step 1:在平台内微调模型
操作: 点击「新建模型精调」→ SFT--LoRA- → 选择预置开源模型→ 上传训练数据并选择→ 配置微调参数(学习率、训练轮数等)→ 提交微调任务 → 等待任务完成,平台自动生成微调后的模型
提交微调任务
数据集上传
Step 2:部署微调后的模型
操作:「模型仓库」→ 找到微调生成的模型版本 → 点击「部署」→ 选择资源规格与计费方式 → 提交
Step 3:模型评测
已部署的模型可通过点击评测进入效果评测流程,支持人工评测和自动评测,自动评测可大幅提升评测效率,评测完成后可通过评测详情和评测结果对比模型表现。
操作:「模型部署列表」→「更多-评测」→ 选择评测方式、数据集等配置 → 提交
您也可以创建性能评测任务检验模型在不同压力条件下的推理性能表现,包括延迟、吞吐量、成功率等关键指标,可基于此制定合理的调用策略和限流配置。
Step 4:创建推理点
操作「新建推理点」 → 「设置名称描述等信息」 → 提交
Step 5:API调用推理点
操作「推理点详情」 → 「API调用」Tab → 选择已有API Key 或新建一个API Key → 复制示例代码测试调用→ 查看监控 → 查看用量
开源模型部署:用户将开源社区模型上传到平台 → 部署 → 评测 → 创建推理点 → API调用。
Step 1:将模型以非公开方式上传到ModelScope 或 HuggingFace
可参考对应平台帮助文档:ModelScope|HuggingFace
Step 2:上传微调后的模型到平台
操作:「模型仓库」→「上传模型」→ 填写刚上传的模型地址、访问令牌 → 设置对应的模型类型、保存方式等信息 → 提交
Step 3:部署模型为服务
操作:「模型仓库」→ 找到刚上传的模型 → 点击「部署」→ 选择资源规格与计费方式(按量/包年包月)→ 提交
Step 4:模型评测
已部署的模型可通过点击评测进入效果评测流程,支持人工评测和自动评测,自动评测可大幅提升评测效率,评测完成后可通过评测详情和评测结果对比模型表现。
操作:「模型部署列表」→「更多-评测」→ 选择评测方式、数据集等配置 → 提交
您也可以创建性能评测任务检验模型在不同压力条件下的推理性能表现,包括延迟、吞吐量、成功率等关键指标,可基于此制定合理的调用策略和限流配置。
Step 5:创建推理点
操作「新建推理点」 → 「设置名称描述等信息」 → 提交
Step 6:API调用推理点
操作「推理点详情」 → 「API调用」Tab → 选择已有API Key 或新建一个API Key → 复制示例代码测试调用→ 查看监控 → 查看用量