logologo
售前咨询
快手万擎
开始使用
模型介绍
产品计费
API说明
控制台介绍
模型定制
场景示例
相关协议
文档中心
控制台介绍模型定制数据集

数据集


平台统一纳管用于模型微调、模型评测的数据集,包含项目数据集、平台预置的数据集。

  • 项目数据集:支持项目维度数据集全生命周期管理,支持对数据集进行多版本迭代、导出和删除等操作。
  • 预置数据集:平台预置的公共数据集,方便用户快速体验模型微调、评测等能力,降低数据获取⻔槛。

新建数据集

在左侧导航栏模型定制板块,选择「数据集」,点击「新建数据集」进入新建信息填写页面:

页面截图

配置项

说明

数据集名称

必填,用户自定义的数据集名称。

描述

非必填,用户自定义的数据集描述。

数据集类型

  • 训练集:用于模型训练,由一轮或多轮Prompt+Response组成;
  • 评测集:用于模型评测、Prompt评测,不包含模型回答数据。

数据用途

目前仅支持文本生成。

新联方式

单选,SFT或DPO

数据格式

Prompt+Response:用于模型评测的文本对话数据,提问与回答一一对应,支持系统角色设定。

存储位置

平台提供一定免费额度的共享存储空间。

导入方式

目前仅支持本地上传。

上传文件

平台提供jsonl、csvl、xlsx格式模板。

发布数据集

信息填写完成后点击提交将跳转至版本管理页面,页面右上方可选择「发布」,数据集发布后不可修改。

数据集列表

在左侧导航栏模型定制板块,选择「数据集」,若当前项目下有数据集,将展示数据集列表,用户可查看各个数据集的名称、状态、发布状态、数据集类型等信息,

页面截图

展示项

说明

数据集名称

点击可进入版本管理页面

最新版本

可查看最近版本的具体信息。

导入状态

最近版本的导入状态。

发布状态

最近版本的发布状态。

新增版本

新建数据集版本需填写新版本描述(非必填)、选择是否继承历史版本数据(若继承需选择具体的历史版本)。

导出

支持选择导出的版本及数据类型(可选导出原始数据或全部数据)。

删除

删除后不可恢复。

数据集版本管理

点击列表页模型名称将进入该数据集版本管理页面,用户可查看System、Prompt及Response等信息。

页面截图

展示项

说明

新增版本

点击进入新增数据集版本信息填写页面。

导入/导出

支持查看导入/导出记录、导出数据。

删除

若该数据集有多个版本,则支持删除,但至少需保留一个版本。


上一篇:模型评测下一篇:KAT-Coder开发工具接入
该篇文档内容是否对您有帮助?
有帮助没帮助