

数据集是本平台数据服务的核心基础板块,作为模型训练、评测的数据源头,平台提供训练集、评测集、自定义三类数据集,覆盖不同场景的数据需求。当前数据集分为项目数据集和预置数据集:
针对模型训练环节,用户可直接选用平台训练集(由一轮或多轮Prompt+Response组成,适配各类模型训练需求),或通过自定义数据集上传原始素材,借助数据分析、数据工作流生成高质量训练数据,当前支持有监督微调SFT和偏好对齐DPO两种训练方式。
针对模型评测环节,用户可选用平台评测集(用于量化衡量模型在目标场景下的综合性能),或基于自定义数据集,通过数据工作流构建贴合具体评测场景的标准化评测集,确保评测数据的可用性,为模型性能评估提供精准依据。
用户可上传未经标准化处理的原始数据材料(自定义数据集不限制数据格式),通过数据工作流灵活组合清洗、增强、抽取及LLM节点,自定义加工逻辑与Prompt模板,实现个性化数据处理,满足差异化模型训练、评测需求,打破标准化数据格式的局限性。
在左侧导航栏模型定制板块,选择「数据集」,点击「新建数据集」进入新建信息填写页面:
SFT示例
[{"prompt": "请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。\n生成摘要如下:", "system": "你是一个专业的新闻摘要撰写助手,擅长使用简洁明了的语言来提炼核心信息。", "response": "修改后的立法法全文公布"}]
[{"prompt": "请根据下面的新闻生成摘要, 内容如下:1月18日,习近平总书记对政法工作作出重要指示:2014年,政法战线各项工作特别是改革工作取得新成效。新形势下,希望全国政法机关主动适应新形势,为公正司法和提高执法司法公信力提供有力制度保障。\n生成摘要如下:", "system": "你是一个专业的新闻摘要撰写助手,擅长使用简洁明了的语言来提炼核心信息。", "response": "孟建柱:主动适应形势新变化提高政法机关服务大局的能力"}]
DPO示例
{"messages": [{"role": "system", "content": "你是一个AI助手。你将被给予一个任务。你必须生成一个详细且长篇回答。"}, {"role": "user", "content": "请回答以下问题:为以下文本选择一个类别。选项包括 - 公司、教育机构、艺术家、运动员、公职人员、交通工具、建筑物、自然地点、村庄、动物、植物、专辑、电影或著作。圣何塞和圣马克西米利安科尔贝蒙特维迪奥 - 圣约瑟夫和圣马克西米利安科尔贝教堂(西班牙语:圣何塞和圣马克西米利安科尔贝教堂)通常被称为康文特尔斯教堂(因其作为前修道院的历史而闻名)是乌拉圭蒙得维的亚的一座罗马天主教堂。"}], "chosen": {"role": "assistant", "content": "适当的类别是:建筑。该文描述了位于乌拉圭蒙得维的亚的圣若瑟和圣马西米连科尔贝教堂(Iglesia de San José y San Maximiliano Kolbe),是一座罗马天主教堂区教堂。"}, "rejected": {"role": "assistant", "content": "当然!根据提供的信息,文本的类别应该是:\n\n建筑\n\n文本描述了乌拉圭蒙得维的亚的一座教堂,具体是圣约瑟夫和圣马克西米连·科尔贝教堂,也被称为Conventuales教堂,因为它曾经是一个修道院。这属于建筑类别,因为它是一个用于宗教目的的物理结构。"}}
信息填写完成后点击提交将跳转至版本管理页面,页面右上方可选择「发布」,数据集发布后不可修改。
在左侧导航栏模型定制板块,选择「数据集」,若当前项目下有数据集,将展示数据集列表,用户可查看各个数据集的名称、状态、发布状态、数据集类型等信息。
操作