阅读(286) 书签 (0)

文心千帆创建数据集

2023-07-19 15:08 更新

平台支持统一纳管自训模型的数据集,并对数据样本集可自主进行版本迭代、继续导入和删除等操作。

登录到文心千帆大模型操作台,在左侧功能列选择数据集管理,进入数据集管理主任务界面。

其中不同标注类型的文本,将用于不同的模型训练方式,重点关注标注类型相关内容,单/多轮对话区别和示例可文中进行参考

列表查看

数据集支持对已经建立的数据按数据集组为粒度分行展示。如下图所示:

image.png

可根据实际需求对上图中的字段进行名称变更、新增版本、导入数据和删除等操作。

创建数据集

需输入数据集名称,默认数据类型为文本,数据集版本从V1开始迭代,“完成创建”即可创建一个空数据集,“创建并导入”则直接进入数据导入页面。

image.png

标注类型

标注类型分为以下类型:

  1. 文本对话非排序模版:单轮或多轮的文本对话数据,单个提问和回答一一对应,作为后续SFT、 prompt tuning以及delta tuning的训练输入。含排序模版:单轮或多轮的文本对话数据,单个提问对应多个回答, 需要对多个回答进行排序,作为后续奖励模型的训练输入。
  2. query问题集:单轮或多轮的提问语料数据,作为后续RLHF的训练输入。

导入数据

  • 创建数据集后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。其中导入对话文本数据可参考文本对话数据导入,导入query问题集数据可参考query问题集数据导入。已发布的数据集版本,不再支持导入。

新增数据集版本

如您在本数据集的基础上想要增加版本,可以选择“新增版本”按钮,新版本数据可以选择是否继承历史版本,如不继承,可重新选择标注类型。

image.png

准备数据集的技巧

可参考以下准备数据集的技巧:

设计分类

首先想好分类如何设计,每个分类为你希望识别出的一种结果,如要识别新闻的内容类型,则可以以“科技”、“体育”、“农业”等分别作为一个分类标准;如果审核场景中通过文本判断是否出现广告,可以设计为两类设计为“正常”、“不正常”两类,或者“正常”、“异常原因一”、“异常原因二”、“异常原因三”等多类。

注意:目前单个模型的上限为1000类,如果要超过这个量级请在百度云控制台内提交工单反馈。

数据量

基于设计好的分类准备文本数据,每个分类建议至少需要准备50个文本文件以上,如果想要较好的效果,建议文件1000个起,如果某些分类的文本具有相似性,需要增加更多文本。

文本的基本格式要求: 目前文本文件类型支持txt,文本文件大小限制长度最大4096,格式为UTF-8字符。一个模型的文本总量限制10万个文本文件。

数据分布

  • 训练集文本需要和实际场景要识别的文本环境一致。
  • 考虑实际应用场景的种种可能性,每个分类的文本需要覆盖实际场景里面存在的可能性,训练集若能覆盖的场景越多,模型的泛化能力则越强。

可能的疑问

  • 如果训练文本数据无法全部覆盖实际场景要识别的文本,怎么办?

答:训练的模型算法会有一定的泛化能力,尽可能覆盖即可。

  • 多语种模型支持全球94种语言:

南非语, 阿姆哈拉语, 阿拉伯语, 阿萨姆语, 阿塞拜疆语, 白俄罗斯语, 保加利亚语, 孟加拉语, 孟加拉语(拉丁化), 布列塔尼语, 波斯尼亚语, 加泰隆语, 捷克语, 威尔士语, 丹麦语, 德语, 希腊语, 英语, 世界语, 西班牙语, 爱沙尼亚语, 巴斯克语, 波斯语, 芬兰语, 法语, 弗里斯兰语, 爱尔兰语, 苏格兰盖尔语, 加利西亚语, 古吉拉特语, 希伯来语, 印地语, 印地语(拉丁化), 克罗地亚语, 匈牙利语, 亚美尼亚语, 印尼语, 冰岛语, 意大利语, 日语, 爪哇语, 格鲁吉亚语, 哈萨克语, 高棉语, 康纳达语, 韩语, 库尔德语, 柯尔克孜语, 拉丁语, 老挝语, 立陶宛语, 拉脱维亚语, 马拉加斯语, 马其顿语, 马拉亚拉姆语, 蒙古语, 马拉提语, 马来语, 缅甸语, 尼泊尔语, 荷兰语, 挪威语, 奥里亚语, 旁遮普语, 巴利语, 普什图语, 葡萄牙语, 罗马尼亚语, 俄语, 梵语, 信德语, 僧伽罗语, 斯洛伐克语, 斯洛文尼亚语, 索马里语, 阿尔巴尼亚语, 塞尔维亚语, 巽他语, 瑞典语, 斯瓦希里语, 泰米尔语, 泰米尔语(拉丁化), 泰卢固语, 泰卢固语(拉丁化), 泰语, 他加禄语, 土耳其语, 维吾尔语, 乌克兰语, 乌尔都语, 乌尔都语(拉丁化), 乌兹别克斯坦语, 越南语, 意第绪语。

如果需要寻求第三方数据采集团队协助数据采集,请在百度云控制台内提交工单反馈。