文心千帆数据增强使用说明
2023-07-19 16:36 更新
什么是数据增强
平台支持对文本数据集进行数据增强。当在实践中无法收集到数目庞大的高质量数据时,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据。在训练时会通过学习大量的"新"数据,提高模型的泛化能力。
注意文本数据增强功能仅支持增强未发布的非空数据集。
登录到文心千帆大模型操作台,在左侧功能列数据处理中选择数据增强,进入数据增强的主任务界面。
创建数据增强任务
在数据处理-数据增强页面中,选择“创建任务”。
- 处理前数据集:存放增强前的源数据。
- 处理后数据集:存放增强后的数据。
增强配置方案
以下增强配置方案,在创建数据增强任务时,请至少选择一种:
方案类型 | 方案描述 | 增强示例 |
---|---|---|
近义词替换 | 加载word2vec词典对于输入的tokens进行分词,并以15%的概率进行近义词的搜索替换。 | 处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。 处理后:AI技术可以模拟人类智能,实现机器自主学习、理解和判定和推理,能够广泛运用于医疗保健、金融管理、教育、交通、制造等各个领域。 |
随机删除 | 采用SpanBert中的 span masking,对每个句子,迭代式的采样Span,直到整个句子的Masked tokens达到15%。对于满足条件的token进行删除。 | 处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。 处理后:AI技可以模拟人类智能现机学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域 |
随机mask | 对每个句子,迭代式的采样Span,直到整个句子的Masked tokens达到15%。对于满足条件的token进行mask。 | 处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。 处理后:AI技术可以模拟人类,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域 |
同词性替换 | 使用LAC分词工具,对文件中的所有数据进行分词操作,然后构建一个词性字典,字典的key为token的词性(tag),value为存放相应token的list,然后对于文件中的每一条数据,以15%的概率对文本中的token进行词性替换。 | 处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。 处理后:AI技术可以能够人类智能,实现机器自主学习、理解、判断和推理,判断广泛应用于医疗、领域、推理、交通、教育等各个领域。 |
同音词替换 | 采用同音词汇进行原文替换,达到数据增强的目的。不考虑拼音声调,可以设置是否考虑常见方言读音误读,如 zh 与 z 不分,eng 与 en 不分,f 与 h 不分,l 与 n 不分等情况;替换时,优先使用常用词汇(依据词频而定)。 | 处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。 处理后:AI急速可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。 |
增强处理中策略
- 串行叠加:每段文本都按顺序经过所选算子的处理,各个算子的效果叠加在每段文本。
- 并行遍历:每段文本分别经过各个所选算子的处理,对应各个算子都分别产生一段新文本。完成以上所有配置后点击“确定”,完成数据增强任务的创建。
查看数据增强任务
任务提交后,您可至“增强任务管理”页面,查看增强状态和任务详情。
任务管理界面可以删除此数据增强任务,但是已经发起的增强数据集版本不受影响,仍然会进行增强任务。