论文检索
期刊
全部知识仓储预印本开放期刊机构
高级检索

一种建立在GPT-2模型上的数据增强方法OA北大核心CSTPCD

中文摘要

针对句子分类任务常面临着训练数据不足,而且文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难,语义一致性和多样性难以平衡的问题,本文提出一种惩罚生成式预训练语言模型的数据增强方法(punishing generative pre-trained transformer for data augmentation,PunishGPT-DA)。设计了惩罚项和超参数α,与负对数似然损失函数共同作用微调GPT-2(generative pre-training 2.0),鼓励模型关注那些预测概率较小但仍然合理的输出;使用基于双向编码器表征模型(bidirectional encoder representation from transformers,BERT)的过滤器过滤语义偏差较大的生成样本。本文方法实现了对训练集16倍扩充,与GPT-2相比,在意图识别、问题分类以及情感分析3个任务上的准确率分别提升了1.1%、4.9%和8.7%。实验结果表明,本文提出的方法能够同时有效地控制一致性和多样性需求,提升下游任务模型的训练性能。

张小川;陈盼盼;邢欣来;杨昌萌;滕达;

重庆理工大学两江人工智能学院,重庆401135

计算机与自动化

自然语言处理;人工智能;数据增强;句子分类;少样本;序列到序列;生成式预训练语言模型;双向编码器表征模型

《智能系统学报》 2024 (001)

P.209-216 / 8

国家自然科学基金项目(61702063);重庆市技术创新与应用发展专项(cstc2021jscx-dxwtBX0019)。

10.11992/tis.202304055

评论

下载量:0
点击量:0