一种建立在GPT-2模型上的数据增强方法OA北大核心CSTPCD

中文摘要

针对句子分类任务常面临着训练数据不足,而且文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难,语义一致性和多样性难以平衡的问题,本文提出一种惩罚生成式预训练语言模型的数据增强方法(punishing generative pre-trained transformer for data augmentation,PunishGPT-DA)。设计了惩罚项和超参数α,与负对数似然损失函数共同作用微调GPT-2(generative pre-training 2.0),鼓励模型关注那些预测概率较小但仍然合理的输出;使用基于双向编码器表征模型(bidirectional encoder representation from transformers,BERT)的过滤器过滤语义偏差较大的生成样本。本文方法实现了对训练集16倍扩充,与GPT-2相比,在意图识别、问题分类以及情感分析3个任务上的准确率分别提升了1.1%、4.9%和8.7%。实验结果表明,本文提出的方法能够同时有效地控制一致性和多样性需求,提升下游任务模型的训练性能。

作者：张小川;陈盼盼;邢欣来;杨昌萌;滕达;

作者单位：重庆理工大学两江人工智能学院,重庆401135

分类：计算机与自动化

中文关键词：自然语言处理;人工智能;数据增强;句子分类;少样本;序列到序列;生成式预训练语言模型;双向编码器表征模型

刊名：《智能系统学报》 2024 (001)

页码/页数：P.209-216 / 8

基金：国家自然科学基金项目(61702063);重庆市技术创新与应用发展专项(cstc2021jscx-dxwtBX0019)。

DOI：10.11992/tis.202304055

下载量：0

点击量：0

一种建立在GPT-2模型上的数据增强方法OA北大核心CSTPCD

评论