针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。
冀常鹏;尚佳奇;代巍;
辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105辽宁工程技术大学研究生院,辽宁葫芦岛125105
计算机与自动化
不平衡数据集;过采样;高斯核函数;局部引力;高不平衡数据;合成少数类过采样;不平衡度;分类
《智能系统学报》 2024 (003)
P.525-533 / 9
10.11992/tis.202204013
评论