基于边界过采样的图节点不平衡分类算法

TP391; 在现实世界中,金融欺诈检测和疾病诊断是典型的图不平衡问题,基于过采样的图神经网络是解决此类问题的常用方法之一.然而,该方法难以保证生成边界样本的多样性,易导致分类性能下降.提出一种基于边界过采样的图节点不平衡分类算法(ImBS)来提升生成样本的多样性.ImBS通过双层图神经分类网络选择出每个类别中高置信度样本作为采样锚点,提高锚点的代表性.为了使生成样本分布更加合理,利用上一步得到的混淆矩阵,计算少数类误判的分布比例.并基于该分布比例,自适应计算不同类间生成的样本数量.在此基础上,提出基于锚点的混合过采样方法.通过混合异类锚点特征的方式过采样边界节点,达到增加样本多样性和扩展少数...

Full description

Saved in:
Bibliographic Details
Published in计算机工程与应用 Vol. 60; no. 13; pp. 92 - 101
Main Authors 武天昊, 董明刚, 谭若琦
Format Journal Article
LanguageChinese
Published 桂林理工大学 信息科学与工程学院,广西 桂林 541006%桂林理工大学 信息科学与工程学院,广西 桂林 541006 01.07.2024
广西嵌入式技术与智能系统重点实验室,广西 桂林 541006
Subjects
Online AccessGet full text
ISSN1002-8331
DOI10.3778/j.issn.1002-8331.2310-0438

Cover

More Information
Summary:TP391; 在现实世界中,金融欺诈检测和疾病诊断是典型的图不平衡问题,基于过采样的图神经网络是解决此类问题的常用方法之一.然而,该方法难以保证生成边界样本的多样性,易导致分类性能下降.提出一种基于边界过采样的图节点不平衡分类算法(ImBS)来提升生成样本的多样性.ImBS通过双层图神经分类网络选择出每个类别中高置信度样本作为采样锚点,提高锚点的代表性.为了使生成样本分布更加合理,利用上一步得到的混淆矩阵,计算少数类误判的分布比例.并基于该分布比例,自适应计算不同类间生成的样本数量.在此基础上,提出基于锚点的混合过采样方法.通过混合异类锚点特征的方式过采样边界节点,达到增加样本多样性和扩展少数类决策边界的目的.此外,为了防止产生有害连接,引入个性化PageRank方法,为过采样样本生成邻域分布.在三个真实的数据集(Cora、CiteSeer和Cora-Ful)上的实验表明,该方法与9个代表性的方法对比具有明显优势.
ISSN:1002-8331
DOI:10.3778/j.issn.1002-8331.2310-0438