论文检索
预印本
全部知识仓储预印本开放期刊机构
高级检索

基于机器学习的冠心病风险预测模型构建与比较

中文摘要

背景 冠状动脉粥样硬化性心脏病(Coronary atherosclerotic heart disease,CHD)(以下简称冠心病)是全球重要的死亡原因之一。目前关于冠心病风险评估的研究在逐年增长。然而,在这些研究中常忽略了数据不平衡的问题,而解决该问题对于提高分类算法中识别冠心病风险的准确性至关重要。目的 探索冠心病的影响因素,通过使用 2 种平衡数据的方法,基于 5 种算法建立冠心病风险相关的预测模型,比较这 5 种模型对冠心病风险的预测价值。方法 基于 2021 年美国国家行为风险因素监测系统(Behavioral Risk Factor Surveillance System,BRFSS)横断面调查数据筛选出 112 606 位研究对象的健康相关风险行为、慢性健康状况等 24 个变量信息,结局指标为自我报告是否患有冠心病并据此分为冠心病组和非冠心病组。通过进行单因素分析和逐步 Logistic 回归分析探索冠心病发生的影响因素并筛选出纳入预测模型的变量。随机抽取 112 606 位受访者的 10%(共计 11 261 名),以 8:2 的比例随机划分为训练与测试的数据集,采用随机过采样(Random oversampling)和合成少数过采样技术(Synthetic Minority Over-samplingTechnique,SMOTE)两种过采样(Over-sampling)的方法处理不平衡数据,基于 k 最邻近算法(K-Nearest Neighbor,KNN)、Logistic 回归、支持向量机(Support Vector Machine,SVM)、决策树和 XGBoost 算法分别建立冠心病预测模型。结果 两组年龄、性别、BMI、种族、婚姻状态、教育水平、收入水平、是否被告知患高血压、是否被告知患处于高血压前期、是否被告知患妊娠高血压、现在是否在服用高血压药物、是否被告知患有高血脂、是否被告知患有糖尿病、抽烟情况、过去 30 d 内是否至少喝过 1 次酒、是否为重度饮酒者、是否为酗酒者、过去 30 d 内是否有体育锻炼、心理健康状况以及自我健康评价比较,差异有统计学意义(P<0.05)。逐步 Logistic 回归分析结果显示:年龄、性别、BMI 水平、种族、教育水平、收入水平、是否被告知患高血压、是否被告知患处于高血压前期、是否被告知患妊娠高血压、现在是否在服用高血压药物、是否被告知患有高血脂、是否被告知患有糖尿病、抽烟情况、过去 30 天内是否至少喝过一次酒、是否为重度饮酒者、是否为酗酒者以及自我健康评价为冠心病的影响因素(P<0.05)。风险模型构建的分析结果显示:k 最邻近算法、Logistic 回归、支持向量机、决策树和 XGBoost 采用合成少数过采样技术处理不平衡数据的总体分类精度分别为 59.2%、67.4%、66.2%、69.2% 和 85.9%;召回率分别为 75.2%、71.4%、70.5%、62.9%和 34.8%;精确度分别为 15.4%、18.2%、17.5%、17.6% 和 28.7%;F 值分别为 0.256、0.290、0.280、0.275 和 0.315;AUC 分别为 0.80、0.78、0.72、0.72 和 0.82;采用随机过采样处理不平衡数据的总体分类精度分别为 62.5%、68.5%、69.0%、60.2% 和 70.1%; 召 回 率 分 别 为 70.0%、69.5%、71.9%、69.0% 和 67.6%; 精 确 度 分 别 为 15.8%、18.4%、19.1%、14.8% 和 19.0%;F值分别为 0.258、0.291、0.302、0.244 和 0.297;受试者工作特征曲线下面积分别为 0.80、0.77、0.72、0.72 和 0.83。结论 本研究不仅确认了已知冠心病的影响因素,还发现了自我健康评价水平、收入水平和教育水平对冠心病具有潜在影响。在使用 2 种数据平衡方法后,5 种算法的性能显著提高。其中 XGBoost 模型表现最佳,可作为未来优化冠心病预测模型的参考。此外,鉴于 XGBoost 模型的优异性能以及逐步 Logistic 回归的操作便捷和可解释性,推荐在冠心病风险预测模型中,结合使用数据平衡后的 XGBoost 和逐步 Logistic 回归分析。

岳海涛何婵婵成羽攸张森诚吴悠马晶

518055 广东省深圳市,清华大学医院管理研究院100084 北京市,清华大学医院管理研究院 清华大学医学院

10.12114/j.issn.1007-9572.2023.0323

医药卫生

冠心病;机器学习;风险预测模型;Logistic 回归;k 最邻近算法;支持向量机;决策树;XGBoost;

岳海涛,何婵婵,成羽攸,张森诚,吴悠,马晶.基于机器学习的冠心病风险预测模型构建与比较[EB/OL].(2024-04-24)[2024-05-13].https://chinaxiv.org/abs/202404.00293V1.点此复制

评论

首发时间:2024-04-24
下载量:0
点击量:27