机器学习驱动的冠心病风险评估:1999至2018年NHANES数据分析
目的:全球冠心病(coronary artery heart disease,CHD)发病率居高不下,给公共卫生系统带来了极大的负担和挑战.有效预防和早期诊断CHD成为减轻这一负担的关键策略.本研究致力于探索运用先进的机器学习技术来提高CHD早期筛查和风险评估的准确性.方法:纳入美国国家卫生和营养调查(National Health and Nutrition Examination Survey,NHANES)数据库1999至2018年49 490名研究对象,将数据集按7:3划分为训练集和测试集.以研究对象是否被告知患有CHD为因变量(输出变量),并以此为依据分为CHD组和非CHD组.通过查...
Saved in:
Published in | 中南大学学报(医学版) Vol. 49; no. 8; pp. 1175 - 1186 |
---|---|
Main Authors | , , , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
浙江大学医学院附属第二医院心血管内科,杭州 310009
2024
经血管植入器械全国重点实验室,杭州 310009 经血管植入器械全国重点实验室,杭州 310009%福建医科大学附属龙岩第一医院心血管内科,福建龙岩 364000%福建医科大学省立临床医学院福建省立医院心血管内科,福州 350001%浙江大学医学院附属第二医院心血管内科,杭州 310009 浙江省心血管病诊治重点实验室,杭州 310009 浙江大学滨江研究院,杭州 310053 |
Subjects | |
Online Access | Get full text |
ISSN | 1672-7347 |
DOI | 10.11817/j.issn.1672-7347.2024.240394 |
Cover
Summary: | 目的:全球冠心病(coronary artery heart disease,CHD)发病率居高不下,给公共卫生系统带来了极大的负担和挑战.有效预防和早期诊断CHD成为减轻这一负担的关键策略.本研究致力于探索运用先进的机器学习技术来提高CHD早期筛查和风险评估的准确性.方法:纳入美国国家卫生和营养调查(National Health and Nutrition Examination Survey,NHANES)数据库1999至2018年49 490名研究对象,将数据集按7:3划分为训练集和测试集.以研究对象是否被告知患有CHD为因变量(输出变量),并以此为依据分为CHD组和非CHD组.通过查阅CHD相关危险因素的文献,最终纳入68个自变量.分析研究对象的变量特征,并比较其在CHD组与非CHD组之间差异.采用机器学习算法随机森林(randomForest_4.7-1.1)和XGBoost(xgboost_1.7.7.1)进行变量选择.综合分析这2种算法识别出的重要性排名前10的变量,选取这2个算法共同认定的变量.使用广义线性模型来分析变量与CHD之间的关系,采用经典的逻辑回归构建CHD风险预测模型.使用受试者操作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)评估模型在区分CHD和非CHD个体方面的能力;采用Hosmer-Lemeshow拟合优度检验进行校准测量,评估预测值与实际CHD比例之间的一致性;应用决策曲线评估模型风险预测的临床益处;采用诺谟图直观展示最终模型风险评分.结果:总人群的年龄为(49.53±18.31)岁,男性占51.8%.与非CHD组相比,CHD组患者的年龄较大[(69.05±11.32)岁 vs(48.67±18.07)岁,P<0.001],女性比例更高(67.1%vs 47.4%,P<0.001),且在体重指数、收缩压、舒张压和吸烟等经典心血管危险因素上的差异均有统计学意义(均P<0.001).此外,CHD组与非CHD组在能量摄入量、维生素E、维生素K、钙、磷、镁、锌、铜、钠、钾、硒等非经典心血管影响因素上的差异也均有统计学意义(均P<0.05).最终确定了 6个与CHD发生最相关的关键变量.并构建CHD风险预测模型如下:logit(p)=-7.783+0.074×年龄+0.003 ×肌酐-0.003 |
---|---|
ISSN: | 1672-7347 |
DOI: | 10.11817/j.issn.1672-7347.2024.240394 |