目的:1、县级医院由于受到地域因素和社会经济条件的限制,临床实践与大、中城市的医院存在着一定差异。辽宁省地处中国东北部,经济发展水平相对欠发达,城乡及地区间差异明显,通过研究辽宁省县级医院急性冠脉综合征(acute coronary syndromes,ACS)接受经皮冠状动脉介入治疗(percutaneous coronary intervention,PCI)患者的临床特征与预后关系,为辽宁省县级医院胸痛中心的建设和发展提供因地制宜的客观依据。2、在本研究中,ACS行PCI患者远期全因死亡组的样本数量和存活组的样本数量具有严重的不平衡性。为了能够充分利用全部随访患者信息,减少样本信息损失,解决样本不平衡问题,本研究从数据层面入手,应用混合采样策略进行模型构建工作,建立适宜辽宁省县级医院ACS行PCI患者远期死亡风险的预测模型,准确预测患者发生远期死亡的概率,为个体化干预高危患者提供临床依据。3、通过将平衡交叉熵和焦点损失引入集成算法,在不改变数据分布的前提下提升模型识别死亡风险高的患者的能力,并通过探索到的最佳建模策略构建以再发心肌梗死为结局的风险预测模型。4、为解决机器学习模型内部复杂度高、缺乏可解释性、难以直观理解的问题,基于合作博弈论理论构建加性解释模型,分别从基于患者整体和基于患者个体的角度进行可解释性分析,从而为模型使用者提供更加清晰完整的决策逻辑,辅助医生做出医疗决策。研究方法:1、本研究根据地理位置进行立意抽样,在辽宁省范围内选取6家县级医院,采集了2018年9月—2019年8月期间所有因ACS在县级医院就诊并接受PCI的患者的病历资料。收集社会人口学资料、出院诊断、既往史、临床基本特征、冠状动脉造影特征、PCI手术相关因素、医疗资源的使用情况、各项实验室指标、超声、住院期间辅助用药等观察指标。分别于患者出院后的第1年、第2年、第3年进行定期随访,若发生死亡事件则不再进行下一次随访。随访的内容包括随访期间的复查情况、用药信息、日常BI 10773抑制剂行为习惯及结局事件。主要研究终点为远期全因死亡,次要研究终点包括随访期间发生的如下事件:心衰、脑卒中、再发心肌梗死、远期心源性死亡、靶血管血运重建、因心源性原因再次住院。采用倾向性评分进行病例组与对照组(1:3)匹配,全因死亡情况作为分组因素,年龄、性别作为协变量。采用多因素logistic回归分析探索影响ACS行PCI患者远期全因死亡风险的因素。2、应用机器学习的方法进行模型构建。在应用树模型时,对于经过判断后可以确定为客观存在的离群值进行保留,以达到不损失信息的目的,不影响树模型训练效果;对于本研究使用的其他模型,经过判断后认为确应修正的离群值,根据实际情况采用最近值或平均值(或中位数)替代离群值,以达到减少信息损失的目的。采用基于随机森林的链式方程式多重插补法(multiple imputation by chained equations,MICE),通过预测均值匹配(predictive mean matching,PMM),对分类变量及连续变量进行插补。在应用K-近邻法(k-nearest neighbor,KNN)时,对数据进行归一化处理以消除量纲的影响;支持向量机(support vector machine,SVM)则根据需要,决定是否进行归一化处理;其他模型不对数据进行归一化处理。分别采用低方差过滤法(low variance filter)、递归特征消除法(recursive feature elimination,RFE)、弹性网络回归(elastic net regression)的方法来进行特征筛选。将不结合数据增强策略、单纯应用合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)、联合应用SMOTE和编辑最近邻规则(edited nearest-neighbor,ENN)后的训练集输入相应模型进行训练。通过SMOTE算法随机选择少数类样本及其k近邻,在该样本与其近邻样本之间用线性插值的方式生成新的少数类样本,在均衡建模样本的同时实现缓解过拟合;通过ENN算法以数据清洗的方式删除边界样本与噪声样本,解决过采样过程中生成的少数类样本容易与周围的多数类样本产生类间重叠区域的问题。分别使用随机森林、自适应增强、XGBoost、朴素贝叶斯、支持向量机、K近邻六种机器学习算法进行模型构建。3、通Panobinostat作用过在集成算法中引入代价敏感的方式将平衡交叉熵嵌至模型,考虑不同误分类情况下代价的差异性,并通过将焦点损失嵌至模型中,给位于决策边界的难分类样本赋予不同权重,从而解决传统分类算法会更倾向于将样本预测为多数类的问题,提升模型识别死亡风险高的患者的能力。构建基于焦点损失改进的ACS患者XGBoost远期死亡风险预测模型及其亚组风险预测模型,并以再发心肌梗死为结局构建基于焦点损失改进的XGBoost风险预测模型。4、基于合作博弈论理论构建加性解释模型,通过构建不同的输入特征的组合,以这些输入特征存在或者不存在的方式,对模型输出情况进行比较,从而阐明这些目标输入特征的重要性。通过摘要图、依赖图、决策图、特征贡献图、特征动态变化图等分别实现基于患者整体和个体的模型可解释性分析。结果:1、结果显示,急诊的入院方式、左主干或三支病变、术中最大扩张压力大小是ACS行PCI患者术后随访期间发生远期死亡的独立危险因素,其中ACS患者急诊的入院方式OR为2.04(95%CI:1.01-4.10,P=0.047)、左主干或三支病变OR为3.40(95%CI:1.71-6.75,P<0.001)、术中最大扩张压力OR为1.1(95%CI:1.00-1.20,P=0.043)。LVEF≥50%、e GFR≥60ml/min/1.72m~2、ALB≥35g/L是ACS行PCI患者术后随访期间发生远期死亡的独立保护因素,其中LVEF≥50%的OR为0.07(95%CI:0.03-0.16,P<0.001)、e GFR≥60ml/min/1.72m~2的OR为0.11(95%CI:0.05-0.22,P<0.001)、ALB≥35g/L的OR为0.02(95%CI:0.00-0.06,P<0.001)。2、综合应用多种特征筛选策略,获得的模型在性能上优于单一特征筛选策略,最佳模型共计纳入29个特征。通过基于SMOTE+ENN算法的混合采样数据增强策略从数据层面给出了针对不平衡数据集的解决方案,将获得的相对平衡的训练数据作为训练集进行重新学习,其中基于随机森林的最佳模型的_2F-score、G-means、灵敏度分别达到0.6061、0.7958、0.6667。3、在不改变数据分布的前提下,从算法层面入手解决不平衡问题。当以死亡为结局进行模型构建时,最佳模型的_2F-score、G-means、灵敏度分别达到0.7547、0.9140、0.8889,并且针对各亚组构建的模型均展现出较好的性能。当以再发心肌梗死为结局进行模型构建时,模型共计纳入21个特征,其_2F-score、G-means、灵敏度分别达到0.6338、0.8035、symbiotic cognition0.7714,其特征重要性排序位列前五位的特征分别为外周血管病史、既往PCI/CABG、年龄、吸烟、高同型半胱氨酸血症。4、对ACS行PCI患者远期死亡风险的预测,没有占绝对权重的单一危险因素,其中肾小球滤过率估计值、年龄、左心射血分数、白蛋白、N端脑利钠肽前体这五个特征对模型的影响相对较大。结论:1、通过对辽宁省县级医院ACS行PCI患者基线特征和三年随访结果的分析,深入了解县级医院患者临床特征与预后关系。本研究的实施可以为辽宁省县级医院胸痛中心的建设和发展提供因地制宜的客观依据。2、联合应用RFE和弹性网络回归两种特征筛选策略,构建的模型在性能上优于单一特征筛选策略。应用SMOTE+ENN混合采样策略,构建的模型在性能上优于无数据增强策略和单纯应用上采样策略。本研究构建了可及时有效的识别辽宁省县级医院死亡风险高的ACS行PCI患者模型。3、通过权重系数将代价敏感学习引入集成算法,并通过焦点参数使模型可以重点关注位于决策边界的难分类样本,实现模型性能在不平衡数据下的显著提升。当以再发心肌梗死为结局事件时,特征重要性排序位列前五位的特征分别为外周血管病史、既往PCI/CABG、年龄、现状吸烟、高同型半胱氨酸血症。模型有助于在不改变数据分布的前提下及时识别辽宁省县级医院ACS行PCI病患不良预后易感群体。4、基于合作博弈论的SHAP可解释性框架能够赋予本研究构建的机器学习模型可解释性,辅助医务工作者为患者个体提供“私人定制”的精准诊疗策略。当以远期全因死亡为结局事件时,特征重要性排序位列前五位的特征分别为肾小球滤过率估计值、年龄、左室心射血分数、白蛋白、N端脑利钠肽前体。模型能够为辽宁省县级医院ACS行PCI患者的早期干预提供科学的临床依据,对不良预后的改善具有一定的科学价值。