由于癌症的发病率和死亡率非常高,所以癌症诊断与治疗问题是现代人们重点关注的问题之一,精准的诊断有助于探索基因与癌症的关系,对癌症的预防起到非常积极的作用。但癌症基因表达数据集的内部关系使得癌症诊断充满PUN30119说明书了挑战,因为基因表达数据的样本量和维度比例巨大,且由于数据中噪声、冗余等信息的干扰,使得以基因表达数据为基础进行癌症分类成为了一个非常有挑战的工作,也使得在对基因表达数据进行分类之前先进行特征选择越来越重要。本文以乳腺癌、白血病和肺癌三个基因表达数据为研究对象,进行特征选择和分类。本文的主要研究内容如下:在特征选择部分,针对高维基因表达数据的样本量小,维度大的特点,本文提出了一种基于过滤式、嵌入式和包装式相结合的两阶段特征选择框架。提出的框架在第一阶段使用最大相关最小冗余、随机森林和加权基因共表达网络,并对三种方法的结果进行组合;在第二阶段提出了一种新的基于改进的樽海鞘算法的二进制基因选择方法,该方法结合机器学习方法(Light GBM、随机森林、支持向量机、XGBoost、多层感知机和K-近邻这六种常见的分类方法)自适应的选取适合分类算法的特征子集,并与其他五种智能优化算法在收敛性、特征数量以及准确度等方面进行对比。在分类阶段,不同的分类方法所选的特征会有一些偏差,因为不同的特征子集在同一分类Adezmapimod细胞培养方法可能会达到类似的分类结果。所以本文在分类部分,将基于改进樽海鞘算法所选的所有特征进行整理,提取出重复出现频次高的特征,将这些特征输入到自编码器中进行降维,进一步减少特征维度的同时提高分类准确度。为了提高分类准确度,本文不仅预测了数据的类标签,还预测了数据的类概率,并且提出了根据注意力机制的思想构造权重,对本文应用的六种异质分类方法进行模型加权集成。综上,本文以基因表达数据为研究对象,提出了一种两阶段特征选择框架,结果表明本文提出方法能够解决高维数据相关的特periprosthetic infection征选择问题,且所提出的框架没有数据集的限制,它可以应用于其它涉及特征选择的领域。又提出了一种基于注意力机制思想的权重构造方法,用于将多个模型进行集成,结果表明,集成后的分类准确度明显高于有单个分类方法。