RNA甲基化位点预测与癌症组织溯源的机器学习算法研究

机器学习是人工智能的一个分支,旨在让计算机自主地从数据中学习模式,并根据这些模式做出预测或决策。目前机器学习被广泛应用于各个领域,例如图像识别、自然语言处理、推荐系统和医学诊断等。在生物信息学领域中,机器学习技术可以用于基因组数据分析、蛋白质结构预测和基因组的编辑与设计等方面,有望帮助研究人员发现生物体内的复杂生物学系统的规律性和关联性。并且,由于常规的生物实验方法在实际问题上成本昂贵且耗时费力,因此无法被大规模应用,而基于机器学习的计算方法正好可以弥补生物实验方法存在的这些不足。目前,机器学习算法广泛涌现并应用于生物信息学的各个方向,本文针对Hepatoportal sclerosis其中两个热点问题:RNA甲基化位点预测和癌症组织溯源,利用机器学习算法进行探索研究。作为最丰富的RNA甲基化修饰之一,N6-甲基腺苷(N6-methyladenosine,m6A)可以调节BI 10773 IC50造血干细胞的不对称和对称分裂,影响了人体内各种疾病的发生。因此,精确识别不同物种基因组周围的m6A位点是进一步揭示其生物学功能和对这些疾病影响的关键步骤。此外,针对癌症组织溯源问题,我们也进行了深入研究。原发部位不明的癌症(Cancers of the Unknown Primary,CUP)是一个异质性的癌症群体,其原发组织在经过常规临床方法的详细调查后仍然不明。CUP患者通常采用广谱化疗,这往往会导致不良预后。最近的研究表明,针对CUP原发组织的治疗将显著改善患者的预后。因此,在临床癌症研究中迫切需要开发一种有效的方法来准确检测CUP的原发组织。本文首先从特征提取、特征工程、机器学习算法以及评估方法和度量指标四个方面总结了使用机器学习算法进行分类预测的一般步骤,然后针对RNA甲基化位点预测和癌症组织溯源两个问题分别提出了两种有效的预测方案,主要的研究成果如下:关于m6A位点的预测问题,我们提出了一个集成深度学习模型,称为m6ABERT-Stacking,用于预MLN8237分子式测三个物种不同组织中的m6A位点。该模型使用RNA的二核糖核苷酸指数(Di NUCindex_RNA)和k-mer字分割两种方法,分别提取了RNA序列特征,并将他们与原始序列分别输入到带有卷积块注意力模块的残差网络模型(Resnet-CBAM)、带有注意力的双向长短期记忆模型(Bi LSTM-Attention)和基于转换器的双向编码器表示DNA语言的预训练模型(DNABERT)三个子模型中。并按照集成策略组合子模型的输出,最后通过全连接层得到m6A位点的最终预测结果。在相同独立数据集上的实验结果表明,m6A-BERT-Stacking的性能超过了大多数现有方法,可以作为一个有力的工具来预测m6A位点。关于癌症组织溯源问题,首先通过学习相关文献,搜集整理了一个基于微阵列的基因表达数据作为本研究的基准数据集。其次,为了在不损失大量有效特征信息的前提下去除无效或冗余特征,使用决策树模型(Decision Tree,DT)对原始基因特征进行重要性排序,并选择出部分重要基因特征,以训练最终的极端梯度提升(e Xtreme Gradient Boosting,XGBoost)预测模型。实验结果表明,基于基因表达数据的XGBoost模型不仅可以降低临床癌症溯源的成本,而且既高效又准确,这可以为临床医学提供帮助。