数据驱动的启动子及染色质环预测算法研究与实现

基因表达与调控是细胞分化和个体发育等生物进程的分子基础。启动子和染色质环作为生物体内的重要基因调控单元,与大量顺式基因调控元件共同作用以影响生物发育与疾病发生等过程。尽管已经出现了检测启动子和染色质环的各种实验技术,但这些技术通常耗时且昂贵,在实际应用中面临诸多限制。随着测序技术和人工智能的发展,数据驱动研究模式成为解决这一问CSF biomarkers题的有效途径。近些年来,生物信息学家利用数据特性提出了一些数据驱动的启动子和染色质环预测方法,但这些方法的性能和泛化能力受限于单一的序列特征编码方案和简单的模型结构。鉴于此,本文全面研究不同的序列特征编码方案,深入挖掘DNA序列的数据特性,并构建了数据驱动的启动子预测模型(i Pro-WAEL)和染色质环预测模型(CLNN-loop)以进一步提升预测性能和泛化能力。此外,本研究还探索了启动子和染色质环区域中重要的转录因子基序,为未来相关研究提供新的思路。最后,本研究开发了启动子与染色质环预测分析平台以进一步促进相关领域的研究。主要研究内容如下:(1)基于集成学习的启动Navitoclax纯度子预测算法针对现有启动子预测算法研究中特征提取方法相对单一、模型结构相对简单以及未深入探索启动子区域中的转录因子基序的问题,本研究通过融合多种序列特征,构建了一种基于加权平均集成方法的启动子预测模型i Pro-WAEL。基于七个物种的启动子数据集的广泛基准测试表明i Pro-WAEL具有最佳性能,在相同数据集集合中,该模型的平均准确率比先前研究中性能最好的方法高出1.6%-15.5%。实验结果还表明i Pro-WAEL在跨细胞系预测等方面具有令人满意的预测性能,证明了优秀的泛化能力。最后,本研究开发了一种用于挖掘启动子区域中重要转录因子基序的新方法,挖掘出ZNF143等重要基序并阐述了其生物功能和作用。这些基序的发现可能为探索生物的基因表达、挖掘基因和疾病间的关系、促进疾病发生机理研究以及推动疾病诊断和治疗提供新的研究思路。(2)基于深度学习的染色质环预测算法针对现有染色质环预测算法研究中特征提取方法相对单一、模型结构相对简单以及未深入探索染色质环序列对中的共同特征的问题,本研究通过融合多种基于序列的特征,构建了一种基于深度学习的染色质环预测模型CLNN-loop。基于两个细胞系和四种类型的染色质环数据集的广泛基准测试表明CLNN-loop具有最佳性能,在预测染色质环方面优于其他分类算法。实验结果还表明CLNN-loop在跨细胞系跨类型预测方面具有优秀的泛化能力,平均AUC值比先前研究中性能最好的方法高出4.14%。最后,本研究应用SHAP框架解释多种分类算法的预测结果,并确定CTCF基序和序列保守性是不同细胞系和不同类型的染色质环的重要标志,为未来染色质环的预测研究提供了新的研究思路。(3)启动子与染色质环预测分析平台结合启动子与染色质环在相关研究中的应用需求,本研究采用Django后端框架和Lay UI前端框架开发了启动子与染色质环预测MRTX849配制分析平台以促进相关领域的研究。平台基于前两部分研究内容的特征提取方法、启动子预测模型(i Pro-WAEL)、染色质环预测模型(CLNN-loop)以及转录因子基序数据库实现启动子预测、启动子分析、染色质环预测和染色质环分析四种核心功能,为用户提供简单便捷、灵活高效的交互体验。