近年来我国新发呼吸系统传染病的防控形势十分严峻,各种呼吸系统传染病严重威胁着国民的生命健康安全,阻碍着社会的经济发展。对疑似患有呼吸系统传染病的人群进行预警与筛查是建立完备的疫情防控机制、打赢各类疫情防控攻坚战的关键。呼吸系统病变是早期呼吸系统传染病的一个显著特征,患者往往因呼吸道感染而出现咳嗽、气促、喘息等多种病理特征,利用音频信号处理技术对呼吸方式异常的人群进行分类与识别有利于在疾病爆发初期使疑似患者进行自我筛查与隔离,有效减缓疫情传播速度,切断传播途径。本论文主要围绕健康人群和以新型冠状病毒肺炎、感冒、发热病为主的异常健康状态人群进行分类实验,主要工作如下:1)建立了异常音频信号数据库,以Coswara数据库为基础,整理异常健康状态人群的咳嗽声与呼吸声构建异常音频数据库,为后续的研究工作提供数据支持。2)提出了一种基于谱熵法端点检测的音频无声区域裁剪方法,通过检测无声区域中点和音频信号的起止点对音频信号进行无声区域自动裁剪。本方法应用于咳嗽音频信号预处理中使非语音信号比重减少30%以上,优化了后续的音频信号特征提取,同时降低了模型的数据量。3)对音频信号的声学特征进行特征提取与分析,提取出咳嗽音、呼吸音的高阶梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)以及功率谱密度(Powergermline genetic variants spectral density,PSD),通过实验进行对比,分析出异常人群和正常人群两类特征的差异性,同时也选取了患者的临床特征如肌肉酸痛、嗅觉丧失、疲劳无力、腹泻、呼吸困难、喉咙痛等症状进行差异性分析,选取相关性高的特征作为临床特征的多模态输入。4)构建了一种基于卷积核的帧特征融合器,对咳嗽音、呼吸音的MFCC进行帧融合构建低维度音频信号特征,利用支持向量机和K近邻算法对低维度高阶MFCC、PSD特征、临床特征进行分类,最优分类准确率达到83%以上,实验同时表明了进行无声区域裁剪的咳嗽音比未进行咳嗽音对实验分类准确率的提升约为寻找更多6%-8%,论证了无声区域裁剪的必要性。5)提出了一种多模态特征融合的分类模型,该模型以Res Net18作为咳嗽音高阶MFCC、呼吸音高阶MFCC的特征提取网络,以多层感知机(Multi LRSL3ayer Perceptron,MLP)作为咳嗽音PSD、呼吸音PSD、临床特征的特征融合网络。该模型可以通过控制输入模态的权值和特征的拼接方式来控制多模态输入的组合。实验表明,该模型取得了良好的分类效果,其中融合临床特征的最优多模态输入准确率达到了92.73%,精准率与召回率达到了90.55%和91.58%。本文建立了异常音频数据库;提出了一种基于谱熵法端点检测的音频无声区域裁剪技术对音频信号中的非语音信号进行裁剪;对音频信号的声学特征进行特征提取与分析,提取了音频信号的PSD特征、高阶MFCC特征;构建了一种基于卷积核的帧特征融合器的分类模型和一种多模态特征融合分类模型对两类人群的音频信号进行分类识别,取得了较好的分类效果。