一、Comparison of Different Implementations of MFCC(论文文献综述)
荆诗雨[1](2021)在《基于频谱特征的异常声音监测研究与应用》文中认为在现代生产、生活中,声音包含了越来越多的信息,海量声音通过智能分析和判别可以达到对异常事件监测的作用。随着人工智能技术的发展,异常声音监测技术受到了越来越多的关注,具有十分广泛的应用背景。本文通过对常用的音频检索方法进行分析和比较,基于声音的频谱特征,设计并实现了一种异常声音监测方法。(1)使用梅尔频率倒谱系数(MFCC)与时序差分(Temporal Difference,TD)相融合的音频特征提取算法,即MFCC-TD算法,从频谱特征的角度描述信号的动态特性;(2)由于在数据收集过程中,异常声音数据往往远小于场景声音数据,导致各类样本比例失衡,需要对各类样本进行均衡化处理;(3)用随机森林模型训练音频特征参数,得到输入音频信号的最终预测类别,实现对异常声音的监测。为了验证该算法的性能和开销,在收集到的包含异常声音和场景声音的数据集中进行了实验。通过对实验结果对比和分析,证明该方法具有良好的准确性和实时性,并且在强噪音背景下依然能保持较好的性能。基于上述方法,本文研发了基于声音识别技术的异常声音监测系统,主要包括声音监测功能、传感器状态实时查询功能、拾音器数据可视化功能、拾音器历史数据的存储与查询功能。将巷道突水事故作为应用背景,在不同信噪比的条件下进行了系统应用分析。结果表明,该系统具有较强的突水声音识别能力以及抗噪音能力,满足时效性要求,可以为突水事故的监测提供依据。
孙永明[2](2021)在《基于声音信号的带式输送机故障诊断系统研究》文中研究指明带式输送机因其具有运输量大、运输距离长、持续性运输等优点,在港口煤炭运输行业成为了不可替代的运输工具。随着对煤炭需求量的逐渐增加,带式输送机将长时间高负荷生产工作,一旦设备发生故障,产生的经济损失将不可估量。目前基于带式输送机故障诊断主要是依靠人工巡检方式,该巡检方式因其工作量大、诊断效率低等缺点已不再适合当前生产现状。由于发现带式输送机在发生故障时产生的声音信号中包含了大量的故障信息,本文将通过对带式输送机工作中产生的声音进行故障分析,研发一套基于声音信号的带式输送机故障诊断系统,本文主要研究内容如下:(1)针对带式输送机现场存在噪声干扰问题,提出了一种改进的小波阈值去噪方法。经过对声音信号小波基、分解层数和阈值的选择,并对软硬阈值函数进行收敛性的分析,提出一种基于改进阈值函数的小波阈值去噪方法,利用传统小波模极大值去噪方法做出对比实验。仿真实验结果表明,该改进方法更有效的滤除了噪声,并降低了声音信号的失真程度。(2)针对传统声音特征不能较好表征信号特征的问题,对声音信号进行了梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和深度学习特征两个特征的提取。MFCC的提取是将去噪后的声音信号快速傅里叶变换,通过Mel滤波器滤波,在进行对数变换求得,基于深度学习的特征提取是利用短时傅里叶变换将声音信号转化为语谱图,再通过采用卷积神经网络特征提取的方法进行提取。通过两种特征的提取,得到了带式输送机工作时声音信号中最能表征信号类型的信息。(3)针对基于卷积神经网络和支持向量机的带式输送机故障诊断模型精确率低的问题,一是搭建了基于卷积神经网络的VGG16深度学习模型,并根据样本数据对VGG16进行了网络结构的改进。通过将声音信号图像化后的样本数据放入VGG16神经网络,对学习率和批样本大小进行了最优设计,得到识别效果最佳的VGG16神经网络。二是搭建了基于SVM的故障诊断模型,分别从特征级融合和决策级融合两种融合算法改进故障诊断模型。特征级融合是利用主成分分析法将提取到的两种特征降维后拼接融合,决策级融合是利用D-S证据理论将两个分类器得到的后验概率融合。通过对SVM三种方法的故障诊断对比实验,得出基于决策级融合的SVM模型识别率更高且较改进的VGG16神经网络更优。
刘彬彬[3](2021)在《基于声发射的法兰螺栓智能检测技术研究》文中研究指明螺栓法兰连接是石化设备中的关键连接部件,但其在振动冲击或微动磨损条件下,紧固所用的螺栓常会出现松动,螺栓松动会影响法兰连接的密封性从而导致事故的发生。声发射检测技术可有效检测出法兰连接中各螺栓的连接状态,但螺栓连接部位的声信号复杂,机电噪声会影响声发射检测效果。针对此问题,本文依据法兰螺栓的松动特性,研究了螺栓在不同连接状态下的声发射信号特性,并结合深度学习理论,提出了基于卷积神经网络的声发射信号处理方法来识别法兰螺栓连接状态。本文研究具体内容如下:首先,分析了石化设备中法兰螺栓的常见故障,介绍螺栓松动检测的常规方法,并详细论述传统的敲击声学检测方法和声发射检测方法的优劣性,确定采用声发射技术来检测螺栓松动的技术路线,并对声发射检测所用的器材和步骤进行了详细叙述。其次,研究了声发射信号处理技术,比较和分析了近些年来常用的信号处理方法的优缺点,提出一种基于CEEMDAN-MFCC-CNN的声发射信号识别方法。可实现信号的自适应降噪,采用梅尔倒谱系数作为信号分类的特征,在参数识别时与一维卷积神经网络结合,显着提高了采用声发射信号识别法兰螺栓连接状态的精度。接着,提出了一种基于时序二维化和注意力机制相结合的法兰螺栓连接状态诊断模型,运用格拉姆角场理论将法兰螺栓的声发射信号进行时序二维转化,并引入分段聚合近似方法到信号的预处理中,最终将一维的时间序列转化为二维彩色图像,用转化所得的图像来实现信号识别。在设计诊断模型时,为提高由信号转化得到的二维图像的识别精度,采用识别能力优越的残差神经网络结构作为底层框架,一是对残差网络进行了结构上的改进,二是在残差网络中加入了通道域注意力学习机制,搭建了基于注意力机制的诊断模型,赋予了模型更强的特征提取和分类能力。模型有着良好的泛化性能和抗噪性能,可以很好地实现法兰螺栓的连接状态识别。最后,设计了界面友好、保密性高、可靠性高和智能化程度高的法兰螺栓智能诊断软件。软件开发依托Lab VIEW、MATLAB和Python,实现了深度学习的工业化应用,Lab VIEW负责系统界面设计,MATLAB设计相关算法,Python部署深度学习模型。此软件系统包含了用户登录、信号分析与预处理、传统特征信号分析和人工智能诊断等模块,实现了石化设备关键部件法兰螺栓的智能检测需求。
张彦明[4](2021)在《低功耗混合信号域语音MFCC特征提取电路设计》文中研究表明近年来,随着物联网与智能语音技术的发展,语音交互逐渐成为主流的人机交互方式。为了满足常开且实时响应的语音识别交互,需要将语音信号的常开处理部署在能量十分受限的小型智能终端设备上,增加低功耗语音识别唤醒模块可以显着降低常开语音识别系统的功耗。语音特征提取是整个语音识别流程中必不可少的步骤,梅尔频率倒谱系数(MFCC)是最常用的特征。在传统数字域研究工作中,包含模数转换器(ADC)的完整MFCC特征提取是整个常开语音唤醒系统的功耗瓶颈。低功耗的语音MFCC特征提取能够极大地改善常开型语音识别系统的工作时间。传统数字域研究工作中不可避免地要使用高能耗的ADC将模拟语音信号转换成数字信号,同时需要耗时的快速傅里叶变换(FFT)进行频域分析。为了降低语音MFCC特征提取的功耗和硬件实现代价,本文完成了以下工作:(1)采用低功耗混合信号域语音MFCC特征提取方法,在模拟域中实现了语音的能量分布提取,在数字域中完成了语音MFCC特征参数的计算,消除了耗时的FFT变换,同时降低了ADC的处理代价。本文对低功耗混合信号域语音MFCC特征提取架构以硬件为中心进行了优化设计和实现,优化了整体架构的灵活性,采用了低功耗和低接口代价、易于调节且可大规模实现的模拟电路,完整实现了低功耗混合信号域语音MFCC特征提取模拟通路,在不影响性能的前提下降低了语音MFCC特征提取的功耗和硬件实现代价。(2)设计并流片了单通道混合信号域语音MFCC特征提取模拟前端芯片。基于180nm工艺实现的单通道芯片具有频率和增益的可调性,可以调整为中心频率在4k Hz以下的任意通道运行,并可灵活配通道数。基于单通道芯片的混合信号域语音MFCC特征提取的功耗为74μW,识别精度可以达到97.98%,与传统数字域研究工作相比可以达到相近的识别性能,同时可以节省89%的功耗。对带有不同噪声的语音信号进行特征提取,在10d B及以上信噪比时与传统数字域语音MFCC特征相比具有相当的噪声鲁棒性。(3)基于单通道芯片的结果,采用更先进的65nm工艺进行多通道拓展。设计并流片了全通道混合信号域语音MFCC特征提取模拟前端芯片。拓展的全通道芯片后仿真结果中,识别精度达到98.38%,功耗为30.87μW,证明全通道芯片的识别性能可与传统数字域语音MFCC特征提取相比拟,并可节省95.39%的功耗。单元电路的实际测试结果可使语音MFCC特征的识别精度达到95.96%。芯片测试总功耗为31.57μW,实现了95.3%的功耗节省。
周梦茜[5](2021)在《电力变压器局部放电超声信号的声纹识别方法研究》文中认为电力变压器是电网中的关键设备,对变压器进行状态评估和故障诊断具有重要意义。当变压器内部绝缘产生缺陷时,会发生局部放电现象,对局放进行检测可以表征绝缘性能。存在局部放电时会发出异常超声波,目前对于局部放电的超声法诊断有相位图谱,飞行时间图、频率相关性方法等。由于超声波持续时间较长,现有方法模式识别均比较粗略,仅可实现部分缺陷类型,不能对全部放电类型进行精细判别。局部放电的超声信号也是广义上的“声音”,基于超声信号的“声音”属性进行识别的研究仅止步于声学特征量的引入,声学方法能否有效识别这种“声音”是一个值得探索的问题。基于该问题,本文在设计制作了四种典型油纸绝缘局部放电缺陷模型,搭建局部放电超声检测实验系统,采集不同类型局部放电的超声信号,结合在变压器进行出厂试验时采集的局部放电超声信号,将这些信号经过端点检测环节,对其经过端点检测前后的时间长度进行对比,根据结果筛选超声样本,建立变压器局部放电超声样本库。引入声纹识别技术,对不同模式局部放电超声信号进行分析。基于声纹识别技术,绘制了不同类型局部放电超声信号的语谱图,分析不同模式局部放电超声信号语谱图的差异性,提取了超声信号的梅尔频率倒谱系数和伽马通频率倒谱系数,基于特征量训练得到了不同模式局部放电超声信号的高斯混合模型,发现不同类型局部放电超声信号的语谱图、特征量和模型均存在较大差异。为凸显超声的“声音”属性,提出降频系数的概念,分析降频系数对识别效果的影响。对于算法中的关键参数:帧长、特征量维数和模型分量数进行了优化,同时基于识别贡献率进一步精简了特征量,提高了识别效率和准确率。结果表明:降频系数为10、帧长为5ms、特征量维数为8、模型分量数为4时,基于MFCC参数的识别率可达97.78%,降频系数为10、帧长为10ms、特征量维数为16、模型分量数为8时,基于GFCC参数的识别率可达到87.36%。
吴虹蕾[6](2021)在《基于深度学习的语音情感识别算法的设计与实现》文中进行了进一步梳理随着科技的进步人工智能得到了快速发展,用户对人机交互式需求日益增长,情感信息作为沟通交流的基础,人类希望机器能够感知到情绪,从而为消费者提供更加优质的服务。语音情感识别作为人机交互的关键技术,其在医疗、教育等很多领域都存在实际意义,故本文从语音特征优化和构建良好的情感识别模型这两个角度出发对语音情感识别这一课题展开研究,主要工作如下:在特征提取方面,采用Mel倒谱特征参数,针对其中、高频分辨率差的特点,引入了I-MFCC、Mid-MFCC特征参数,并通过降维算法Fisher比准则计算三种Mel倒谱系数对语音情感识别贡献度的高低,选取贡献度最高的12阶参数进行融合后得出F-MFCC特征参数,再与语音信号的短时能量、基因频率、共振峰等特征参数融合后,得到包含信息全面的特征参数用于情感识别实验。在改进特征参数基础上,提出了一种基于深度学习的语音情感识别算法,搭建了基于卷积神经网络(CNN)、双向长短时记忆网络(Bi-LSTM)、多头注意力机制(multi-attention)的语音情感识别模型。通过CNN提取每帧语音信号的高级特征向量参数输入到BiLSTM+multi-attention中,Bi-LSTM双向分析特征参数的时序信息,multi-attention划分出多维不同子空间学习并对语音特征参数赋予不同的权重,输入到全连接层及Softmax层对语音情感进行识别。为了验证优化后的Mel倒谱系数和深度学习神经网络在语音情感识别应用中的实际效果,使用IEMOCAP和CASIA情感数据集进行测试。实验结果表明,改进的Mel倒谱特征参数及深度学习模型可以有效提升语音情感识别能力。
房玉杰[7](2021)在《基于高斯混合模型的脚步声身份识别方法》文中提出脚步声身份识别技术利用人行走时产生的声音或振动信号实现对行走人的身份识别,具有隐蔽性、非接触式、不易被伪造等优点,是一种非常有潜力的生物特征识别技术。由于脚步声信号幅值小,容易受到环境噪声干扰,给脚步声信号降噪等预处理带来很大困难,并且脚步声身份识别存在数据匮乏、识别准确率低等问题。因此,开展低信噪比脚步声信号预处理和大量数据的脚步声身份识别研究具有重要意义。本文在总结国内外脚步声身份识别研究现状的基础上,以脚步声身份识别系统为研究对象,针对脚步声身份识别相关的脚步声信号采集、预处理、特征参数提取、模型建立等问题开展研究,主要研究工作如下:首先,利用动态信号采集分析系统采集脚步声信号,并对脚步声信号降噪、起始点检测等预处理方法开展研究。设计脚步声信号采集方案,利用动态信号采集分析系统在低噪声封闭室内环境下采集大量的脚步声信号,并对脚步声信号的时频域进行分析;使用滤波和谱减法相结合的方法对脚步声信号进行降噪处理,进一步根据脚步声压级信号和自适应阈值对自然行走状态下连续脚步声信号的起始点进行检测,将连续脚步声信号分割成仅由相邻两个脚步声组成的单元,并对每个脚步声单元进行Z-score标准化处理,完成脚步声信号采集和预处理工作。其次,利用标准化的脚步声单元提取脚步声特征参数,建立受测人员基于脚步声特征参数的高斯混合模型(GMM)。基于人耳听觉特性提取脚步声单元的声学特征梅尔频率倒谱系数(MFCC)、感知线性预测系数(PLP)及其一阶、二阶动态差分特征参数;利用特征参数训练集建立受测人员的高斯混合模型,使用K-means算法初始化模型参数,进一步利用期望最大化算法(EM)完成高斯混合模型参数估计;完善脚步声身份识别判决准则,利用高斯混合模型实现受测人员的识别。最后,利用闭集脚步声身份辨认系统研究脚步声特征参数的影响因素,进一步研究闭集脚步声身份辨认系统在不同训练数据和测试数据长度下的识别准确率以及脚步声身份确认系统的等错误率。以闭集脚步声身份辨认系统的识别准确率为判决依据,采用控制变量法研究MFCC、PLP及其动态差分特征参数的帧长、帧移与帧长的比值和维数对识别结果的影响;进一步研究闭集脚步声身份辨认系统在不同训练数据和测试数据长度下的识别准确率;结合步态识别研究成果,对特征参数进行优化,以减少特征参数提取、高斯混合模型训练和识别过程的时间;利用优化的特征参数对脚步声身份确认系统的等错误率进行探究。本文完成了低信噪比脚步声信号的降噪处理,提出了利用脚步声压级信号和自适应阈值进行起始点检测的方法;通过提取脚步声信号的特征参数建立高斯混合模型,实现了基于高斯混合模型的脚步声身份识别。研究表明,在数据充足的条件下,闭集脚步声身份辨认系统的识别准确率达到98.2%,脚步声身份确认系统的等错误率为7%。本文对丰富生物特征识别技术和多生物特征融合的发展有积极意义。
李艳芹[8](2021)在《抑郁障碍人群语料库的建设及分析研究》文中研究表明抑郁症,又称抑郁障碍,是一种严重的心理障碍疾病。其在临床上表现为显着且持久的心情低落、愉悦度降低、言语活动减少等,具有自杀倾向,严重影响人们的身心健康,也为社会带来了巨大的危害。截止2017年,全球有3亿人患有抑郁症,我国的抑郁症患者也已超过5400万人。当下,抑郁症的诊断方法以主观量表为主,依赖医生的临床经验以及患者的配合程度,缺乏客观指标。因此,语音作为非侵入、易采集、低成本的客观指标,受到了广大研究人员的青睐。众所周知,语料库的优劣直接影响着识别模型性能的高低,基于语音信号的抑郁识别研究亦如此。据我们所知,目前国外有许多公开的抑郁语料库,但是在国内尚未有公开可用的抑郁语料库,而且由于文化以及语言的差异,国外的抑郁语料研究结果并不完全符合我们的实际情况。虽然声学特征的研究也是抑郁语音研究的重要内容,但是仍然存在不一致的研究结果,当下仍未得到可以完全有效识别抑郁的语音声学特征。并且由于研究人员在进行抑郁识别时使用的语料数据、分类系统以及网络结构有所不同,研究结果无法进行有效的比较。基于此,本文首先建立了汉语抑郁障碍语音语料库,其次,根据前人的研究提取相关声学特征,利用实验统计学的方法对抑郁和健康被试的声学特征做了较详细的分析比较,总结出了有效声学特征及其变化规律。最后,本文利用得到的有效声学特征进行建模识别,证明建立语料库的有效性。论文的主要工作与创新如下:1.建立了一个汉语抑郁障碍人群语音语料库。本文基于心理学自我加工异常理论,提出了一种基于心理学经典实验范式的抑郁语料采集方法。采用不同的言语方式和情绪刺激,并结合心理学经典实验范式(自我参照加工范式、自传体记忆范式)设计了抑郁文本语料。最后采集了60名被试(30名抑郁被试,30名健康被试)的语音,总时长大约60个小时,并对两组被试的性别、年龄和学历全部进行了匹配。2.利用实验统计学的方法对提取的声学特征进行了显着性对比分析以及相关性分析。从言语方式、情绪刺激、自我参照加工等角度,分别针对不同性别的被试筛选出了在以上3种角度下都具有显着性的声学特征作为有效声学特征。女性的有效声学特征为响度、MFCC3、F1频率和光谱通量,男性的有效声学特征为MFCC1、MFCC5、基频包络和F3带宽。比较了有效声学特征与贝克抑郁量表得分之间的相关性,分析结果表明声学特征和抑郁严重程度之间具有一定的相关性。3.基于本文建立的语料库进行了抑郁识别。本文采用支持向量机进行抑郁分类。从发声方式的角度而言,使用随意讲话语音、负性语音和自我角度语音的分类率分别要高于其它类型的语音;女性语音的总体平均分类率要高于男性语音的平均分类率。从声学特征的角度而言,女性的响度和光谱通量的分类率较好,分类率都达到了80%以上;男性的基频包络和MFCC1的分类率较好,基频包络的分类率达到了75%以上,MFCC1的分类率达到了80%以上。以上结果也验证了本文所建的语料库以及筛选的有效声学特征的有效性。本文从抑郁语音数据的扩充、声学特征的筛选以及抑郁分类等方面进行了研究,为今后抑郁语音的研究提供参考。
张兴明[9](2021)在《基于深度学习的说话人识别研究与应用》文中进行了进一步梳理在基于生物特征识别的身份核验系统中,说话人识别技术相较于其他生物特征识别技术具有很多优势。由于实际使用中的身份核验系统对识别准确率、系统鲁棒性有着极高的要求,而目前说话人识别技术水平还很难满足系统的这些性能需求,因此该技术仍处在技术研究阶段,并未大规模在实际场景中应用。为提升模型的识别性能和模型的鲁棒性,本文对说话人识别中的关键技术:语音特征提取、损失函数与识别模型结构三个方面进行了相应研究。本文主要工作内容和创新点如下:1、针对单特征存在的信息种类单一、信息量少的问题,提出一种有效的语音特征融合方案。语谱图特征参数相对MFCC和Filter Bank特征参数,其特征提取过程中计算步骤较少,保留的语音原始信息更多,这类特征更适合在深度学习中使用。本文研究了以语谱图为主要特征,以MFCC或Filter Bank为辅助特征的多种浅层特征融合方案,并最终找到了一种效果最优的融合特征。通过在基于卷积神经网络和基于循环神经网络的识别模型上的多组对比实验,验证了该方案的有效性和效果。2、针对GE2E损失函数中说话人中心向量计算方式存在的不足,提出一种基于说话人全局中心的端到端损失函数。对常用的Softmax、Triplet、GE2E损失函数进行比较和实验,证实了GE2E是一种性能优异的损失函数。但GE2E中的说话人中心向量是一个局部值,该值与真实的说话人中心向量之间存在较大误差,于是提出基于说话人全局中心的端到端损失函数GC_GE2E。通过说话人确认测试与说话人辨认测试,证明了GC_GE2E对说话人识别有效,且GC_GE2E的性能优于GE2E。3、基于本文提出的语音特征融合方案和损失函数,构建了基于多尺度卷积残差神经网络的说话人识别模型,该模型考虑到实际的基于说话人识别的身份核验系统对识别性能、系统鲁棒性等方面的要求,采用了卷积神经网络与多尺度残差网络等技术。多组对比实验结果表明,该模型具有较好的识别性能;跨数据集与跨语言的实验结果,验证了该模型的鲁棒性。4、设计并实现基于说话人识别的身份核验与识别应用系统,该系统基于本文上述研究成果,并结合语音识别技术共同构建。该系统可以实现说话人语音识别与动态口令验证,能够有效预防假冒闯入攻击;该系统提供了声纹注册、身份核验和身份识别功能,具有较好的应用价值。
刘余[10](2021)在《基于神经网络特征映射的声纹识别技术研究与实现》文中进行了进一步梳理声纹识别技术在司法鉴定、军事安全、金融防欺诈等多个领域得到应用,但是在实际应用环境中,各种各样影响语音质量的背景噪声,使得实际工程应用中的声纹识别系统效果达不到理想要求,成为限制声纹识别技术发展的重要因素。因此,论文围绕声纹识别技术在噪声环境下的识别率提升问题开展研究工作。受到基于神经网络的特征映射方法在语音增强以及鲁棒性语音识别领域相关研究的启发,论文将基于神经网络的特征映射方法应用在鲁棒性声纹识别系统中。论文使用人工构造的平行语料数据集以最小均方误差为目标函数训练深层神经网络(Deep Neural Network,DNN),使其学习含噪语音对数功率谱特征和干净语音Fbanks特征之间的映射关系。训练好的DNN模型作为一个特征提取器被应用于声纹识别系统的特征提取过程。实验结果表明,在信噪比较低的条件下DNN输出特征性能高于传统鲁棒性特征,而在信噪比较高的时候DNN输出特征的性能不如传统鲁棒性特征,受最小均方误差目标函数的影响,DNN输出的特征无法在各个信噪比下都获得优于传统鲁棒性特征的性能。为了解决最小均方误差目标函数引起的问题,将DNN替换为Wasserstein生成对抗网络(Wasserstein Generative Adversarial Network,WGAN)。WGAN通过Wasserstein距离去衡量生成数据分布和真实数据分布之间的距离,使得神经网络可以更好的学习特征之间的映射关系,实验表明,在0d B、5d B、10d B、15d B、20d B的测试条件下,与传统鲁棒性特征相比,以GMM-UBM作为识别模型,FMWGAN(Feature Mapping WGAN)输出的特征(FMWGAN-MFCC)在各个信噪比下的识别率分别提高了13%、7.3%、6.7%、6.8%、6.3%;以身份向量(i-vector)作为识别模型,在各个信噪比下的识别率分别提高了5.5%、1.9%、1%、1.2%、0.6%。论文设计了一款声纹识别程序,将论文训练得到的神经网络模型应用到声纹识别程序的实现中,程序开发完成后在实际环境中对程序进行了相应的性能评估和测试。从仿真实验和实际测试来看,基于FMWGAN-MFCC的声纹识别系统相较于基于传统鲁棒性特征的声纹识别系统在噪声环境下具有更高的识别率,可以一定程度上解决噪声环境下声纹识别系统识别率下降的问题。
二、Comparison of Different Implementations of MFCC(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Comparison of Different Implementations of MFCC(论文提纲范文)
(1)基于频谱特征的异常声音监测研究与应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 选题背景及意义 |
1.2 研究现状分析 |
1.3 主要研究内容 |
第二章 音频检索方法 |
2.1 特征提取方法 |
2.1.1 时域特征 |
2.1.2 频域特征 |
2.2 分类方法 |
2.2.1 动态时间规整 |
2.2.2 支持向量机 |
2.2.3 随机森林模型 |
2.3 本章小结 |
第三章 基于MFCC-TD的异常声音监测方法 |
3.1 总体框架 |
3.2 音频信号预处理 |
3.2.1 采样与量化 |
3.2.2 预加重 |
3.2.3 分帧与加窗 |
3.3 MFCC-TD音频特征提取 |
3.3.1 MFCC音频特征参数提取 |
3.3.2 TD特征参数提取 |
3.3.3 MFCC与 TD特征参数的融合 |
3.3.4 特征参数降维 |
3.4 样本均衡化与分类模型训练 |
3.4.1 过采样技术 |
3.4.2 随机森林模型 |
3.5 实验结果与分析 |
3.5.1 音频数据库搭建 |
3.5.2 算法性能评价指标 |
3.5.3 算法识别性能测试 |
3.5.4 样本均衡化效果测试 |
3.5.5 不同样本时常测试 |
3.5.6 算法时效性测试 |
3.6 本章小结 |
第四章 异常声音监测系统 |
4.1 系统设计与实现 |
4.1.1 系统功能 |
4.1.2 系统架构 |
4.1.3 系统开发与运行环境 |
4.2 实例应用 |
4.2.1 巷道突水声音数据集的收集与建立 |
4.2.2 巷道突水声音识别模型 |
4.2.3 实验结果与分析 |
4.3 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
作者及导师简介 |
(2)基于声音信号的带式输送机故障诊断系统研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 带式输送机故障诊断技术 |
1.2.2 声音信号故障诊断技术 |
1.3 研究内容及论文安排 |
第2章 带式输送机故障诊断系统总体方案设计 |
2.1 带式输送机故障分析 |
2.1.1 带式输送机基本构成 |
2.1.2 主要故障类型 |
2.2 故障诊断系统总体方案设计 |
2.3 故障诊断系统硬件设计 |
2.3.1 控制器模块 |
2.3.2 数据采集模块 |
2.3.3 无线传输模块 |
2.4 故障诊断系统软件设计 |
2.4.1 DSP与 MATLAB通信设计 |
2.4.2 人机交互界面设计 |
2.5 本章小结 |
第3章 改进的基于小波阈值去噪的算法研究 |
3.1 噪声的特性分析 |
3.2 声音信号时频域分析 |
3.2.1 傅里叶变换 |
3.2.2 短时傅里叶变换 |
3.2.3 小波变换 |
3.3 基于带式输送机的小波去噪算法研究 |
3.3.1 小波阈值去噪基本方法 |
3.3.2 小波模极大值去噪 |
3.3.3 阈值函数的改进 |
3.4 小波去噪仿真实验 |
3.5 本章小结 |
第4章 带式输送机声音信号特征提取算法研究 |
4.1 声音信号特征提取算法分析 |
4.1.1 声音信号时域特征分析 |
4.1.2 声音信号频域特征分析 |
4.1.3 声音信号倒谱域特征分析 |
4.2 带式输送机声音信号MFCC特征提取 |
4.2.1 声音信号预处理 |
4.2.2 快速傅里叶变换 |
4.2.3 Mel滤波器组设计 |
4.2.4 MFCC系数计算 |
4.2.5 带式输送机MFCC特征提取实验 |
4.3 带式输送机的深度学习特征提取 |
4.3.1 声音信号图像化 |
4.3.2 卷积神经网络设计 |
4.3.3 激活函数设计 |
4.3.4 基于深度学习的特征提取实验 |
4.4 本章小结 |
第5章 带式输送机故障诊断仿真实验 |
5.1 深度学习模型训练 |
5.1.1 损失函数设计 |
5.1.2 神经网络超参数及调参 |
5.1.3 模型评价指标 |
5.2 基于VGG16 的带式输送机故障诊断 |
5.2.1 一种类似VGG16 的卷积神经网络搭建 |
5.2.2 基于改进VGG16 的故障诊断 |
5.3 基于SVM的带式输送机故障诊断 |
5.3.1 支持向量机模型设计 |
5.3.2 基于SVM的故障诊断 |
5.4 基于融合算法的SVM故障诊断 |
5.4.1 特征级融合和决策级融合 |
5.4.2 基于融合算法的SVM故障诊断 |
5.5 带式输送机故障诊断实验 |
5.5.1 实验平台搭建 |
5.5.2 实验结果分析 |
5.6 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
在读期间发表的学术论文及研究成果 |
致谢 |
(3)基于声发射的法兰螺栓智能检测技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究目的和意义 |
1.2 法兰螺栓松动机理分析 |
1.3 声发射简介 |
1.4 国内外螺栓松动检测方法研究现状 |
1.4.1 扭矩扳手测量法 |
1.4.2 电阻应变测量法 |
1.4.3 超声测量法 |
1.4.4 声频测量法 |
1.4.5 基于声发射的测量法 |
1.5 本文研究的主要内容及技术路线 |
第二章 法兰螺栓声发射信号识别方法研究 |
2.1 引言 |
2.2 法兰螺栓声发射信号类型 |
2.3 法兰螺栓声发射信号特征分析 |
2.3.1 参数分析方法 |
2.3.2 波形分析方法 |
2.3.3 现代信号处理方法 |
2.3.4 基于深度学习的方法 |
2.4 信号采集系统搭建 |
2.4.1 试验试件设计 |
2.4.2 传感器的选用和布置 |
2.4.3 前置放大器选择 |
2.4.4 声发射主机选择 |
2.4.5 采集参数设置 |
2.5 基于CEEMDAN-MFCC-CNN的信号识别方法 |
2.5.1 最优IMF分量选取 |
2.5.2 MFCC系数提取 |
2.5.3 基于1D-CNN的诊断模型 |
2.5.4 模型泛化性能分析 |
2.6 本章小结 |
第三章 基于时序二维化和注意力机制的声发射信号诊断模型 |
3.1 引言 |
3.2 声发射信号时序二维化 |
3.2.1 灰度图转化法 |
3.2.2 小波时频图转化法 |
3.2.3 格拉姆角场转化法 |
3.2.4 基于PAA-GASF的转化法 |
3.3 基于注意力机制的残差网络结构设计 |
3.3.1 传统CNN的缺点 |
3.3.2 残差学习原理 |
3.3.3 注意力机制的引入 |
3.4 诊断模型搭建 |
3.5 本章小结 |
第四章 法兰螺栓连接状态智能检测试验 |
4.1 引言 |
4.2 法兰螺栓声发射信号获取方式 |
4.2.1 被动测量 |
4.2.2 主动测量 |
4.2.3 振动激励 |
4.3 检测方法对比试验 |
4.3.1 对比试验设置 |
4.3.2 对比结果分析 |
4.4 诊断模型对比试验 |
4.4.1 模型参数设置 |
4.4.2 试验结果分析 |
4.5 模型泛化性能分析 |
4.6 模型抗噪性能分析 |
4.7 实物检测试验 |
4.7.1 模型迁移训练 |
4.7.2 试验步骤 |
4.7.3 试验结果分析 |
4.8 本章小结 |
第五章 法兰螺栓智能检测软件设计与实现 |
5.1 引言 |
5.2 软件系统开发工具 |
5.3 系统总体设计 |
5.3.1 用户登录模块设计 |
5.3.2 文件加载模块设计与实现 |
5.3.3 信号特征提取模块设计与实现 |
5.3.4 智能诊断模块设计与实现 |
5.3.5 深度学习模型部署 |
5.3.6 模型加载和读取 |
5.3.7 软件编译 |
5.4 本章小结 |
第六章 结论与展望 |
6.1 主要成果及结论 |
6.2 创新点 |
6.3 工作展望 |
致谢 |
参考文献 |
附录:作者在攻读硕士学位期间发表的论文 |
(4)低功耗混合信号域语音MFCC特征提取电路设计(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 语音特征提取 |
1.2.2 常用语音特征种类 |
1.2.3 语音MFCC特征提取 |
1.3 本文主要内容及论文结构安排 |
2 数字域语音MFCC特征提取基础 |
2.1 传统数字域语音MFCC特征提取流程 |
2.1.1 前端 |
2.1.2 预加重 |
2.1.3 分帧 |
2.1.4 加窗 |
2.1.5 FFT变换 |
2.1.6 梅尔带通滤波 |
2.1.7 对数计算 |
2.1.8 离散余弦变换 |
2.2 传统数字域语音MFCC特征提取电路实现 |
2.3 本章小结 |
3 低功耗混合信号域语音MFCC特征提取设计 |
3.1 混合信号域语音MFCC特征提取架构和硬件优化 |
3.2 低功耗模拟带通滤波器模块设计与实现 |
3.3 低功耗模拟平方器模块设计与实现 |
3.4 低功耗模拟低通滤波器模块设计与实现 |
3.5 数字部分电路设计与实现 |
3.6 本章小结 |
4 语音MFCC特征提取模拟前端芯片仿真验证 |
4.1 单通道语音MFCC特征提取模拟前端芯片仿真 |
4.1.1 带通滤波器仿真 |
4.1.2 平方器仿真 |
4.1.3 低通滤波器仿真 |
4.1.4 模拟通路仿真 |
4.1.5 整体性能评估 |
4.2 全通道语音MFCC特征提取模拟前端芯片仿真 |
4.2.1 带通滤波器组仿真 |
4.2.2 平方器仿真 |
4.2.3 低通滤波器仿真 |
4.2.4 全通道模拟通路仿真 |
4.2.5 整体性能评估 |
4.3 本章小结 |
5 语音MFCC特征提取模拟前端芯片测试与验证 |
5.1 单通道语音MFCC特征提取模拟前端芯片测试 |
5.1.1 单元测试及结果分析 |
5.1.2 整体测试及结果分析 |
5.2 全通道语音MFCC特征提取模拟前端芯片后仿真验证 |
5.3 全通道语音MFCC特征提取模拟前端芯片测试 |
5.3.1 单元测试及结果分析 |
5.3.2 整体测试及结果分析 |
5.4 本章小结 |
6 结论 |
6.1 论文工作总结 |
6.2 未来工作展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(5)电力变压器局部放电超声信号的声纹识别方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题背景及研究意义 |
1.2 国内外研究现状 |
1.3 本文主要工作 |
第2章 变压器典型局放缺陷实验平台 |
2.1 试验系统搭建 |
2.1.1 试验系统 |
2.1.2 变压器绝缘 |
2.2 缺陷模型搭建 |
2.3 试验方法及步骤 |
2.3.1 超声信号采集 |
2.3.2 声纹识别技术 |
2.4 本章小结 |
第3章 变压器超声信号的筛选与建库 |
3.1 声纹库 |
3.1.1 实验室声纹 |
3.1.2 变压器厂声纹 |
3.2 数据筛选 |
3.3 本章小结 |
第4章 基于GMM的变压器声纹识别算法 |
4.1 声纹信号前端处理 |
4.1.1 数据筛选 |
4.1.2 预处理 |
4.2 声纹信号特征参量提取 |
4.2.1 特征参量选取 |
4.2.2 MFCC特征参量提取 |
4.2.3 GFCC特征参量提取 |
4.3 基于GMM的声纹识别系统设计 |
4.3.1 高斯混合模型 |
4.3.2 参数训练 |
4.3.3 识别算法 |
4.4 本章小结 |
第5章 声纹识别系统的实验与分析 |
5.1 降频系数选择 |
5.2 参数选取 |
5.2.1 帧长选择 |
5.2.2 特征参量的加权降维 |
5.2.3 模型的分量个数选择 |
5.3 本章小结 |
第6章 结论与展望 |
6.1 结论 |
6.2 展望 |
参考文献 |
攻读硕士学位期间发表的论文及其它成果 |
致谢 |
(6)基于深度学习的语音情感识别算法的设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究内容 |
1.4 本文组织结构 |
第2章 语音情感识别的基础知识 |
2.1 语音情感描述模型 |
2.1.1 离散情感描述模型 |
2.1.2 连续情感描述模型 |
2.2 语音信号的预处理 |
2.2.1 预加重处理 |
2.2.2 分帧和加窗 |
2.2.3 端点检测 |
2.3 常用的情感特征参数提取 |
2.3.1 短时能量及衍生参数 |
2.3.2 基因频率及衍生参数 |
2.3.3 共振峰及衍生参数 |
2.4 传统的语音情感识别算法 |
2.4.1 支持向量机 |
2.4.2 隐马尔科夫模型 |
2.5 本章小结 |
第3章 F-MFCC融合特征的语音情感识别算法 |
3.1 改进的梅尔频率倒谱系数 |
3.1.1 Mel频率倒谱系数 |
3.1.2 I-Mel频率倒谱系数 |
3.1.3 Mid-Mel频率倒谱系数 |
3.2 混合倒谱系数的提取 |
3.2.1 Fisher比准则 |
3.2.2 混合MFCC模型 |
3.2.3 F-MFCC模型 |
3.3 混合特征参数的组成 |
3.4 本章小结 |
第4章 基于深度学习的语音情感识别算法 |
4.1 卷积神经网络 |
4.2 长短时记忆网络及改进模型 |
4.2.1 长短时记忆网络 |
4.2.2 双向长短时记忆网络 |
4.3 注意力机制及改进模型 |
4.3.1 注意力机制 |
4.3.2 多头注意力机制 |
4.4 深度学习网络模型的构建 |
4.4.1 系统架构设计 |
4.4.2 网络模型优化策略 |
4.5 本章小结 |
第5章 实验结果及性能分析 |
5.1 语音情感识别系统实验流程 |
5.2 实验数据与环境 |
5.2.1 实验数据集 |
5.2.2 实验环境 |
5.3 实验评价指标 |
5.4 实验过程及结果分析 |
5.4.1 F-MFCC融合特征对比实验 |
5.4.2 情感识别模型对比实验 |
5.5 本章小结 |
结论 |
参考文献 |
致谢 |
攻读学位期间取得学术成果 |
(7)基于高斯混合模型的脚步声身份识别方法(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 脚步声身份识别相关技术研究现状 |
1.2.1 脚步声信号采集 |
1.2.2 脚步声信号预处理 |
1.2.3 脚步声信号特征参数提取 |
1.2.4 模式识别算法 |
1.3 脚步声身份识别评价指标 |
1.4 课题来源及主要研究内容 |
1.4.1 课题来源 |
1.4.2 主要研究内容 |
第2章 脚步声信号采集与预处理 |
2.1 脚步声信号采集及分析 |
2.1.1 脚步声信号采集方案及实施 |
2.1.2 脚步声信号频域分析 |
2.2 脚步声信号降噪预处理 |
2.2.1 脚步声信号滤波处理 |
2.2.2 脚步声信号谱减法降噪 |
2.3 脚步声压级信号处理与起始点检测 |
2.3.1 脚步声压级信号处理 |
2.3.2 脚步声信号起始点检测 |
2.4 本章小结 |
第3章 特征参数提取与高斯混合模型建立 |
3.1 特征参数提取 |
3.1.1 MFCC特征参数提取 |
3.1.2 PLP特征参数提取 |
3.2 高斯混合模型建立与参数估计 |
3.2.1 高斯混合模型构建 |
3.2.2 高斯混合模型训练 |
3.2.3 高斯混合模型参数初始化 |
3.3 脚步声身份识别判决准则 |
3.4 本章小结 |
第4章 高斯混合模型仿真验证及结果分析 |
4.1 特征参数对识别结果的影响 |
4.1.1 特征参数帧长与帧移的关系探究 |
4.1.2 特征参数维数对识别结果的影响 |
4.1.3 特征参数帧长对识别结果的影响 |
4.1.4 特征参数影响因素探究结果 |
4.2 脚步声身份辨认系统性能测试及特征参数优化 |
4.2.1 训练数据、测试数据长度对识别结果的影响 |
4.2.2 特征参数优化 |
4.2.3 闭集脚步声身份辨认系统性能探究及特征参数优化结果 |
4.3 脚步声身份确认系统性能测试 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 工作总结 |
5.2 研究展望 |
参考文献 |
攻读硕士期间发表的论文和参与的课题 |
致谢 |
学位论文评阅及答辩情况表 |
(8)抑郁障碍人群语料库的建设及分析研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景及意义 |
1.2 研究现状及发展趋势 |
1.3 论文主要研究内容及结构安排 |
1.3.1 本文主要研究内容 |
1.3.2 本文结构安排 |
1.4 本章小结 |
第2章 相关抑郁语料库及声学特征概述 |
2.1 抑郁语料库介绍 |
2.2 声学特征提取 |
2.2.1 预处理 |
2.2.2 特征提取 |
2.3 声学特征概述 |
2.3.1 韵律特征 |
2.3.2 谱特征 |
2.3.3 其它特征 |
2.4 本章小结 |
第3章 抑郁障碍人群语料库建设 |
3.1 文本语料设计 |
3.1.1 发声练习 |
3.1.2 语音朗读 |
3.1.3 自由响应 |
3.1.4 随意讲话 |
3.2 文本语料评测 |
3.2.1 评测方式 |
3.2.2 评测过程 |
3.2.3 结果分析 |
3.3 语音语料获取 |
3.3.1 被试筛选 |
3.3.2 语音采集 |
3.4 本章小结 |
第4章 语音声学特征对比 |
4.1 声学特征参数集 |
4.2 分析方法概述 |
4.3 特征对比分析 |
4.3.1 基于言语方式的对比分析 |
4.3.2 基于情绪刺激的对比分析 |
4.3.3 基于自我参照加工的对比分析 |
4.3.4 显着性分析结果对比 |
4.4 相关性分析 |
4.5 本章小结 |
第5章 基于语音声学特征的抑郁识别 |
5.1 LIBSVM简介 |
5.2 语料数据 |
5.3 实验框架 |
5.4 结果分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
附录 A 实验文本材料 |
附录 B 贝克抑郁自评量表(BDI) |
附录 C 知情同意书 |
个人简历、在学期间发表的学术论文及研究成果 |
(9)基于深度学习的说话人识别研究与应用(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 选题背景及意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 说话人识别研究现状分析 |
1.2.1 传统的说话人识别研究历史 |
1.2.2 基于深度学习的说话人识别研究现状 |
1.3 论文主要工作 |
1.4 论文组织结构 |
第2章 说话人识别相关技术概述 |
2.1 说话人识别概述 |
2.1.1 说话人识别分类 |
2.1.2 说话人识别原理 |
2.1.3 说话人识别系统框架 |
2.2 说话人识别性能评价指标 |
2.2.1 识别准确率与F1值 |
2.2.2 检测错误权衡曲线与等错误率 |
2.2.3 最小检测损失 |
2.2.4 Top-N正确率 |
2.3 语音特征参数 |
2.3.1 梅尔频率倒谱系数 |
2.3.2 滤波器组系数 |
2.3.3 语谱图特征参数 |
2.4 深度学习技术 |
2.4.1 卷积神经网络 |
2.4.2 循环神经网络 |
2.5 本章小结 |
第3章 基于多特征融合的语音特征提取方式研究 |
3.1 引言 |
3.2 多特征融合方案 |
3.2.1 多特征融合 |
3.2.2 特征参数设计 |
3.2.3 特征提取流程 |
3.3 基于卷积神经网络的验证实验 |
3.3.1 实验数据 |
3.3.2 实验设计 |
3.3.3 说话人确认测试 |
3.3.4 说话人辨认测试 |
3.3.5 说话人特征可视化 |
3.3.6 实验总结 |
3.4 基于循环神经网络的验证实验 |
3.4.1 实验设计 |
3.4.2 说话人确认测试 |
3.4.3 说话人辨认测试 |
3.4.4 说话人特征可视化 |
3.4.5 实验总结 |
3.5 本章小结 |
第4章 基于说话人全局中心的端到端损失函数 |
4.1 引言 |
4.2 说话人识别任务中常用的损失函数 |
4.2.1 交叉熵损失函数 |
4.2.2 三元组损失函数 |
4.2.3 端到端损失函数 |
4.3 常用损失函数性能对比实验 |
4.3.1 实验设计 |
4.3.2 说话人确认测试 |
4.3.3 说话人辨认测试 |
4.3.4 说话人特征可视化 |
4.3.5 模型收敛性分析 |
4.3.6 实验总结 |
4.4 全局中心端到端损失函数 |
4.4.1 说话人的全局中心向量 |
4.4.2 GC_GE2E的使用方式 |
4.5 GC_GE2E中超参数取值研究实验 |
4.5.1 实验设计 |
4.5.2 中心向量更新系数α取值研究 |
4.5.3 联合训练损失权重λ取值研究 |
4.5.4 实验总结 |
4.6 GC_GE2E损失函数有效性验证实验 |
4.6.1 实验设计 |
4.6.2 实验数据 |
4.6.3 说话人确认测试 |
4.6.4 说话人辨认测试 |
4.6.5 实验总结 |
4.7 本章小结 |
第5章 基于多尺度卷积残差网络的说话人识别算法 |
5.1 引言 |
5.2 说话人识别模型构建 |
5.2.1 多尺度卷积残差模块 |
5.2.2 说话人识别网络模型 |
5.3 说话人识别模型有效性验证实验 |
5.3.1 实验数据 |
5.3.2 基线模型 |
5.3.3 实验设计 |
5.3.4 说话人确认测试 |
5.3.5 说话人辨认测试 |
5.3.6 特征可视化分析 |
5.4 说话人识别模型鲁棒性验证实验 |
5.4.1 实验数据 |
5.4.2 实验设计 |
5.4.3 实验结果分析 |
5.5 本章小结 |
第6章 基于说话人识别的身份核验与识别系统 |
6.1 系统设计 |
6.1.1 系统架构设计 |
6.1.2 系统流程设计 |
6.1.3 系统功能设计 |
6.2 系统实现 |
6.3 系统运行结果展示 |
6.3.1 声纹注册功能展示 |
6.3.2 身份核验功能展示 |
6.3.3 身份识别功能展示 |
6.4 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(10)基于神经网络特征映射的声纹识别技术研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 本文研究内容 |
1.4 论文章节安排 |
第二章 相关理论基础 |
2.1 传统单通道语音去噪算法 |
2.1.1 谱减法 |
2.1.2 维纳滤波法 |
2.1.3 OMLSA算法 |
2.2 声纹识别基础理论 |
2.2.1 预处理 |
2.2.2 语音特征参数 |
2.2.3 识别模型 |
2.3 神经网络基础理论 |
2.3.1 全连接神经网络 |
2.3.2 生成对抗神经网络 |
2.4 声纹识别系统性能的评测准则 |
2.5 本章小结 |
第三章 基于深层神经网络的特征映射 |
3.1 系统总体框架 |
3.2 FMDNN的模型结构与输入输出 |
3.3 FMDNN的训练过程 |
3.4 仿真实验和结果分析 |
3.4.1 实验配置 |
3.4.2 实验结果分析 |
3.5 本章小结 |
第四章 基于Wasserstein生成对抗神经网络的特征映射 |
4.1 Wasserstein生成对抗神经网络 |
4.2 基于FMWGAN的特征映射 |
4.3 仿真实验和结果分析 |
4.4 本章小结 |
第五章 声纹识别程序的实现与测试 |
5.1 程序功能需求和性能需求分析 |
5.1.1 程序功能需求分析 |
5.1.2 系统性能需求分析 |
5.2 声纹识别程序系统设计 |
5.2.1 系统结构设计 |
5.2.2 系统功能设计 |
5.3 系统的实现 |
5.3.1 系统开发环境 |
5.3.2 语音采集模块实现 |
5.3.3 预处理模块及特征提取模块的实现 |
5.3.4 用户声纹信息注册模块的实现 |
5.3.5 说话人识别模块实现 |
5.3.6 连续语音说话人识别模块的实现 |
5.4 程序测试 |
5.4.1 程序功能测试 |
5.4.2 程序性能测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 后续展望 |
致谢 |
参考文献 |
四、Comparison of Different Implementations of MFCC(论文参考文献)
- [1]基于频谱特征的异常声音监测研究与应用[D]. 荆诗雨. 北京石油化工学院, 2021(02)
- [2]基于声音信号的带式输送机故障诊断系统研究[D]. 孙永明. 曲阜师范大学, 2021(02)
- [3]基于声发射的法兰螺栓智能检测技术研究[D]. 刘彬彬. 江南大学, 2021(01)
- [4]低功耗混合信号域语音MFCC特征提取电路设计[D]. 张彦明. 北京交通大学, 2021
- [5]电力变压器局部放电超声信号的声纹识别方法研究[D]. 周梦茜. 华北电力大学(北京), 2021(01)
- [6]基于深度学习的语音情感识别算法的设计与实现[D]. 吴虹蕾. 黑龙江大学, 2021(09)
- [7]基于高斯混合模型的脚步声身份识别方法[D]. 房玉杰. 山东大学, 2021(12)
- [8]抑郁障碍人群语料库的建设及分析研究[D]. 李艳芹. 西北师范大学, 2021(12)
- [9]基于深度学习的说话人识别研究与应用[D]. 张兴明. 四川大学, 2021(02)
- [10]基于神经网络特征映射的声纹识别技术研究与实现[D]. 刘余. 电子科技大学, 2021(01)