一、稳健语音识别技术发展现状及展望(论文文献综述)
黄志[1](2021)在《人工智能对经济增长的影响研究》文中指出纵观人类社会的演进历程,技术创新一直是推动地区乃至国家经济发展的内生动力,是各国抢占国际竞争高地的重要手段。近年来,随着互联网技术迅猛发展、计算机运算能力和运算速度大幅提升以及算法有效性取得极大突破,人工智能在世界范围内取得了突破性进展,并迅速将人类社会送入了智能时代,加速改变着人类社会生产生活的各个方面。基于此,世界各国纷纷围绕人工智能展开了新一轮角逐,美、日、德、法等国先后颁布了一系列扶持人工智能产业发展的政策措施,以期借人工智能之势在新的历史时期抢占国际竞争中的优势地位。就中国而言,人工智能作为一项引领新一轮科技革命和产业变革的战略性技术,正在受到党中央的高度关注。习近平总书记在2018年10月31日政治局第九次集体学习时强调,要推动我国新一代人工智能健康发展。在2018年12月21日中央经济工作会议上再次强调要加强人工智能等新型基础设施建设。在2019-2020年,进一步强调要积极推动人工智能与媒体、教育、社会治理以及疫情防控等领域深度融合。届此,中国的人工智能及其与经济社会深度融合踏上了新征程。人工智能作为一种技术进步,在与经济社会的深度融合过程中具体表现为各种有形(机器人)和无形(算法、系统等)的技术创新。那么,人工智能技术创新如何影响经济增长?通过什么渠道影响经济增长?“索洛悖论”是否存在?从长期而言,是否会使经济呈现指数级增长趋势?从国际层面而言,人工智能在全球范围内的加速渗透是否会进一步扩大未来南北差距?围绕人工智能的这一系列问题具有相当重要性,但目前尚未有系统性研究,甚至在一些方面仍存在研究空白。为此,论文以经济学为主,结合计算机科学、哲学、数学等多学科理论知识,综合运用历史分析与比较分析相结合、归纳与演绎相结合、理论研究与实证分析相结合、静态分析与动态分析相结合等研究方法,按照“总-分-总”的结构谋篇布局,以研究人工智能对经济增长影响效应。论文主要内容如下:总论部分在系统梳理相关文献、详细阐述理论基础以及清晰刻画人工智能影响经济增长的典型事实基础上,探析了人工智能在向经济社会渗透过程中表现出的四大经济效应:智能渗透效应、边界延展效应、知识创造效应和自我深化效应,并对影响经济增长的三大主要因素(劳动、资本和生产技术)进行分析。在此基础上,通过分析人工智能四大经济效应作用于劳动、资本和生产技术对经济增长的影响效应,提出由劳动渠道、资本渠道和生产率渠道三条渠道构成的人工智能影响经济增长的总体分析框架。分论部分将理论分析和实证检验相结合逐一探讨了人工智能影响经济增长的劳动渠道、资本渠道和生产率渠道。此外,由于数据不可得,无法通过实证分析的方式来识别人工智能对长期经济增长的影响,因此,本文基于理论层面,进一步探讨了人工智能对长期经济增长以及未来南北差距产生影响的作用机理。研究发现:第一,人工智能技术创新能够显着促进经济增长,长期经济增长甚至存在指数级增长的可能。人工智能作为新一轮技术进步最显着的技术创新,与传统技术创新相似,能够为区域乃至国家经济增长提供动力源泉,显着推动宏观经济增长。但与传统技术创新不同的是,人工智能能够通过实现自动化知识生产,为经济提供更强的增长效应,长期而言,如果智能自动化技术进步与新任务边界延展规模一致,经济将实现指数级增长。但不容忽视,人工智能与经济社会渗透融合并非一蹴而就,而是会经历导入阶段、拓展阶段和成熟阶段等阶段的积累和调整过程。因此,人工智能并非一开始就能对经济增长产生促进作用,在人工智能的导入阶段,将对经济增长产生负向效应。人工智能具有“当代与未来贯通的长期性”,经过导入阶段的积累和调整过程,对经济增长的促进作用才得以显现,长期而言,经济存在指数级增长的可能,但同时伴随着南北差距的扩大。自主创新成为缩小未来南北差距的关键,而提升欠发达国家的技术引进效率仅能够缓解南北差距扩大的趋势。第二,人工智能的发展伴随而来的是劳动力从机械化、知识创造性低的工作和既定程序的开放型脑力劳动中解放出来,而新工作岗位对劳动力的素质和技能要求不断提升,带来高技能劳动力需求扩大和实际工资水平提高,进而对经济高质量增长产生推动作用。劳动是人工智能技术创新促进经济增长的重要渠道之一,劳动渠道主要通过劳动就业路径和劳动收入路径促进经济增长。从劳动就业路径而言,人工智能能够将劳动力从繁琐的工作中解放出来,与此同时,创造新的就业需求,拉动劳动力就业,推动经济增长;从劳动收入路径而言,人工智能能够带来更高的劳动收入水平,对经济增长表现出显着的正向效应。目前,人工智能发展的同时,工作任务标准化、劳动力素质和技能提升以及智能渗透引致就业均能缩小技能收入差距,技能收入差距并未呈扩大趋势,将对经济增长产生正向效应,但不容忽视的是,目前人工智能与经济社会渗透融合尚处于拓展初期,边界延展对技能收入差距的扩大效应并未得到完全释放,未来仍然存在技能收入差距扩大的潜在风险。另外,人工智能在与经济社会渗透过程中同样潜伏着风险和挑战,尤其是在人工智能的导入阶段,会带来智能机器挤出劳动就业,降低劳动收入水平,并加剧收入不平等,进而抑制经济增长。只有经过导入阶段的调整和技术积累,人工智能的经济增长效应才能真正发挥作用。第三,人工智能在经济社会的快速渗透将吸引更多的资本积累,增加资本投资,提升资本的生产效率,对宏观经济增长产生支撑作用。资本是人工智能技术创新促进经济增长的又一渠道,而这一渠道主要通过资本积累路径和资本结构路径发挥作用。就资本积累路径来看,在人工智能的导入阶段,人工智能资本增加的同时挤出传统资本,由于增加的人工智能资本难以弥补挤出的传统资本,进而资本积累下降,抑制经济增长,但经过导入阶段的调整和技术积累,人工智能能够吸引更多的资本投资,增加资本积累,且增长幅度大于下降幅度,进而资本积累总体呈上升趋势。中国作为最大的发展中国家,资本积累尚存在较大空间,通过增加资本积累能够促进经济增长。就资本结构路径来看,受行业工作任务特征的影响,人工智能的渗透难度存在行业差异。由于产品生产部门智能渗透相对容易,将吸引大量人工智能资本和部分传统资本流入,而服务部门智能渗透难度大,该部门新增的高技能岗位将吸引大量传统资本流入。在两种资本的流动过程中,无论是产品生产部门大量采用人工智能资本替代劳动力,还是服务部门部分采用人工智能资本替代劳动力,传统资本与高技能劳动力相结合进行生产,都将提升资本的生产效率,促进经济增长。第四,人工智能的发展能够突破“索洛悖论”的怪圈,显着提升技术效率,最终体现为全要素生产率的增长,为经济增长提供力量源泉。生产效率是除劳动和资本外人工智能技术创新促进经济增长的又一渠道,而这一渠道包括技术进步路径和技术效率路径。但实证发现,生产率渠道主要通过技术效率路径发挥作用,技术进步路径的作用并不显着。具体而言,现阶段,人工智能技术创新对促进技术传播和扩散、科学发现与发明以及技术革新和改进等的作用并不显着,难以通过技术进步路径实现经济增长。但能够提升其他生产要素间衔接配合的契合度,补充或增强传统生产要素,带来微观主体的管理方式、社会管理方式以及经济社会组织运行的模式不断改革,改善要素质量与配置效率,进而驱动经济增长。然而,人工智能并非一开始就能提升全要素生产率,同样需要调整和技术积累的过程。人工智能在导入阶段,由于“索洛悖论”的存在,对经济增长的促进作用并不明显,但随着人工智能在行业应用的逐渐成熟,“索洛悖论”将消失,全要素生产率显着提升,且提升幅度大于前期的下降幅度,进而实现经济增长。最后对论文的研究结论进行总结,并就中国人工智能发展提出了政策建议。另外,本文可能的创新之处主要体现在以下三个方面:第一,多角度、综合系统地分析了人工智能影响经济增长的三条渠道,补充和拓展了人工智能与经济增长的相关研究。围绕人工智能与经济增长的已有研究往往直接指出人工智能对经济增长的影响方向,而缺乏作用机理分析,或者从某一方面研究人工智能对经济增长的影响,缺乏多视角、综合系统的研究。本文基于人工智能影响经济增长的典型事实,从劳动、资本和生产率等多角度出发,综合系统地分析了人工智能影响经济增长的作用渠道,在一定程度上补充和拓展了已有的相关研究:(1)劳动渠道。人工智能的发展伴随着劳动力从机械化、知识创造性低的工作和既定程序的开放型脑力劳动中解放出来,创造的新就业岗位带来高技能劳动力需求扩大和实际工资水平提高,推动经济高质量增长,与此同时,人工智能也将带来技能溢价,加剧收入不平等,进而抑制经济增长。(2)资本渠道。人工智能能够增加资本积累,带来人工智能资本和传统资本在行业流动,提升资本的生产效率,推动经济增长。(3)生产率渠道。人工智能在行业的应用过程中能够提升其他生产要素间衔接配合的契合度,补充或增强传统生产要素,带来微观主体的管理方式、社会管理方式以及经济社会组织运行模式不断改革,改善要素质量与配置效率,进而驱动经济增长。第二,考虑了人工智能对经济社会产生影响的阶段差异,从理论上科学、全面地认识了人工智能在渗透融合的不同阶段对经济社会的风险与机遇。人工智能向经济社会渗透融合并非一蹴而就,而是会经历从导入到不断成熟的过程,因此,其对经济社会的作用效应也将存在阶段差异。Hémous&Olsen(2015)、王君等(2017)等研究注意到了人工智能对劳动就业和收入差距产生影响的阶段差异,但在人工智能的其他相关研究中并未受到重视。因此,围绕人工智能与经济增长的已有研究均未考虑人工智能产生影响的阶段差异,进而忽略了人工智能对经济社会产生影响的调整过程,而调整过程往往伴随着风险与挑战。因此,缺乏这一考虑,可能导致研究结论出现偏差。本文将人工智能产生影响的阶段差异引入分析过程,分析了人工智能在与经济社会渗透融合的不同阶段通过作用于劳动、资本和生产率对经济增长的作用效应,明确了人工智能风险和机遇的阶段存在性。在一定程度上,这是对既有人工智能与经济增长相关研究的一个重要补充。第三,从行业层面出发,探索出了一种衡量人工智能发展水平的方法,弥补了目前人工智能相关研究在数据选择上的不足。受相关数据可得性的限制,国内围绕人工智能的实证研究较少,已有的实证研究主要采用工业或制造业机器人数据进行研究,并不能全面反映人工智能在整个国民经济行业的渗透情况,得到的结论存在片面性。本文采用人工智能相关专利申请量作为衡量人工智能发展水平的代理变量。基于本文对人工智能的界定,分别以“人工智能”“算法”“专家系统”“机器人”为关键词,在Patenthub专利汇全球专利数据库搜索专利数据,将重复的数据进行剔除,并将得到的人工智能专利数据根据三个层次分入我国国民经济各行业。第一个层次:按国际专利分类(IPC)主分类号归类;第二个层次:难以按IPC号分类的专利数据按照《国际专利分类与国民经济行业分类参照关系表》归类;第三个层次:剩余的专利数据按用途划分。最后形成2003-2018年19个行业人工智能专利绝对量的面板数据。这一数据清晰地反映了人工智能在不同行业的渗透情况,以及对不同行业产生的影响效应。基于此,实证检验了人工智能的经济效应,克服了人工智能与经济增长相关研究在人工智能代理变量选取上的不足。
王师琦[2](2021)在《基于深度学习的鲁棒语音识别》文中认为针对在噪声、混响等环境下语音识别系统识别率严重下降的问题,本文以深度学习和麦克风阵列信号处理作为主要技术方法,讨论并研究了若干鲁棒语音识别中的关键技术。论文的主要工作与贡献如下:(1)搭建了一个基于混合声学模型的语音识别系统,通过实验,研究了三音素上下文建模、深度神经网络、特征变换技术对识别率所带来的影响,并且评估了这些技术在混响噪声环境下的鲁棒性;(2)在流式语音识别的实际应用中,通常要求系统的预处理前端能够低延迟且实时地处理多个任务,并且对噪声要有很强的鲁棒性。针对上述问题,提出了一种语音增强与语音活动检测的多任务深度学习模型。该模型引入了长短时记忆网络,并以硬参数共享的方式连接了两个任务的输出层,构建了一个适合于实时在线处理的因果系统。实验结果表明,相较串行处理两个任务的基线模型,多任务模型在语音增强结果非常相近、语音活动检测结果更优的情况下,其速度快了44.2%,这对于深度学习预处理模型的实际部署将具有重要的意义;(3)针对传统多通道语音分离算法在扩散噪声下性能下降的问题,提出了一种用于语音分离及降噪的空间协方差模型及参数估计方法。该方法将扩散噪声视为独立声源,利用由声学传递函数重构的空间协方差矩阵建模目标声源的空间特性,并通过空间协方差分析方法估计用于语音分离的多通道维纳滤波器。同时,还提出了一种联合该方法的后置滤波器参数框架,为输出信号降噪和失真的折中提供了更多选择。在扩散噪声下的语音分离实验中,所提方法的分离性能要优于其他对比算法,联合参数的后置滤波器可提供更为符合人们要求的降噪语音,验证了所提模型与参数估计方法的有效性。另外,在鲁棒语音识别实验中,所提方法无论是在扩散噪声还是点声源噪声环境下,增强后的语音识别率都有显着的提高,且优于其他对比方法,验证了其作为鲁棒语音识别前端处理系统的有效性。
祁潇潇[3](2021)在《基于深度学习与双微阵列的语音命令词识别研究》文中提出语音交互式设备正在改变人们的生活方式,在智能家居、车载语音设备中应用广泛,通过语音将设备唤醒,是一个具有挑战的问题,但是在复杂环境下,语音设备如何能够准确接收指令是一个难点。本文研究了基于Res Net网络与双微阵列的语音命令词识别方法,提高了命令词的识别率,论文的重点任务如下:1.研究了一种结合循环神经网络语音端点检测算法,该算法是将含噪语音通过傅里叶变换转换成频谱图,从频谱图中找到频率活跃点,然后通过卷积-门控循环神经网络进行训练,最后对训练结果进行预测。使用双向门控循环单元(Bi GRU)网络、双向长短时记忆(Bi LSTM)网络和CNN-Bi GRU三种网络在信噪比为-10d B、0d B、10d B的环境中行实验。从实验的结果来看,在信噪比为-10d B、0d B、10d B的环境中,基于CNN-Bi GRU网络模型的预测准确率均高于其他两种网络模型。2.研究了一种结合差分麦克风阵列与自适应降噪的双麦克风语音增强算法。该算法利用一阶麦克风阵列技术,使用自适应算法进行降噪,最后使用对数MMSE算法作为后置滤波。实验表明,该算法能够抑制方向性噪声干扰问题,改善了语音质量。3.研究了一种基于双微麦克风阵列与宽残差网络的命令词识别算法。该算法在原始的残差模块的基础上拓宽了网络的宽度,减小了网络的深度,但是整体网络参数没有改变。算法结合双微麦克风阵列系统,语音数据集为双微麦克风数据集,使用功率归一化倒谱系数作为特征参数输入到残差网络中进行训练。实验表明,与Res Net15模型、Res Net18模型相比,只有三个残差模块的宽残差网络在噪声环境下语音命令词的识别和内外部说话人检测任务中有具有较高的准确度,均达到了95%以上。
冯晓静[4](2021)在《模糊语音的双模态抗噪特征提取研究》文中研究指明语音识别技术在人工智能的推动下再一次迎来发展的热潮。人们迫切的希望在实际的生活当中,也能与智能机器有更好的交流,让机器听懂人们的语言,按照人们发布的指令正确的完成应答操作。但当下,语音识别技术走出实验室进入生活仍存在一些技术性难题。在没有噪声或者噪声很小的环境中,语音识别系统识别效果良好,会有较高的识别率;但当在背景噪声很大,或者识别环境更复杂的情况下,识别系统的性能就不如实验室安静环境下理想。所以研究复杂环境下语音识别系统的强健抗噪性仍具有重要的意义。汉语普通话当中存在发音机理上相近、听觉上容易混淆并且容易被智能机器识别错误的模糊语音,而语音识别系统的性能很大程度上取决于语音特征参数的选取,所以本文从发音机理和听觉特性两个方面入手,对模糊语音的抗噪特征进行分析研究。1、在课题组的帮助下,利用德国生产的三维电磁发音仪采集发音器官的运动轨迹信息,同时使用专业录音设备,同步录制语音的音频信号,建立了满足研究要求的双模态模糊语音数据集,其中包括语音的音频信号和发音器官运动信号两种模态。以此数据集作为实验样本进行特征提取研究。2、介绍了实验所选的语音识别系统,描述了识别系统操作流程框架,并且重点分析了其中的特征提取和识别分类网络两个关键步骤。接着介绍了四种韵律特征的提取方法,主要包括包括基音频率、短时平均能量、短时平均幅度以及共振峰等。对比分析了包括人工神经网络(Artificial Neural Network,ANN)、随机森林(Random Forest,RF)以及支持向量机(Support Vector Machine,SVM)在内的三种分类识别网络,以及它们各自适用的情况和优缺点,根据自建数据集数据量的大小,决定选用支持向量机作为识别系统的分类网络。3、从声学信息出发,以耳蜗倒谱特征(Cochlear Filter Cepstral Coefficients,CFCC)为基础,结合不同的非线性变换对CFCC进行改进。由于语音信号是一种非平稳时变信号,对比了短时傅里叶变换和小波变换处理非平稳信号的方法,引入S变换来对语音信号进行时频转换,同时借鉴性的运用奇异值分解(SVD)来抑制带宽随机噪声,提取新的声学特征参数(S-Transformation cepstrum features of cochlear filter,ST-CFCC)4、从语音的发音机理出发,分析语音的发音器官运动轨迹,选取舌部以及下颌来提取发音运动特征。同时提出发音倒谱系数(Articulatory Cepstral Coefficients,ACCs)也作为运动特征,它是时间定位发音信号的倒谱系数。对比分析不同运动特征的可行性及分类结果。5、从特征层出发进行声学特征和运动学特征的双模态特征融合研究。联合使用核主成分分析以及线性典型相关分析来完成模态内特征降维和跨模态级的特征融合,对融合后的特征向量设计对比实验,进一步验证了双模态融合特征相较于单模态特征的优势以及融合方法的有效性,提高了语音识别系统的性能。
惠国强[5](2021)在《基于深度学习的实时民航语音识别算法设计与实现》文中指出语音识别技术的目标是将语音转换为文本,可以应用到翻译、教育、军事、医疗等领域来提高工作效能。本文主要研究基于深度学习的实时民航语音识别算法,进行语音特征与对应文本之间的转换,实现民航指令的实时转录。通过对已有算法的设计思想与建模方法进行深入分析后,发现这些算法存在以下几个问题:第一是基于CNN的模型因为只依赖于有限上下文进行预测,所以比较适合实时语音识别,但由于模型深度较大,并且为了在有限的深度下获取更大范围的感受野,采用较大的卷积核,这就造成模型的参数量多,计算复杂度高,增加了模型的延迟时间,难以满足实时需求;第二是目前大多数语音识别模型都是基于神经网络实现,而这一类模型的性能依赖于大规模的标注语料库,其中端到端模型更是如此,但是在民航领域有对应文本的语音很难得到,因此无法取得大规模的民航领域文本和语音,导致端到端模型难以取得好的表现;第三是现有的语料库大多是相对安静的环境下采集得到的,使用这种数据训练得到的模型在转录包含噪声的语音时效果往往会很差,乃至难以使用。本文针对上述问题进行研究,提出相应的解决方案,主要贡献如下:(1)提出基于迁移学习的实时民航语音识别算法。针对问题一,采用可分离卷积来减少模型的参数和计算量。针对问题二,引入迁移学习的思想,首先利用大规模开放语料库来训练模型的转录能力,模型收敛后再利用小规模的民航领域语料库来进行领域适应,从而使模型可以在民航领域取得较好的效果,并且具有在开放域的泛化性。实验结果表明,所提出的算法在民航领域具有较好的识别效果且处理速度更快。(2)提出基于Attention的深度循环网络语音增强算法。针对问题三,考虑到语音增强算法提高语音清晰度的能力可用于语音识别的前端,采用深度循环网络来对语音进行增强,并利用注意力机制获取上下文信息的能力,进一步提升增强效果。通过和基准算法进行对比,检验了算法的合理性和优越性。(3)基于前面提出的基于迁移学习的实时民航语音识别算法设计并实现了面向民航的实时语音识别系统。对民航领域的语音识别需求进行分析,然后设计并实现了语音识别系统,最后对系统进行了测试。
梁新强[6](2020)在《PC构件布料机控制研究与应用》文中研究指明装配式建筑在我国进入了高速发展时期,提升PC构件布料机的功能和效率成为设备厂家和有关机构的研究热点。在人机交互效率方面,目前的遥控器或触摸屏交互方式存在输入不便或观察不便等问题,因其设备功能单一、不便扩展,效率提升困难,而智能移动终端的日益广泛应用和开放式用户通信的出现为解决此问题提供了有效途径。本文的目的就是在开放的标准以太网通信下用智能移动终端取代遥控器和触摸屏来进行布料机控制,提供灵活的功能和智能化扩展,且兼具产品通用性。本文通过对当前布料机控制模型和交互方式的分析评价与改进,提出基于以太网开放式用户通信的智能移动终端布料机控制模型,结合MVC编程思想,将控制分成数据识别、数据整理、数据传输三个层次,以达到较高的灵活性和通用性。在布料机现场环境中,智能移动终端经过Wi Fi与PLC进行开放式用户通信的效果尚无据可考,因此进行了通信实验,验证了通信的高效和可靠。针对布料机的控制特点定义基于UDP传输的通信协议和标志、校验以及数据桢格式增强数据安全性,并将数据传输流程抽象为数据传输引擎,以增强系统结构通用性。针对智能移动终端缺少工控组件支持的情况,在对布料机控制信号进行研究的基础上,仿造触摸屏设计“虚拟组态按钮”,仿造遥控器实体按钮接线方式设计“虚拟端子排”和“虚拟接线”过程,将以上数据识别过程抽象为数据识别引擎,以简化系统程序设计。发现了智能移动终端多点触控下的控制按钮复归失败问题,并给出了两个应对方法。将智能移动终端的语音输入应用在了布料机的参数输入上,提出了三个语音输入物料名和叫料量的方法。将以上研究内容在一个典型的12门布料机控制系统上进行了实现和应用。提高了布料效率,同时便于在原有布料机系统上升级,对于产品的标准化和可维护性具有一定的实践意义。该论文有图84幅,表13个,参考文献88篇。
张振[7](2020)在《基于时延神经网络的口语理解方法研究》文中进行了进一步梳理口语对话系统(Spoken Dialogue System,SDS)的设计目标是让人们与计算机能够通过口语交流。口语理解是将人们所说的口语转换成计算机可以理解和可操作的标签序列,从而对用户的请求做出回答。因此口语对话系统的性能在很大程度上取决于口语理解(Spoken Language Understanding)模块。口语理解通常包含两个任务:意图识别和槽值填充。意图识别被视为分类问题,槽值填充被视为是序列标注问题。而在口语理解中,目标词的上下文信息对预测其标签至关重要,相同的词如果拥有不同的上下文信息,那么这个词所对应的的标签也会有所不同。循环神经网络RNN对于处理序列化数据十分的擅长。RNN是通过单词的输入顺序从而间接的学习到上下文信息,当句子过长时RNN很难捕获单词在句子中的上下文信息。虽然通过为目标词添加词窗的方法能够使RNN获取目标词的上下文信息,但是使用添加词窗的方法在RNN模型上包含的上下文信息是十分有限的。为了对单词上下文进行建模,我们使用时延神经网络对序列进行建模。我们通过增加TDNN的网络层数,从而获取更广的上下文信息。然而随着网络层数的加深,梯度消失是不可避免的问题。残差连接和梯度剪切是解决梯度问题的两种主要的方法。受残差网络的启发,我们在多层TDNN中加入残差结构,命名为Res TDNN。Dense Nets以前馈的方式将每一层输出连接到其他层,从而缓解梯度消失问题。受Dense Nets的启发,我们提出了以一种前馈的方式连接特定的TDNN层的输出,该网络被称为SC-TDNN。在Res TDNN中,不同的TDNN层的输出将被跳过相加,而SC-TDNN重新利用了目标词在不同TDNN层的特征表示。这样SC-TDNN能够获取更丰富的上下文信息,并且大大减少了模型的参数量。在航空旅行信息系统(ATIS)和SNIPS基准数据集上进行的槽填充任务实验表明,Res TDNN和SC-TDNN均获得了很好的效果,并且在与RNN结合之后显着地提升了RNN模型的效果。
卜玉婷[8](2020)在《基于双微阵列的语音命令词识别研究》文中提出近年来,随着智能家居和语音助手等产品的大量涌现,真正实现了智能语音识别从科研机构到市场应用的转型。智能语音交互正改变着人们的生活方式,命令词识别技术作为设备交互和语音控制的手段也受到了广泛关注。命令词识别的应用场景都是一些计算能力不大的小功耗设备,如语音助手、语音导航、可穿戴设备等。评价一个命令词识别系统性能的指标有唤醒率、虚警率、实时率以及用户体验和功耗水平,这些都是系统设计的难点所在。因此,如何提高复杂环境下命令词识别的稳健性对现阶段研究人员来说是一个挑战,对此,本文研究了改善实时响应、降低功耗以及提高系统稳健性的命令词识别方法。本论文的主要研究成果概述如下:1.研究了一种低信噪比环境下的端点检测算法,该算法首先通过抑制非平稳噪声再采用调制域谱减消除残余噪声从而提升信噪比,减少语音失真,然后再提取每帧信号的功率归一化倒谱系数,并计算其倒谱距离,最后将该倒谱距离作为检测参数,采用双门限判决方法进行检测。结果表明,该端点检测算法通过抑制非平稳噪声再使用调制域谱减消除残余噪声使得算法可用于过滤非语音信号,改善命令词识别系统在复杂噪声环境下的实时响应性能,减少功耗,具有一定实用价值。2.研究了一种基于双微麦克风阵列结合深度残差网络的命令词识别系统,采用改进的残差模型Res Nets15构建命令词识别系统,同时利用扩张卷积提升感受野增强模型性能,系统采用双微麦克风阵列数据集并提取功率归一化倒谱系数作为特征参数输入残差网络进行训练,训练后的命令词识别精度达到了95%以上,同时增加了更深层模型Res Nets50,网络的精度和模型内存占用以及功耗均可满足部署移动设备的需求,该多任务系统尤其适用于残障人士语音控制设备,其能够专注于用户的指令减少外部说话人干扰,实现高精度命令词识别。
陈晨[9](2020)在《二元工作旺盛感:主管支持/阻抑和自我调节的影响》文中认为作为组织心理学界的新生构念,二元工作旺盛感探索由于动机内化过程的差异,导致的组织个体工作旺盛感的“质”的差异。构念维度上,二元工作旺盛感包括主动旺盛感和被动旺盛感。二元工作旺盛感的最大贡献在于,与现实生活中存在的“形同而神异”的工作旺盛感相呼应,从“质”的视角突破了学术界原有的工作旺盛感构念体系。目前,学术界对主动和被动旺盛感的探索,从短期视角,论证了工作旺盛感的内在二元性。从“形同”上讲,两类旺盛感均会对工作绩效,情感承诺等行为结果产生正向的促进作用。然而,主动比被动旺盛感能带来更多的积极行为结果。从“神异”上讲,两类旺盛感会给个体的情绪体验和身心健康带来截然相反的影响。主动旺盛感可提升个体的积极情绪体验,增益其身心健康水平;被动旺盛感则会加重个体的消极情绪体验,有损于个体的身心健康水平。然而,造成主动和被动旺盛感的原因尚未可知。事实上,对二元工作旺盛感前因的探索,理论上,既有助于挖掘导致两种差异化旺盛感的因素;也有助于拓展二元工作旺盛感的理论框架(目前二元工作旺盛感的理论基础只有自我决定理论)。实践上,有助于启发管理者从源头上甄别组织个体主动和被动旺盛感的产生原因与机制,甄别有助于主动旺盛感的因素,警惕有助于被动旺盛感的因素,从而助益于维持组织员工积极的工作状态和工作效率的持续性。由此,本文建构了二元工作旺盛感的前因理论模型。具体来说,依据二元工作旺盛感的可变性(或情境依赖性、可调节性)特征,基于自我调节理论、自我决定理论和特质激活理论,从个体外所从属的“领导——下属”关系和个体内特质两大视角,构建了主管支持/阻抑,以及自我调节的调节定向和调节模式影响二元工作旺盛感的前因模型。尤其是,通过将主管支持/阻抑视作“特质激活线索”,构建了主管支持/阻抑会通过激活个体的调节定向或调节模式,进而影响二元工作旺盛感的逻辑链条。同时,多角度验证了在“主管支持/阻抑”的个体外情境因素、“自我调节”的个体内特质因素,以及两者有机交互的视角下,自主和受控动机的中介机制解释作用。本文的主要研究内容如下:研究一:基于二元工作旺盛感的情境依赖性和自我决定理论,运用情境模拟的实验研究,拟验证主管支持/阻抑对主动和被动旺盛感的差异化影响,以及自主和受控动机的中介解释效应。研究二:基于二元工作旺盛感的可自我调节特征、自我调节理论和自我决定理论,拟验证自我调节的调节定向和调节模式对二元工作旺盛感的差异化影响,以及自主和受控动机的中介解释效应。由于调节定向和调节模式在变量性质上均兼具情境性和特质性,因此,采用情境模拟实验,探索了情境性调节定向(研究二(a))和调节模式(研究二(b))对二元工作旺盛感产生的差异化预测作用,以及自主和受控动机的动力机制作用。采用横断研究,探索了具体的特质性调节定向和调节模式对二元工作旺盛感产生的差异化影响,以及自主/受控动机的动力机制作用(研究二(c))。研究三:基于特质激活理论,采用情境模拟实验,拟验证情境性调节定向何以在主管支持/阻抑的情境下被激活,进而产生二元工作旺盛感的,以及主动和受控动机在上述被中介的调节模型中的中介效应。研究四:同研究三,基于特质激活理论,采用情境模拟实验,拟探索情境性调节模式何以在主管支持/阻抑的情境下被激活,进而产生二元工作旺盛感的,以及主动和受控动机在上述被中介的调节模型中的中介效应。上述四个子研究的主要研究结论如下:第一,可基于自我调节理论、自我决定理论和特质激活理论,构建“领导——下属”关系(主管支持/阻抑)和自我调节对二元工作旺盛感的影响前因模型。第二,以主管支持/阻抑为代表的“领导——下属”关系会对主动旺盛感产生显着的正向预测作用;对被动旺盛感产生显着的负向预测作用。第三,自我调节的调节定向和调节模式均会对二元工作旺盛感产生显着的影响。其中,情境性调节定向和情境性调节模式均对主动旺盛感具有显着的正向预测作用;对被动旺盛感具有显着负向预测作用。特质性调节定向中,促进定向会同时对主动和被动旺盛感产生显着的正向影响,预防定向仅会对主动旺盛感产生显着的负向影响。特质性调节模式中,运动模式仅会对主动旺盛感产生显着的正向影响;评估模式仅会对被动旺盛感产生显着的正向影响。第四,特质激活理论的理论框架下,主管支持/阻抑的“领导——下属”关系可以同时调节“情境性调节定向——主动/被动旺盛感”的关系。其中,主管支持在调节“调节定向——主动旺盛感”和“调节定向——被动旺盛感”关系时,分别起着“要求”和“干扰”的特质激活线索作用。主管阻抑在调节“调节定向————主动旺盛感”和“调节定向——被动旺盛感”关系时,均起着“限制”的特质激活线索作用。同上,主管支持/阻抑的“领导——下属”关系可以同时调节“情境性调节模式——主动/被动旺盛感”的关系。其中,主管支持仅在调节“调节模式——主动旺盛感”关系时,起着“要求”的特质激活线索作用;主管阻抑在调节“调节模式——主动/被动旺盛感”关系时,均起着“限制”的特质激活线索作用。第五,自主和受控动机可以有效的解释个体外情境(以“主管支持/阻抑”为代表),以及个体内特质(以“自我调节”为代表)对二元工作旺盛感的影响。尤其是,在“主管支持/阻抑”对“自我调节——二元工作旺盛感”关系产生特质激活的调节作用时,自主和受控动机中介解释作用依然稳健。本研究的主要创新点如下:第一,拓宽了二元工作旺盛感的理论框架。从自我调节理论、自我决定理论和特质激活理论三种理论整合视角,拓展了目前仅有的自我决定理论,进一步验证了二元工作旺盛感的构念体系。第二,本研究是对主动和被动旺盛感前因模型进行探索的首次尝试,为未来学界继续探索个体外情境和个体内特质对二元工作旺盛感的影响提供了初步证据。一方面,本研究将主管支持/阻抑、以及自我调节的调节定向和调节模式纳入二元工作旺盛感的前因范畴。尤其是,验证了主管支持/阻抑会作为“特质激活线索”,调节“情境性调节定向/调节模式——二元工作旺盛感”的关系。另一方面,从动机的视角,论证了自主和受控动机在主管支持/阻抑、自我调节的调节定向和调节模式和二元工作旺盛感间的中介解释作用。第三,研究方法上,综合运用了实验研究和问卷研究,论证了主管支持/阻抑和自我调节会作为前因变量,影响二元工作旺盛感结论的稳健性。
薛蕊[10](2019)在《雷达高分辨距离像噪声稳健识别方法研究》文中指出高分辨距离像(HRRP)具有易获取、处理简单等优点,是实现雷达自动目标识别(RATR)的重要手段。目前很多理论和方法中使用的HRRP样本是通过合作目标飞行试验录取的或者是电磁仿真计算得到的,具有很高的信噪比。但是在实际工程应用当中,识别对象多为远距离目标,获得的HRRP测试样本信噪比往往较低。此时如果采用高信噪比条件下建立的模板库直接对其进行识别,则训练样本与测试样本存在信噪比失配,从而导致识别性能下降。此外,对于非合作目标,想要获得其高信噪比的训练样本用于建库也具有较大的难度。若直接使用低信噪比训练样本学习识别模型,则同样由于信噪比失配等原因会严重影响识别性能。针对以上问题,本文开展了HRRP噪声稳健识别方法研究,主要工作内容概括如下:1.研究了现有的噪声稳健识别方法,主要分为以下三类:(1)回波增强:对录取的回波数据进行去噪声预处理,使用降噪后的数据进行识别;(2)特征补偿或噪声稳健特征提取:在训练阶段提取具有噪声稳健性的特征或者对所提特征进行修正,使得该特征对噪声不具备敏感性,然后将所提特征存入模板库中待识别时使用;(3)模型自适应:使用高信噪比训练样本学习统计模型,然后根据测试样本的信噪比修正模型参数,最后使用分类器进行识别。2.研究了基于加噪匹配的噪声稳健识别方法。该方法首先向高信噪比训练样本中加入不同功率的人工噪声(复高斯白噪声)来获得不同信噪比下的训练样本,然后在训练阶段,分别利用不同信噪比训练样本建立相应的识别模板库。在测试阶段,估计测试样本的信噪比并挑选出与之信噪比匹配的模板进行识别,仿真实验验证了该方法能有效改善识别系统对低信噪比HRRP的识别性能。3.研究了基于统计识别模型参数自适应修正的噪声稳健识别方法。以经典的因子分析(FA)和复数因子分析(CFA)统计识别模型为例,针对“高信噪比HRRP建库低信噪比HRRP识别”和“低信噪比HRRP建库识别”两种典型应用场景,分别提出了相应的模型参数修正方法。仿真实验验证了在这两种应用场景下的模型参数自适应修正方法都能有效的改善识别系统性能。4.提出了基于深度神经网络的噪声稳健识别方法。直接训练适用于低信噪比条件下的识别网络,实现对低信噪比样本端到端的识别。仿真实验验证了该方法能有效改善识别系统对低信噪比HRRP的识别性能。
二、稳健语音识别技术发展现状及展望(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、稳健语音识别技术发展现状及展望(论文提纲范文)
(1)人工智能对经济增长的影响研究(论文提纲范文)
摘要 |
abstract |
1 导论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 文献综述 |
1.2.1 人工智能的相关研究 |
1.2.2 经济增长的相关研究 |
1.2.3 人工智能与经济增长的相关研究 |
1.2.4 研究述评 |
1.3 内容结构、研究方法及技术路线 |
1.3.1 内容结构 |
1.3.2 研究方法 |
1.3.3 研究框架 |
1.4 主要创新点与不足 |
1.4.1 主要创新点 |
1.4.2 不足之处 |
2 概念界定与理论基础 |
2.1 概念界定 |
2.1.1 技术创新 |
2.1.2 人工智能 |
2.2 相关理论 |
2.2.1 技术创新理论 |
2.2.2 经济增长理论 |
3 人工智能影响经济增长的分析框架 |
3.1 人工智能影响经济增长的典型事实 |
3.1.1 世界主要经济体人工智能的发展战略 |
3.1.2 世界主要经济体人工智能的发展现状 |
3.1.3 国内人工智能发展趋势 |
3.2 人工智能的四大经济效应 |
3.2.1 智能渗透效应 |
3.2.2 边界延展效应 |
3.2.3 知识创造效应 |
3.2.4 自我深化效应 |
3.3 经济增长的三大影响因素 |
3.3.1 劳动是经济增长不可或缺的要素投入 |
3.3.2 资本是经济增长至关重要的实现途径 |
3.3.3 生产技术是加速经济增长的动力源泉 |
3.4 人工智能影响经济增长的三大渠道 |
3.4.1 人工智能影响经济增长的劳动渠道 |
3.4.2 人工智能影响经济增长的资本渠道 |
3.4.3 人工智能影响经济增长的生产率渠道 |
3.5 本章小结 |
4 人工智能影响经济增长的劳动渠道 |
4.1 分析基础 |
4.1.1 高低技能劳动者的厘定 |
4.1.2 基本理论假设 |
4.2 人工智能影响经济增长的劳动就业路径 |
4.2.1 智能渗透对劳动就业的影响 |
4.2.2 边界延展对劳动就业的影响 |
4.2.3 就业效应下人工智能对经济增长的影响 |
4.3 人工智能影响经济增长的劳动收入路径 |
4.3.1 智能渗透对劳动收入的影响 |
4.3.2 边界延展对劳动收入的影响 |
4.3.3 收入效应下人工智能对经济增长的影响 |
4.4 劳动就业和劳动收入路径的实证检验 |
4.4.1 研究设计 |
4.4.2 人工智能影响劳动就业和劳动收入的实证检验 |
4.4.3 人工智能、劳动就业和劳动收入影响经济增长的效应分析 |
4.4.4 长期效应分析 |
4.4.5 作用渠道检验 |
4.5 结论:人工智能通过劳动就业和劳动收入影响经济增长 |
5 人工智能影响经济增长的资本渠道 |
5.1 分析基础 |
5.1.1 资本积累与资本结构的概述 |
5.1.2 智能渗透的行业差异 |
5.2 人工智能影响经济增长的资本积累路径 |
5.2.1 智能渗透对资本积累的影响 |
5.2.2 边界延展对资本积累的影响 |
5.2.3 资本积累效应下人工智能对经济增长的影响 |
5.3 人工智能影响经济增长的资本结构路径 |
5.3.1 智能渗透对资本结构的影响 |
5.3.2 边界延展对资本结构的影响 |
5.3.3 资本结构效应下人工智能对经济增长的影响 |
5.4 资本积累和资本结构路径的实证检验 |
5.4.1 研究设计 |
5.4.2 人工智能影响资本积累和资本结构的实证检验 |
5.4.3 人工智能、资本积累和资本结构影响经济增长的效应分析 |
5.4.4 长期效应分析 |
5.4.5 作用渠道检验 |
5.5 结论:人工智能通过资本积累和资本结构影响经济增长 |
6 人工智能影响经济增长的生产率渠道 |
6.1 分析基础 |
6.1.1 全要素生产率的解构 |
6.1.2 基于“生产率悖论”的争议 |
6.2 人工智能影响经济增长的技术进步路径 |
6.2.1 智能渗透对技术进步的影响 |
6.2.2 知识生产对技术进步的影响 |
6.2.3 自我深化对技术进步的影响 |
6.2.4 技术进步效应下人工智能对经济增长的影响 |
6.3 人工智能影响经济增长的技术效率路径 |
6.3.1 智能渗透对技术效率的影响 |
6.3.2 边界延展对技术效率的影响 |
6.3.3 自我深化对技术效率的影响 |
6.3.4 技术效率效应下人工智能对经济增长的影响 |
6.4 技术进步和技术效率路径的实证检验 |
6.4.1 研究设计 |
6.4.2 人工智能影响全要素生产率的实证分析 |
6.4.3 人工智能、全要素生产率影响经济增长的效应分析 |
6.4.4 长期效应分析 |
6.4.5 作用渠道检验 |
6.5 结论:人工智能通过技术进步和技术效率影响经济增长 |
7 进一步分析——人工智能、长期经济增长与未来南北差距 |
7.1 分析基础 |
7.1.1 技术创新与长期经济增长的变化路径 |
7.1.2 基本理论假设 |
7.2 人工智能与长期经济增长 |
7.2.1 基本模型构建 |
7.2.2 模型分析 |
7.2.3 分析结论 |
7.3 人工智能发展与未来南北差距 |
7.3.1 基本模型构建 |
7.3.2 领先国家 |
7.3.3 追随国家 |
7.3.4 模型分析与结论 |
7.4 本章小结 |
8 结论及政策建议 |
8.1 基本结论 |
8.2 政策建议 |
8.3 研究展望 |
参考文献 |
作者在读期间科研成果 |
致谢 |
(2)基于深度学习的鲁棒语音识别(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
§1.1 课题研究背景及意义 |
§1.2 课题研究现状 |
§1.2.1 单通道语音分离与增强 |
§1.2.2 多通道语音分离与增强 |
§1.2.3 鲁棒语音识别 |
§1.3 本文的主要内容及章节安排 |
第二章 基于深度学习的语音识别 |
§2.1 语音识别基本原理 |
§2.1.1 特征提取 |
§2.1.2 隐马尔科夫模型 |
§2.1.3 声学建模单元 |
§2.1.4 高斯混合模型 |
§2.1.5 声学模型框架 |
§2.2 基于深度神经网络的声学模型 |
§2.2.1 深度神经网络 |
§2.2.2 基于受限玻尔兹曼机的预训练 |
§2.3 特征变换技术 |
§2.3.1 线性判别分析与最大似然线性变换 |
§2.3.2 特征最大似然线性回归 |
§2.4 实验与分析 |
§2.5 本章小结 |
第三章 基于深度学习的语音信号预处理 |
§3.1 基于深度学习的单通道语音增强 |
§3.1.1 特征提取 |
§3.1.2 时频掩蔽 |
§3.1.3 基于长短时记忆网络的时频掩蔽估计 |
§3.2 语音活动检测 |
§3.2.1 基于深度学习的语音活动检测 |
§3.2.2 语音增强与检测的多任务学习 |
§3.3 实验与分析 |
§3.3.1 评价指标 |
§3.3.2 实验配置 |
§3.3.3 结果分析 |
§3.4 本章小结 |
第四章 面向鲁棒语音识别的多通道前端算法 |
§4.1 多通道信号模型 |
§4.1.1 窄带近似模型 |
§4.1.2 满秩协方差模型 |
§4.1.3 扩散噪声场模型 |
§4.2 空间滤波 |
§4.2.1 固定波束形成 |
§4.2.2 自适应波束形成 |
§4.2.3 后置滤波器 |
§4.3 空间参数估计 |
§4.3.1 基于时频掩蔽的协方差矩阵估计 |
§4.3.2 声学传递函数估计与秩1 近似技术 |
§4.3.3 满秩空间协方差分析 |
§4.3.4 基于复高斯混合模型的空间聚类 |
§4.3.5 联合深度学习的空间参数估计 |
§4.4 噪声环境下的语音分离及降噪 |
§4.4.1 背景噪声下的复高斯混合模型 |
§4.4.2 扩散噪声下空间协方差矩阵的重构 |
§4.4.3 协方差模型与后置滤波器的联合参数框架 |
§4.5 实验与分析 |
§4.5.1 实验设计与测试集设置 |
§4.5.2 实验配置与对比方法说明 |
§4.5.3 评价指标 |
§4.5.4 多说话人语音分离实验结果与分析 |
§4.5.5 鲁棒语音识别实验结果与分析 |
§4.6 本章小结 |
第五章 总结与展望 |
§5.1 总结 |
§5.2 未来展望 |
参考文献 |
致谢 |
作者在攻读硕士期间的主要研究成果 |
(3)基于深度学习与双微阵列的语音命令词识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
§1.1 引言 |
§1.2 课题研究背景和意义 |
§1.3 课题研究及发展现状 |
§1.3.1 语音识别的发展历程 |
§1.3.2 语音识别的方法 |
§1.4 本文研究内容与整体结构 |
第二章 语音识别的相关理论 |
§2.1 语音相关知识 |
§2.1.1 语音特性 |
§2.1.2 人耳听觉感受性 |
§2.2 语音识别系统结构 |
§2.3 语音的预处理 |
§2.3.1 预加重 |
§2.3.2 分帧和加窗 |
§2.3.3 端点检测 |
§2.4 一种基于循环单元神经网络的语音端点检测方法 |
§2.4.1 卷积-门控循环单元神经网络语音端点检测 |
§2.4.2 实验分析 |
§2.5 本章小结 |
第三章 麦克风阵列语音增强 |
§3.1 麦克风阵列结构 |
§3.2 麦克风阵列语音增强算法 |
§3.2.1 延时-求和固定波束形成 |
§3.2.2 线性约束最小方差 |
§3.2.3 广义旁瓣抵消器 |
§3.2.4 最小方差无畸变响应 |
§3.3 后置滤波算法 |
§3.4 基于一阶差分麦克风阵列自适应语音增强 |
§3.4.1 双麦克风模型 |
§3.4.2 时域LMS算法 |
§3.4.3 实验仿真结果 |
§3.5 本章小结 |
第四章 基于双微阵列与Wide Res Net的命令词识别算法 |
§4.1 深度残差网络 |
§4.1.1 深度残差网络介绍 |
§4.1.2 深度残差网络中的恒等映射 |
§4.1.3 Wide Res Net(WRN)模型结构 |
§4.2 双微麦克风阵列 |
§4.2.1 双微麦克风阵列 |
§4.2.2 双微麦克风阵列数据 |
§4.3 特征提取 |
§4.4 实验结果与分析 |
§4.4.1 实验结果 |
§4.4.2 实验分析 |
§4.5 本章小结 |
第五章 总结与展望 |
参考文献 |
致谢 |
作者在攻读硕士期间的主要研究成果 |
(4)模糊语音的双模态抗噪特征提取研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 研究现状 |
1.2.1 语音识别技术的发展 |
1.2.2 语音特征参数的研究现状 |
1.2.3 多模态融合研究 |
1.3 语音识别存在的问题 |
1.4 研究内容与论文安排 |
1.4.1 主要研究内容 |
1.4.2 论文结构安排 |
第2章 数据集与语音识别原理概述 |
2.1 双模态模糊语音数据集的建立 |
2.1.1 文本筛选与说话者选择 |
2.1.2 语音数据的采集与存储 |
2.1.3 数据后处理 |
2.1.4 音频数据加噪 |
2.2 语音识别原理概述 |
2.2.1 特征参数 |
2.2.2 分类识别网络 |
2.3 本章小结 |
第3章 语音信号的声学特征分析 |
3.1 小波变换 |
3.2 声学特征提取 |
3.2.1 MFCC的提取过程 |
3.2.2 PNCC提取过程 |
3.2.3 CFCC提取过程 |
3.2.4 数据与识别网络选择 |
3.2.5 评价标准 |
3.2.6 结果分析 |
3.3 耳蜗倒谱系数特征的改进 |
3.3.1 基于非线性变换的新特征 |
3.3.2 实验结果与分析 |
3.4 S变换的耳蜗倒谱特征参数 |
3.4.1 S变换基本原理 |
3.4.2 实验结果与分析 |
3.5 本章小结 |
第4章 发音运动特征提取研究 |
4.1 发音运动特征 |
4.1.1 舌尖运动结果与分析 |
4.1.2 运动特征的识别分类结果 |
4.2 发音倒谱特征 |
4.2.1 发音倒谱特征提取方法 |
4.2.2 发音倒谱特征的识别分类结果 |
4.3 本章小结 |
第5章 语音信号双模态特征融合的分析研究 |
5.1 核主成分分析 |
5.2 线性典型相关分析 |
5.3 实验结果分析 |
5.3.1 声学特征核主成分分析 |
5.3.2 运动学特征核主成分分析 |
5.3.3 双模态特征融合 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
学位期间取得的研究成果 |
致谢 |
(5)基于深度学习的实时民航语音识别算法设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 研究历史与现状 |
1.2.1 自动语音识别发展现状 |
1.2.2 端到端语音识别发展现状 |
1.2.3 实时语音识别发展现状 |
1.2.4 鲁棒语音识别发展现状 |
1.2.5 民航语音识别发展现状 |
1.3 主要研究问题 |
1.4 本文的主要贡献与创新 |
1.5 本论文的结构安排 |
第二章 相关技术背景及算法 |
2.1 传统ASR技术 |
2.1.1 声学特征 |
2.1.2 声学模型 |
2.1.3 语言模型 |
2.1.4 发音字典 |
2.1.5 解码器 |
2.2 端到端ASR技术 |
2.2.1 基于CTC的 ASR算法 |
2.2.2 基于注意力机制的ASR算法 |
2.2.3 基于RNN-T的 ASR算法 |
2.2.4 基于混合CTC/Attention的 ASR算法 |
2.3 模型压缩技术 |
2.4 鲁棒ASR技术 |
2.4.1 基于特征域的鲁棒ASR |
2.4.2 基于模型域的鲁棒ASR |
2.5 实时ASR评价指标 |
2.5.1 CER |
2.5.2 WER |
2.5.3 RTF |
2.5.4 参数量和计算量 |
2.5.5 其他评价指标 |
2.6 本章小结 |
第三章 基于迁移学习的实时民航语音识别算法 |
3.1 问题描述 |
3.2 模型描述 |
3.2.1 基于CNN-CTC的实时语音识别算法 |
3.2.2 基于迁移学习的民航ASR算法 |
3.3 实验结果与分析 |
3.3.1 对比模型 |
3.3.2 数据集 |
3.3.3 常用民航指令文本 |
3.3.4 实验环境 |
3.3.5 实验结果与讨论 |
3.4 本章小结 |
第四章 基于注意力的深度循环神经网络前端增强算法 |
4.1 问题描述 |
4.2 模型描述 |
4.2.1 DRNN网络 |
4.2.2 ADRNN模型 |
4.2.3 其他获取时序信息的方法 |
4.3 实验结果与分析 |
4.3.1 对比模型 |
4.3.2 数据集 |
4.3.3 实验环境 |
4.3.4 实验结果与分析 |
4.4 本章小结 |
第五章 面向民航的实时语音识别系统设计与实现 |
5.1 系统需求分析 |
5.1.1 功能需求 |
5.1.2 非功能需求 |
5.2 系统设计 |
5.2.1 整体架构设计 |
5.2.2 功能模块设计 |
5.3 系统实现 |
5.3.1 系统运行环境 |
5.3.2 系统功能实现 |
5.4 系统测试 |
5.4.1 测试环境 |
5.4.2 测试用例及结果 |
5.5 本章小结 |
第六章 全文总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(6)PC构件布料机控制研究与应用(论文提纲范文)
致谢 |
摘要 |
abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 研究的主要内容 |
1.4 论文结构 |
2 PC构件布料机控制结构研究 |
2.1 PC构件布料机设备概述 |
2.2 布料机控制通用结构模型 |
2.3 开放式用户通信 |
2.4 布料机交互方式优劣分析 |
2.5 本章小结 |
3 基于开放式用户通信改进的控制模型与数据传输 |
3.1 引言 |
3.2 基于OUC的PC构件布料机智能移动控制模型 |
3.3 通信实验与分析 |
3.4 通信协议和数据传输 |
3.5 本章小结 |
4 人机交互数据识别封装 |
4.1 引言 |
4.2 布料机操作动作的识别研究 |
4.3 “仿组态按钮”与“虚拟端子排”下的数据识别封装 |
4.4 多点触控中同步调速和按钮复归失败问题 |
4.5 布料机控制中的语音输入设计和测试 |
4.6 本章小结 |
5 基于Android和 OUC的布料机控制系统设计实现 |
5.1 控制需求分析 |
5.2 系统总体设计 |
5.3 控制系统实现 |
5.4 运行界面和测试 |
5.5 本章小结 |
6 结论与展望 |
6.1 研究总结 |
6.2 展望 |
参考文献 |
作者简历 |
学位论文数据集 |
(7)基于时延神经网络的口语理解方法研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景和意义 |
1.2 国内外研究历史 |
1.3 国内外相关研究方法 |
1.4 论文研究工作及工作安排 |
第2章 口语理解 |
2.1 人机对话系统的介绍 |
2.1.1 口语理解的目的 |
2.1.2 口语理解的简述 |
2.2 口语理解的实验指标 |
2.3 口语理解的特点及相关研究方法 |
2.4 本文对口语理解的研究方法与思路 |
2.5 本章小结 |
第3章 循环神经网络在口语理解中的应用 |
3.1 口语理解与深度学习方法 |
3.1.1 循环神经网络(RNN) |
3.1.2 双向循环神经网络(BiRNN) |
3.2 词窗对循环神经网络及其变体性能的影响 |
3.2.1 不同词窗的单向RNN及其变体模型的实验结果 |
3.2.2 不同词窗的双向RNN及其变体模型的实验结果 |
3.2.3 词向量维度大小对双向 RNN 及其变体模型性能的影响 |
3.2.4 不同词窗的BiLSTM模型的精准率和召回率以及F1 |
3.2.5 RNN及其变体模型在ATIS和 SNIPS数据集上的实验结果 |
3.3 梯度消失和梯度爆炸 |
3.4 解决梯度问题方法 |
3.4.1 深度残差神经网络的原理 |
3.4.2 密集连接卷积神经网络的原理 |
3.5 本章小结 |
第4章 时延神经网络在口语理解中的应用 |
4.1 深度学习方法 |
4.2 时延神经网络中特点 |
4.3 时延神经网络在口语理解中的应用 |
4.3.1 时延神经网络的时间和空间复杂度分析 |
4.3.2 残差时延神经网络 |
4.3.3 跳跃连接的时延神经网络 |
4.3.4 残差时延神经网络与循环神经网络的结合 |
4.3.5 跳跃连接时延神经网络与循环神经网络的结合 |
4.4 口语理解的实验环境 |
4.4.1 实验数据 |
4.4.2 实验评价方法 |
4.5 实验结果与分析 |
4.5.1 实验设置 |
4.5.2 单层时延神经网络的实验结果 |
4.5.3 单层时延神经网络对RNN及其变体模型性能的影响 |
4.5.4 多层时延神经网络的结果 |
4.5.5 残差TDNN的槽值填充的实验结果 |
4.5.6 残差TDNN与 RNN及其变体结合的实验结果 |
4.5.7 跳跃连接的时延神经网络的实验结果 |
4.5.8 SC-TDNN与 RNN及起变体结合的实验结果 |
4.5.9 与其他文献实验结果的对比 |
4.6 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(8)基于双微阵列的语音命令词识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
§1.1 引言 |
§1.2 课题研究背景和意义 |
§1.3 课题研究及发展现状 |
§1.3.1 语音识别的发展历程与研究现状 |
§1.3.2 语音命令词识别在智能语音交互中的研究应用现状 |
§1.4 本文研究内容与整体结构 |
第二章 语音识别的基本原理 |
§2.1 语音识别系统结构 |
§2.2 语音的预处理 |
§2.2.1 预加重 |
§2.2.2 分帧和加窗 |
§2.2.3 端点检测 |
§2.3 语音特征提取 |
§2.4 语音命令词识别模型 |
§2.4.1 Query-by-Example |
§2.4.2 Keyword/Filler |
§2.4.3 大词汇量连续语音识别 |
§2.4.4 Deep KWS系统 |
第三章 语音增强算法 |
§3.1 语音增强技术 |
§3.2 单通道语音增强 |
§3.2.1 谱减法 |
§3.2.2 维纳滤波算法 |
§3.3 麦克风阵列增强方法 |
§3.3.1 麦克风阵列结构 |
§3.3.2 固定波束形成 |
§3.3.4 广义旁瓣抵消器 |
§3.3.5 最小方差无畸变响应 |
§3.4 本章小结 |
第四章 基于低信噪比环境下的语音端点检测算法 |
§4.1 瞬态噪声抑制 |
§4.1.1 瞬态PSD估计 |
§4.1.2 瞬态抑制执行判断 |
§4.1.3 瞬态噪声抑制实验结果 |
§4.2 调制域谱减法 |
§4.2.1 调制域 |
§4.2.2 调制域谱减 |
§4.2.3 调制域相位补偿 |
§4.3 PNCC倒谱距离端点检测 |
§4.3.1 功率归一化倒谱系数 |
§4.3.2 基于功率归一化倒谱距离的端点检测算法 |
§4.4 实验与分析 |
§4.4.1 实验配置 |
§4.4.2 实验结果与分析 |
§4.4.3 本文算法的适用环境和后续研究 |
§4.5 本章小结 |
第五章 基于双微阵列与深度残差网络的命令词识别算法 |
§5.1 深度残差网络 |
§5.1.1 深度残差网络介绍 |
§5.1.2 深度残差网络中的恒等映射 |
§5.1.3 改进的ResNet15 模型结构 |
§5.1.4 深层模型ResNet50 |
§5.2 麦克风阵列 |
§5.2.1 双微麦克风阵列 |
§5.2.2 双微麦克风阵列数据 |
§5.3 特征提取 |
§5.3.1 特征参数 |
§5.3.2 动态差分参数 |
§5.3.3 特征处理 |
§5.4 实验结果与分析 |
§5.4.1 网络参数设置 |
§5.4.2 实验结果 |
§5.4.3 实验分析 |
§5.5 本章小结 |
第六章 总结与展望 |
§6.1 论文总结 |
§6.2 未来展望 |
参考文献 |
致谢 |
作者在攻读硕士期间的主要研究成果 |
(9)二元工作旺盛感:主管支持/阻抑和自我调节的影响(论文提纲范文)
摘要 |
abstract |
第1章 选题背景和意义 |
1.1 研究背景 |
1.2 问题的提出 |
1.3 研究意义 |
1.3.1 理论意义 |
1.3.2 实践意义 |
1.4 研究框架和主要内容 |
1.5 研究方法和技术路线图 |
1.5.1 研究方法 |
1.5.2 技术路线 |
1.6 创新之处 |
第2章 理论基础与文献综述 |
2.1 二元工作旺盛感 |
2.1.1 二元工作旺盛感的内涵 |
2.1.2 二元工作旺盛感的特征 |
2.1.3 二元工作旺盛感的理论基础——自我决定理论 |
2.1.4 二元工作旺盛感的研究与述评 |
2.2 二元工作旺盛感与相关构念的辨析 |
2.2.1 工作旺盛感 |
2.2.2 二元工作激情 |
2.2.3 小结:三个构念间的辨析 |
2.3 主管支持和阻抑 |
2.3.1 主管支持和主管阻抑的内涵 |
2.3.2 组织情境下主管支持和主管阻抑的研究和述评 |
2.4 自我调节 |
2.4.1 自我调节的内涵 |
2.4.2 自我调节的内容——调节定向和调节模式 |
2.4.3 自我调节的性质和测量 |
2.4.4 组织情境下自我调节的研究与述评 |
2.5 自主和受控动机 |
2.5.1 自主和受控动机的内涵 |
2.5.2 组织情境下自主和受控动机研究及述评 |
2.6 特质激活理论 |
2.6.1 特质激活理论模型概览 |
2.6.2 特质激活的内涵界定 |
2.6.3 特质激活的情境分层和特征分类 |
2.6.4 特质激活理论在组织情境中的研究进展 |
2.7 文献述评 |
第3章 研究假设与理论模型 |
3.1 二元工作旺盛感:主管支持/阻抑的影响及动力机制 |
3.1.1 主管支持/阻抑对二元工作旺盛感的影响 |
3.1.2 自主和受控动机的中介效应 |
3.2 二元工作旺盛感:自我调节的影响及动力机制 |
3.2.1 调节定向对二元工作旺盛感的影响 |
3.2.2 自主和受控动机在“调节定向——二元工作旺盛感”间的中介效应 |
3.2.3 调节模式对二元工作旺盛感的影响 |
3.2.4 自主和受控动机在“调节模式——二元工作旺盛感”间的中介效应 |
3.3 情境性调节定向对二元工作旺盛感的影响:主管支持/阻抑的“特质激活”作用 |
3.3.1 主管支持/阻抑的“特质激活”作用 |
3.3.2 自主和受控动机的中介效应 |
3.4 情境性调节模式对二元工作旺盛感的影响:主管支持/阻抑的“特质激活”作用 |
3.4.1 主管支持/阻抑的“特质激活”作用 |
3.4.2 自主和受控动机的中介效应 |
3.5 理论模型 |
第4章 二元工作旺盛感:主管支持/阻抑的影响及动力机制(研究一) |
4.1 实验方法 |
4.1.1 实验设计 |
4.1.2 实验程序 |
4.1.3 实验操纵 |
4.1.4 变量测量 |
4.2 实验结果 |
4.2.1 操纵检验 |
4.2.2 假设检验 |
4.3 补充研究 |
4.4 研究一结果讨论 |
第5章 二元工作旺盛感:自我调节的影响及动力机制(研究二) |
5.1 情境性调节定向对二元工作旺盛感影响的实验研究(研究二a) |
5.1.1 实验方法 |
5.1.2 实验结果 |
5.1.3 实验结果讨论 |
5.2 情境性调节模式对二元工作旺盛感影响的实验研究(研究二b) |
5.2.1 实验方法 |
5.2.2 实验结果 |
5.2.3 实验结果讨论 |
5.3 特质性自我调节对二元工作旺盛感影响的问卷研究(研究二c) |
5.3.1 样本选取与数据收集 |
5.3.2 变量测量 |
5.3.3 统计方法 |
5.3.4 数据分析与假设检验 |
5.3.5 结果讨论 |
5.4 研究二结果讨论 |
第6章 情境性调节定向对二元工作旺盛感的影响:主管支持/阻抑的“特质激活”作用(研究三) |
6.1 实验方法 |
6.1.1 实验设计 |
6.1.2 实验程序 |
6.1.3 实验操纵 |
6.1.4 变量测量 |
6.2 实验结果 |
6.2.1 操纵检验 |
6.2.2 假设检验 |
6.3 研究三结果讨论 |
第7章 情境性调节模式对二元工作旺盛感的影响:主管支持/阻抑的“特质激活”作用(研究四) |
7.1 实验方法 |
7.1.1 实验设计 |
7.1.2 实验程序 |
7.1.3 实验操纵 |
7.1.4 变量测量 |
7.2 实验结果 |
7.2.1 操纵检验 |
7.2.2 假设检验 |
7.3 研究四结果讨论 |
第8章 研究结论与展望 |
8.1 研究结论与讨论 |
8.2 主要研究结论 |
8.3 研究贡献 |
8.4 研究不足与未来展望 |
参考文献 |
附录 A 问卷材料 |
附录 B 实验材料 |
致谢 |
个人简历 在读期间发表的学术论文与研究成果 |
(10)雷达高分辨距离像噪声稳健识别方法研究(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 雷达自动目标识别概述 |
1.1.1 雷达自动目标识别研究背景及现状 |
1.1.2 雷达自动目标识别基本概念 |
1.1.3 雷达自动目标识别分类 |
1.2 雷达HRRP识别概述 |
1.3 雷达噪声稳健识别 |
1.3.1 噪声稳健问题的研究背景 |
1.3.2 噪声稳健问题的研究现状 |
1.4 研究内容安排 |
1.4.1 数据介绍 |
1.4.2 内容安排 |
第二章 基于加噪匹配的噪声稳健识别方法 |
2.1 引言 |
2.2 基于加噪匹配的噪声稳健识别方法流程 |
2.3 信噪比估计方法 |
2.4 经典统计模型以及模型参数估计方法 |
2.4.1 因子分析模型 |
2.4.2 复数因子分析模型 |
2.5 识别系统具体步骤 |
2.6 实验结果与分析 |
2.6.1 实验数据和实验设置 |
2.6.2 信噪比估计精度分析 |
2.6.3 低信噪比条件下识别性能分析 |
2.7 本章小结 |
第三章 基于统计模型自适应修正的噪声稳健识别方法 |
3.1 引言 |
3.2 基于“场景一”的模型自适应修正噪声稳健识别方法 |
3.2.1 基于高信噪比训练样本的模型自适应修正方法原理 |
3.2.2 基于FA模型自适应修正方法 |
3.2.3 基于CFA模型自适应修正的噪声稳健识别方法 |
3.2.4 识别系统具体步骤 |
3.3 基于“场景二”的模型自适应修正噪声稳健识别方法 |
3.3.1 基于低信噪比训练样本的模型自适应修正方法原理 |
3.3.2 基于FA模型自适应修正方法 |
3.3.3 基于CFA模型自适应修正方法 |
3.3.4 识别系统具体步骤 |
3.4 实验结果与分析 |
3.4.1 实验数据和实验设置 |
3.4.2 基于“场景一”的模型自适应修正方法识别性能分析 |
3.4.3 基于“场景二”的模型自适应修正方法识别性能分析 |
3.5 本章小结 |
第四章 基于深度神经网络的噪声稳健识别方法 |
4.1 引言 |
4.2 基于深度神经网络的噪声稳健识别方法流程 |
4.3 经典深度神经网络介绍 |
4.3.1 深度置信网络 |
4.3.2 卷积神经网络 |
4.4 实验结果与分析 |
4.4.1 实验数据与实验设置 |
4.4.2 识别实验结果与分析 |
4.4.3 建立多个识别网络的实验结果与分析 |
4.4.4“场景一”下本章方法的时间空间复杂度 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 全文总结 |
5.2 工作展望 |
参考文献 |
致谢 |
作者简介 |
四、稳健语音识别技术发展现状及展望(论文参考文献)
- [1]人工智能对经济增长的影响研究[D]. 黄志. 四川大学, 2021(12)
- [2]基于深度学习的鲁棒语音识别[D]. 王师琦. 桂林电子科技大学, 2021(02)
- [3]基于深度学习与双微阵列的语音命令词识别研究[D]. 祁潇潇. 桂林电子科技大学, 2021(02)
- [4]模糊语音的双模态抗噪特征提取研究[D]. 冯晓静. 太原理工大学, 2021(01)
- [5]基于深度学习的实时民航语音识别算法设计与实现[D]. 惠国强. 电子科技大学, 2021(01)
- [6]PC构件布料机控制研究与应用[D]. 梁新强. 中国矿业大学, 2020(07)
- [7]基于时延神经网络的口语理解方法研究[D]. 张振. 新疆大学, 2020(07)
- [8]基于双微阵列的语音命令词识别研究[D]. 卜玉婷. 桂林电子科技大学, 2020(02)
- [9]二元工作旺盛感:主管支持/阻抑和自我调节的影响[D]. 陈晨. 对外经济贸易大学, 2020(01)
- [10]雷达高分辨距离像噪声稳健识别方法研究[D]. 薛蕊. 西安电子科技大学, 2019(02)