一、说话人身份识别系统的设计与实现(论文文献综述)
落红卫[1](2021)在《移动互联网身份认证关键技术研究》文中指出随着移动互联网的快速发展,以及与云计算、物联网等新兴技术的深度融合,移动互联网已经渗透到工作和生活的各个方面。身份认证作为网络与信息安全的基石,已经成为移动互联网业务应用安全的第一道防线,不同的业务应用对其提出了差异化需求。支持多类别、多级别的身份认证,以满足不同类型、不同规模的移动互联网业务应用的差异化身份认证需求成为了移动互联网身份认证的重要发展方向。本文以建立面向移动互联网的多级可信身份认证技术方案为目标,对移动互联网身份认证关键技术进行了深入研究:首先,针对应用场景多样化和安全需求差异化,提出了一种具备智能风控的多因子身份认证技术;其次,针对最前沿的基于深度学习的说话人验证系统,提出了利用对抗性实例进行安全性检测方法;最后,针对典型的移动互联网应用场景,分别设计了一种基于椭圆曲线密码的三因子身份认证协议和一种基于硬件令牌的物联网身份认证模型。本文的主要贡献如下:(1)提出了一种具备智能风控的多因子身份认证技术,用于满足大规模多级可信身份认证需求。首先提出了一种具备智能风控的多因子身份认证技术架构,并针对大规模身份认证场景提出了轻量级身份认证服务接入方案;然后针对多因子联合身份认证进行设计,以保证身份认证安全的情况下尽可能降低对用户的打扰;随后提出基于深度学习的身份认证风险控制;最后给出了具备智能风控的多因子身份认证技术的具体应用案例。(2)提出了一种针对基于深度学习的说话人验证系统的安全性检测方法。首先,介绍了基于深度学习的说话人验证系统实现原理,随后相应地设计了一个新的损失函数来部署一个对抗性实例生成器,并生成具有轻微扰动的对抗性实例,然后利用这些对抗性实例来欺骗说话人验证系统以达到安全性检测的目的,最后通过具体测试实验获取我们设计系统的安全性检测性能指标。(3)设计了一种基于椭圆曲线密码的三因子身份认证协议。首先分析了高敏感应用场景身份认证面临的安全威胁并提出了相应的身份认证需求。然后以Mo等人的方案为例,指出其协议遭受窃取验证表攻击、拒绝服务攻击、离线猜测攻击和临时秘密值泄露攻击,随后提出了一种基于椭圆曲线加密并具备离线认证中心的三因子身份认证方案。该方案继承了现有方案的优点,并可以应用于包括用户设备、云服务器和注册中心的移动互联网身份认证系统。通过安全性分析表明,所设计的方案可以抵抗已知攻击,并具备用户友好性。通过性能分析比较表明,我们所提出的方案具有更小的计算和通信开销,并提供更多的安全属性。(4)设计了一种基于硬件令牌的物联网身份认证模型。首先分析了物联网面临的安全威胁并提出了相应的身份认证需求,继而提出了一种基于网关的双因子身份认证(Gateway-based2nd Factor,G2F)方案。该方案基于FIDO的通用第二因子协议(Universal 2nd Factor,U2F),将FIDOU2F协议中防篡改的硬件令牌,与以网关为中心的物联网架构相结合。该硬件令牌可以与网关节点和移动互联网应用服务器同时进行交互,实现了物联网身份认证的高安全性和高效率,并降低了对服务提供商的依赖性,同时保护物联网设备免受恶意攻击。之后,我们将G2F原型应用在商业化的阿里云上并进行了实际测试评估,安全和性能的测评结果表明:G2F实现了基于硬件令牌的轻量快速物联网身份认证,并能抵御已知针对物联网设备管理身份认证的安全攻击。
陈青梅[2](2021)在《基于深度学习的反欺骗声纹识别系统设计与实现》文中进行了进一步梳理随着信息技术的迅速发展和个人数据的蓬勃增长,对信息的访问控制和隐私保护一直是人们关注的热点。由于不同人的发声器官在形状、大小等结构上各不相同,且每个人都有着自己独特的发声习惯,使得每个人的声音听起来都独具自己的特点,能够根据一个人的声音来确定其身份。语音也是人类日常沟通交流最直接、普遍的方式,通过说话人的语音进行说话人身份的识别或验证安全便捷,易于大规模推广。在电子支付、智能门锁、安防等信息安全领域,声纹识别技术已逐渐成为身份认证方式的主流趋势。虽然声纹识别相关的研究已取得了巨大的进展,但离投入真实应用还存在一些待解决的问题。声纹识别系统的实际应用,往往是在复杂多样的应用环境中且面临着多种类型的未知欺骗语音,主要的欺骗语音通常由语音合成、语音转换以及录音重放等方法得到。传统的声纹识别系统缺乏对输入语音的欺骗性检测,欺骗语音的攻击会极大程度上降低系统的安全性能。针对以上问题,本文提出了一种基于深度学习的反欺骗声纹识别算法。该算法对语音提取多张不同窗口设置的语谱图特征作为输入,多张不同分辨率的语谱图有利于从原始语音中获取更充分、全局的信息,并基于深度残差网络和通道注意力特征融合机制从语音中提取高层次的语音表征,实现对输入语音的欺骗性检测以及说话人身份验证。该算法在公开语音数据集ASVSpoof 2019上进行了一系列对比实验,结果证明了本文提出的多分辨率语谱图结合深度学习模型能够有效检测多种类型的欺骗语音。在该算法基础上,本文设计与实现了基于深度学习的反欺骗声纹识别系统,并详细描述了系统相关的需求分析、系统架构组成以及各层工作的流程,在论文的最后对反欺骗声纹识别系统内各个组成模块的设计以及具体功能作用进行了详细的阐述。
苏靖婷[3](2021)在《基于SOPC的声纹识别系统的设计与现》文中指出“无监督”身份认证的时代已经到来,快速准确便捷的实现身份认证,不仅能够方便人们的生活,还能保障个人权益。以往常见的身份认证方法普遍存在被“冒名顶替”的风险。因此,生物特征识别技术应运而生。其中声音作为人类携带的自然属性,采用“非接触式”的认证方式,使身份认证更加便捷,且对硬件要求简单,在刑侦、金融、军事、智能设备等领域,可以被广泛应用。SOPC(片上可编程系统)是一种以FPGA(现场可编程门阵列)为基础,通过软硬件结合的方式实现的系统。具有安全高效、成本低廉、易于维护等优势。故基于SOPC技术设计、实现本系统。本文设计实现了基于SOPC的声纹识别系统。主要内容包括基于FPGA的硬件模块的设计实现以及将各模块集成为SOPC系统两大部分。硬件部分包含预处理和特征提取两个模块。预处理模块包括预加重模块、分帧模块、加窗模块和端点检测模块,实现了对语音信号的初步处理,消除了噪音并增强了有用信息。特征提取模块包括FFT模块、功率谱模块、Mel滤波模块、LOG模块和DCT模块,实现了从经过预处理后的语音信号中提取出能够表达说话人独有个性的特征。并结合Nios II处理器,设计集成了SOPC系统。经测试结果表明,所实现的声纹识别系统有效可行。
张兴明[4](2021)在《基于深度学习的说话人识别研究与应用》文中提出在基于生物特征识别的身份核验系统中,说话人识别技术相较于其他生物特征识别技术具有很多优势。由于实际使用中的身份核验系统对识别准确率、系统鲁棒性有着极高的要求,而目前说话人识别技术水平还很难满足系统的这些性能需求,因此该技术仍处在技术研究阶段,并未大规模在实际场景中应用。为提升模型的识别性能和模型的鲁棒性,本文对说话人识别中的关键技术:语音特征提取、损失函数与识别模型结构三个方面进行了相应研究。本文主要工作内容和创新点如下:1、针对单特征存在的信息种类单一、信息量少的问题,提出一种有效的语音特征融合方案。语谱图特征参数相对MFCC和Filter Bank特征参数,其特征提取过程中计算步骤较少,保留的语音原始信息更多,这类特征更适合在深度学习中使用。本文研究了以语谱图为主要特征,以MFCC或Filter Bank为辅助特征的多种浅层特征融合方案,并最终找到了一种效果最优的融合特征。通过在基于卷积神经网络和基于循环神经网络的识别模型上的多组对比实验,验证了该方案的有效性和效果。2、针对GE2E损失函数中说话人中心向量计算方式存在的不足,提出一种基于说话人全局中心的端到端损失函数。对常用的Softmax、Triplet、GE2E损失函数进行比较和实验,证实了GE2E是一种性能优异的损失函数。但GE2E中的说话人中心向量是一个局部值,该值与真实的说话人中心向量之间存在较大误差,于是提出基于说话人全局中心的端到端损失函数GC_GE2E。通过说话人确认测试与说话人辨认测试,证明了GC_GE2E对说话人识别有效,且GC_GE2E的性能优于GE2E。3、基于本文提出的语音特征融合方案和损失函数,构建了基于多尺度卷积残差神经网络的说话人识别模型,该模型考虑到实际的基于说话人识别的身份核验系统对识别性能、系统鲁棒性等方面的要求,采用了卷积神经网络与多尺度残差网络等技术。多组对比实验结果表明,该模型具有较好的识别性能;跨数据集与跨语言的实验结果,验证了该模型的鲁棒性。4、设计并实现基于说话人识别的身份核验与识别应用系统,该系统基于本文上述研究成果,并结合语音识别技术共同构建。该系统可以实现说话人语音识别与动态口令验证,能够有效预防假冒闯入攻击;该系统提供了声纹注册、身份核验和身份识别功能,具有较好的应用价值。
李永敏[5](2021)在《基于音视频的多模态融合说话人识别研究》文中指出在信息化高度发展的今天,如何快速准确地识别出一个人身份,同时并保证其信息安全是一个必须研究的课题。虽然单一模态的生物特征识别技术已经广泛应用于各种场景中,但是仍然存在安全性低、易受到环境干扰等弊端。为了解决这一弊端,基于多模态融合的身份识别技术开始成为研究的热点,它被认为是未来身份识别的发展方向。本文基于声纹和人脸模态,研究多模态融合的生物特征识别技术,并探讨其对环境的适应性。本文的主要工作如下:1、研究多模态数据的融合方法和策略,分析多模态融合的身份识别技术在识别准确率上的优势。在Vox Celeb2数据集上利用深度残差网络(Res Net)和双向门控循环单元(Bi-GRU)对音视频数据进行特征层融合,分别实现了基于端到端的声纹识别、人脸识别和多模态融合的身份识别,通过实验结果的对比和分析,得出多模态融合的身份识正确率比单模态下声纹识别和人脸识别分别提升了17.55%和2.12%。2、研究多模态融合的身份识别系统在噪声环境下的性能表现。对原始数据添加不同程度的噪声,通过对比噪声环境中单模态和多模态融合身份识别在实验中的性能表现,得出在噪声数据下多模态融合的身份识别的正确率较单模态而言均有不同程度的提升。
刘余[6](2021)在《基于神经网络特征映射的声纹识别技术研究与实现》文中指出声纹识别技术在司法鉴定、军事安全、金融防欺诈等多个领域得到应用,但是在实际应用环境中,各种各样影响语音质量的背景噪声,使得实际工程应用中的声纹识别系统效果达不到理想要求,成为限制声纹识别技术发展的重要因素。因此,论文围绕声纹识别技术在噪声环境下的识别率提升问题开展研究工作。受到基于神经网络的特征映射方法在语音增强以及鲁棒性语音识别领域相关研究的启发,论文将基于神经网络的特征映射方法应用在鲁棒性声纹识别系统中。论文使用人工构造的平行语料数据集以最小均方误差为目标函数训练深层神经网络(Deep Neural Network,DNN),使其学习含噪语音对数功率谱特征和干净语音Fbanks特征之间的映射关系。训练好的DNN模型作为一个特征提取器被应用于声纹识别系统的特征提取过程。实验结果表明,在信噪比较低的条件下DNN输出特征性能高于传统鲁棒性特征,而在信噪比较高的时候DNN输出特征的性能不如传统鲁棒性特征,受最小均方误差目标函数的影响,DNN输出的特征无法在各个信噪比下都获得优于传统鲁棒性特征的性能。为了解决最小均方误差目标函数引起的问题,将DNN替换为Wasserstein生成对抗网络(Wasserstein Generative Adversarial Network,WGAN)。WGAN通过Wasserstein距离去衡量生成数据分布和真实数据分布之间的距离,使得神经网络可以更好的学习特征之间的映射关系,实验表明,在0d B、5d B、10d B、15d B、20d B的测试条件下,与传统鲁棒性特征相比,以GMM-UBM作为识别模型,FMWGAN(Feature Mapping WGAN)输出的特征(FMWGAN-MFCC)在各个信噪比下的识别率分别提高了13%、7.3%、6.7%、6.8%、6.3%;以身份向量(i-vector)作为识别模型,在各个信噪比下的识别率分别提高了5.5%、1.9%、1%、1.2%、0.6%。论文设计了一款声纹识别程序,将论文训练得到的神经网络模型应用到声纹识别程序的实现中,程序开发完成后在实际环境中对程序进行了相应的性能评估和测试。从仿真实验和实际测试来看,基于FMWGAN-MFCC的声纹识别系统相较于基于传统鲁棒性特征的声纹识别系统在噪声环境下具有更高的识别率,可以一定程度上解决噪声环境下声纹识别系统识别率下降的问题。
李佰玲[7](2021)在《说话人识别聚类算法研究》文中进行了进一步梳理随着科技的进步和人工智能的发展,互联网和信息技术在生活中得到广泛应用。说话人识别聚类是语音信号处理的一个研究方向,它的任务是在多个说话人分时说话的语音音频文件中识别说话人边界和说话人身份,使得相同的说话人被标记为同一类,且每一类中只包含一个说话人。说话人识别聚类通常使用说话人的嵌入向量来聚集音频片段,如i-vector。近年来,由于深度学习的快速发展,基于深度网络的d-vector嵌入向量在这个领域也得到快速发展,但还有待提高。以GMMUBM模型获得的GMM矢量与聚类算法结合作为基线,本文将提出一种基于avector作为说话人嵌入向量的说话人识别聚类算法,在说话人嵌入特征提取、说话人聚类算法方面进行研究。本文的主要工作如下:第一,针对当前语音识别领域常采用的MFCC特征经过降维处理而存在过度加工的问题,采用梅尔语谱特征作为卷积神经网络的输入特征,保留更多的语音信息。第二,针对说话人特征提取网络中会忽略全局语音帧的相关性的问题,本文提出了一种基于多头注意力机制的a-vector提取方法。搭建基于CNN的说话人特征提取网络,为获得更好的效果,借助Resnet的思想改进说话人特征提取网络。结合语音数据的特点,在网络中引入多头注意力结构和修改交叉损失函数,以此获取不同特征图的权重矩阵,增强语音中说话人特征的区分程度。在相同的数据下,基于Resnet改进的网络比CNN的识别率提高了3%。这证明基于Resnet改进的说话人特征提取网络提取的a-vector表征说话人嵌入特征的质量会更好。第三,传统的聚类算法由于参数的选择、数据点的分布特点和聚类中心距离差距大等问题而影响聚类效果,提出一种基于特征间隔改进的说话人谱聚类算法。它能够自动估计聚类数目,且在任意分布的数据空间达到更高的聚类质量;本文对谱聚类中的相似度矩阵进行优化,可获得聚类数目和聚类中心,从而更好的识别说话人人数和分类。实验结果表明,改进的聚类算法具有更好的聚类质量。第四,联合说话人特征提取和说话人聚类模块,搭建说话人识别聚类系统。本文将不同的嵌入向量与不同的聚类算法结合进行实验,在相同的数据集下,a-vector与改进的说话人谱聚类算法相结合时比基线系统获得更低的错误率。
王伟伟[8](2021)在《基于SOPC的声纹识别系统中声纹识别算法的研究与实现》文中提出语音是我们生活中使用最为普遍和方便的交流方式,而且每个人由于生理特征和行为的差异,导致所发出的声音特征也不尽相同。从理论上来说,任何两个人的声纹信息都各不相同。声纹识别就是根据该理论,通过对比分析不同说话人之间的声纹特征差异,从而识别出说话人真实身份的一种新型生物认证技术。SOPC,是一种基于FPGA的片上可编程系统。基于SOPC的声纹识别系统,具有体积小、稳定性好且开发成本低的优势,其应用前景非常广阔。在声纹识别系统中,声纹识别模型和算法的好坏直接影响着系统的性能。矢量量化模型,其计算简单、响应速度快、识别精度高,非常适合在SOPC这种资源有限的平台上实现,所以本文选用矢量量化作为声纹识别模型。针对K-Means算法对初始聚类中心选取依赖性强的缺点,本文研究与实现了基于K-Means算法和自组织映射神经网络(SOM)的组合算法,即SOM-KMeans算法,并将SOMKMeans算法作为本文的声纹识别算法用于模型训练。然后利用自行录制的语音数据库,在PC机上使用SOM-KMeans算法和基于SOPC的声纹识别系统中常用的LBG、GA-K-VQ算法进行了仿真对比实验。通过实验证明,SOM-KMeans算法在声纹识别方面的性能要优于LBG算法和GA-K-VQ算法。为了验证SOM-KMeans算法在基于SOPC的声纹识别系统中的性能,本文根据SOPC系统的设计流程搭建了SOPC平台,然后在该SOPC平台上对SOMKMeans算法与LBG、GA-K-VQ算法进行了声纹识别对比实验。通过实验证明,SOM-KMeans算法在基于SOPC的声纹识别系统中同样具有优势。
戚敏惠[9](2021)在《基于深度卷积神经网络的声纹识别算法研究》文中研究说明生物特征识别技术在各种智能终端的身份验证场景中起到越来越重要的作用。在生物特征识别技术中,声纹识别是最热门的技术之一。声纹识别根据应用场景分为声纹辨认和声纹确认,根据语音文本内容分为文本相关和文本无关两类。本文主要研究难度较大且应用范围更广的文本无关声纹识别,采用深度卷积神经网络提取声纹特征,在两个开源的数据集上分别进行声纹辨认和声纹确认的实验,最后使用前后端分离的技术设计并实现了Web端的声纹识别系统。论文主要工作与贡献总结如下:(1)设计并改进声纹识别系统框架。该框架包括训练、微调、注册和评估四个阶段。训练阶段得到通用背景模型,微调阶段对该模型进行调优,注册阶段利用该模型得到注册的说话人模型,评估阶段计算测试语句和说话人模型的相似度分数,根据分数做出相关决策。(2)提出并设计两种基于注意力机制的深度卷积神经网络结构,用于声纹特征的提取。分别使用SE注意力机制和CBAM注意力机制以不同方式对残差块进行改进,通过堆叠改进的残差块加深网络的深度,最后得到SECNN模型和Attentive CNN模型。模型的输入是语音信号经过预处理后得到的语谱图,输出是说话人的句子嵌入。本文提出的SECNN和Attentive CNN模型在Librispeech数据集上的声纹识别实验中,声纹辨认的准确率分别为95.15%和95.31%,声纹确认的等错误率分别为5.82%和6.55%,两个模型的性能均优于基线模型Deep Speaker模型。(3)使用三元组损失函数对SECNN模型和Attentive CNN模型进行微调以改进模型性能。采用两种不同的三元组采样方法:随机采样三元组和优化后的三元组采样生成批次数据,以最小化三元组损失为目标来优化两个模型。声纹确认实验结果表明,采样用优化后的三元组采样方法微调的SECNN模型和Attentive CNN模型与原有模型相比,将TIMIT数据集上的等错误率分别降低了2.26%和2.07%,将Librispeech数据集上的等错误率分别降低了0.61%和1.19%。
刘铭尧[10](2021)在《基于说话人唇部特征信息提取算法的研究》文中认为近年来在人脸口型动画、语音识别、人脸面部表情识别、情感检测等视频信息的应用研究中,唇部特征信息的应用得到了广泛的关注。本文在分析和比对现有的唇部特征提取方案的基础上,利用说话人发音时唇部变化过程中的静态和动态特征信息,设计了一种唇部特征信息的提取方案,并对该方案进行了深入的分析和探讨,主要工作可以包括为以下方面:(1)对现有的唇部特征信息提取方案的不足和缺陷进行了分析总结。利用说话人发音时的唇部轮廓运动变化特点和规律,以唇部轮廓中的边长、面积、曲率、高宽比作为特征,设计了一种基于说话人唇部特征信息的提取方案,并给出了该方案的处理模型。模型主要包括视频数据预处理、唇部轮廓序列的生成、轮廓序列关键点的自动标定、唇部特征信息生成等四个部分。(2)对于视频数据预处理,规划了视频数据预处理的详细工作流程,设计了预处理过程中的处理模型。对视频首尾无音像段的分割、视频分帧、色彩空间转换、人脸检测与提取、脸部对齐与尺寸归一化处理等关键功能模块进行了算法的设计及实现。(3)对于唇部轮廓序列的生成,以发音过程中内唇和外唇的运动曲线为基础,给出了唇部轮廓序列的生成模型。对唇区提取、唇部轮廓的构造、降噪处理、亮度优化等关键模块进行了算法的设计及实现。(4)对于轮廓序列关键点的自动标定,采用循环扫描的方式,设计了一种基于轮廓序列关键点自动标定的模型。对待选点集的确定、基准点集的确定、关键点位置的选取、首帧唇部轮廓图像关键点的标定、后续唇部轮廓帧图像关键点的追踪标定等关键模块进行了算法的设计及实现。(5)对于唇部特征信息的生成,基于说话人发音时的唇部运动变化过程,设计了唇部特征信息的生成模型。模型中将唇部轮廓中的边长、面积作为静态特征,唇部轮廓中的曲率、高宽比作为动态特征,再将静态与动态特征进行归类及融合从而形成完整的唇部特征信息。对边线的选取及边长特征的生成、面积特征的生成、曲率特征的生成、高宽比特征的生成、唇部特征信息的融合等关键模块进行了算法的设计及实现。(6)从可用性与有效性等方面对所设计的唇部特征信息提取方案进行了验证和分析。
二、说话人身份识别系统的设计与实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、说话人身份识别系统的设计与实现(论文提纲范文)
(1)移动互联网身份认证关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 本文的主要工作及结构安排 |
1.3.1 本文的主要工作 |
1.3.2 本文的结构安排 |
第二章 具备智能风控的多因子身份认证技术 |
2.1 前言 |
2.2 研究动机和相关工作 |
2.3 具备智能风控的多因子身份认证技术框架 |
2.4 轻量级身份认证服务接入 |
2.5 多因子联合身份认证 |
2.5.1 多因子身份认证强度分析 |
2.5.2 基于数据共享的联合身份认证 |
2.6 基于深度学习的身份认证风险控制 |
2.6.1 用户行为大数据分析 |
2.6.2 身份认证风险控制 |
2.7 应用案例 |
2.8 本章小结 |
第三章 说话人验证系统的安全性检测方法 |
3.1 前言 |
3.2 研究动机和相关工作 |
3.3 基础知识 |
3.3.1 说话人验证基础知识 |
3.3.2 损失函数TE2E和GE2E |
3.4 对抗性实例生成器系统设计 |
3.4.1 对抗性实例攻击模型 |
3.4.2 对抗性实例技术需求 |
3.4.3 对抗性实例剪辑函数 |
3.4.4 广义相关攻击损失函数 |
3.4.5 隐蔽相关攻击损失函数 |
3.5 性能分析 |
3.5.1 实验设置 |
3.5.2 性能指标 |
3.5.3 攻击特性 |
3.6 攻击和防御讨论 |
3.6.1 对抗性实例欺骗攻击的探索 |
3.6.2 针对对抗性实例欺骗攻击的防御 |
3.7 本章小结 |
第四章 基于椭圆曲线密码的三因子身份认证协议 |
4.1 前言 |
4.2 研究动机和相关工作 |
4.3 已有相关方案分析 |
4.3.1 已有方案回顾 |
4.3.2 已有方案缺陷 |
4.4 基于椭圆曲线密码的三因子身份认证协议 |
4.4.1 系统架构 |
4.4.2 具体协议描述 |
4.5 安全性与性能分析 |
4.5.1 安全性分析 |
4.5.2 性能分析 |
4.6 本章小结 |
第五章 基于硬件令牌的物联网身份认证模型 |
5.1 前言 |
5.2 研究动机和相关工作 |
5.3 基于硬件令牌的物联网身份认证模型设计 |
5.3.1 相关背景知识 |
5.3.2 安全风险分析 |
5.3.3 模型设计原则 |
5.3.4 具体模型描述 |
5.4 安全性与性能分析 |
5.4.1 实验评估设置 |
5.4.2 安全性分析 |
5.4.3 性能分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
缩略语 |
致谢 |
攻读博士学位期间发表的学术论文目录 |
(2)基于深度学习的反欺骗声纹识别系统设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 声纹识别技术研究现状 |
1.2.1 技术概述 |
1.2.2 国内外研究现状 |
1.3 反欺骗攻击技术研究现状 |
1.3.1 概述 |
1.3.2 国内外研究现状 |
1.4 主要研究内容 |
1.5 论文章节结构 |
1.6 本章小结 |
第二章 相关技术介绍 |
2.1 语音信号预处理 |
2.1.1 预加重 |
2.1.2 分帧 |
2.1.3 加窗 |
2.2 特征提取 |
2.2.1 线性预测编码 |
2.2.2 线性预测倒谱系数 |
2.2.3 梅尔频率倒谱系数 |
2.3 识别算法 |
2.3.1 矢量量化 |
2.3.2 高斯混合-通用背景模型 |
2.3.3 联合因子分析 |
2.3.4 身份向量i-vector |
2.3.5 d-vector |
2.4 评价指标 |
2.4.1 ROC曲线 |
2.4.2 等错误率 |
2.5 欺骗攻击与反欺骗技术 |
2.5.1 录音重放 |
2.5.2 语音合成 |
2.5.3 语音转换 |
2.6 本章小结 |
第三章 基于深度学习的反欺骗声纹识别算法 |
3.1 特征提取 |
3.1.1 分帧加窗 |
3.1.2 快速傅里叶变换 |
3.1.3 多分辨率语谱图 |
3.2 反欺骗声纹识别模型 |
3.2.1 深度残差网络ResNet |
3.2.2 通道注意力模型 |
3.3 实验结果与分析 |
3.3.1 数据集 |
3.3.2 实验结果 |
3.4 本章小结 |
第四章 基于深度学习的反欺骗声纹识别系统设计与实现 |
4.1 系统需求分析 |
4.1.1 功能性需求分析 |
4.1.2 性能需求分析 |
4.2 系统概要设计 |
4.2.1 系统结构设计 |
4.2.2 系统工作流程 |
4.3 系统详细设计与实现 |
4.3.1 用户交互模块 |
4.3.2 预处理模块 |
4.3.3 特征提取模块 |
4.3.4 语音表征模块 |
4.3.5 数据存储模块 |
4.3.6 欺骗检测模块 |
4.3.7 说话人验证模块 |
4.3.8 系统实现 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 本文研究总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
(3)基于SOPC的声纹识别系统的设计与现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 声纹识别发展与研究现状 |
1.3 技术难点及主要工作 |
1.4 论文章节安排 |
第二章 系统关键技术 |
2.1 声纹识别技术 |
2.1.1 声纹识别的分类 |
2.1.2 声纹识别流程 |
2.2 SOPC系统设计方法 |
2.2.1 基于FPGA的 SOPC技术简介 |
2.2.2 Nios II软核处理器 |
2.2.3 Avalon架构 |
2.2.4 SOPC系统设计开发流程 |
第三章 声纹识别系统总体设计 |
3.1 系统功能设计 |
3.1.1 系统功能需求与分析 |
3.1.2 系统功能划分与流程设计 |
3.2 系统硬件平台 |
3.2.1 Cyclone II FPGA |
3.2.2 语音信号采集模块 |
第四章 声纹识别系统的硬件设计与实现 |
4.1 预处理模块 |
4.1.1 预加重模块 |
4.1.2 分帧模块 |
4.1.3 加窗模块 |
4.1.4 端点检测模块 |
4.2 MFCC特征参数提取模块 |
4.2.1 FFT模块 |
4.2.2 功率谱模块 |
4.2.3 Mel滤波模块 |
4.2.4 LOG模块 |
4.2.5 DCT模块 |
4.2.6 动态特征模块 |
第五章 基于SOPC的声纹识别系统实现与功能测试 |
5.1 预处理模块的集成 |
5.2 MFCC特征参数提取模块的集成 |
5.3 SOPC系统的集成 |
5.4 系统板级调试验证 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
致谢 |
(4)基于深度学习的说话人识别研究与应用(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 选题背景及意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 说话人识别研究现状分析 |
1.2.1 传统的说话人识别研究历史 |
1.2.2 基于深度学习的说话人识别研究现状 |
1.3 论文主要工作 |
1.4 论文组织结构 |
第2章 说话人识别相关技术概述 |
2.1 说话人识别概述 |
2.1.1 说话人识别分类 |
2.1.2 说话人识别原理 |
2.1.3 说话人识别系统框架 |
2.2 说话人识别性能评价指标 |
2.2.1 识别准确率与F1值 |
2.2.2 检测错误权衡曲线与等错误率 |
2.2.3 最小检测损失 |
2.2.4 Top-N正确率 |
2.3 语音特征参数 |
2.3.1 梅尔频率倒谱系数 |
2.3.2 滤波器组系数 |
2.3.3 语谱图特征参数 |
2.4 深度学习技术 |
2.4.1 卷积神经网络 |
2.4.2 循环神经网络 |
2.5 本章小结 |
第3章 基于多特征融合的语音特征提取方式研究 |
3.1 引言 |
3.2 多特征融合方案 |
3.2.1 多特征融合 |
3.2.2 特征参数设计 |
3.2.3 特征提取流程 |
3.3 基于卷积神经网络的验证实验 |
3.3.1 实验数据 |
3.3.2 实验设计 |
3.3.3 说话人确认测试 |
3.3.4 说话人辨认测试 |
3.3.5 说话人特征可视化 |
3.3.6 实验总结 |
3.4 基于循环神经网络的验证实验 |
3.4.1 实验设计 |
3.4.2 说话人确认测试 |
3.4.3 说话人辨认测试 |
3.4.4 说话人特征可视化 |
3.4.5 实验总结 |
3.5 本章小结 |
第4章 基于说话人全局中心的端到端损失函数 |
4.1 引言 |
4.2 说话人识别任务中常用的损失函数 |
4.2.1 交叉熵损失函数 |
4.2.2 三元组损失函数 |
4.2.3 端到端损失函数 |
4.3 常用损失函数性能对比实验 |
4.3.1 实验设计 |
4.3.2 说话人确认测试 |
4.3.3 说话人辨认测试 |
4.3.4 说话人特征可视化 |
4.3.5 模型收敛性分析 |
4.3.6 实验总结 |
4.4 全局中心端到端损失函数 |
4.4.1 说话人的全局中心向量 |
4.4.2 GC_GE2E的使用方式 |
4.5 GC_GE2E中超参数取值研究实验 |
4.5.1 实验设计 |
4.5.2 中心向量更新系数α取值研究 |
4.5.3 联合训练损失权重λ取值研究 |
4.5.4 实验总结 |
4.6 GC_GE2E损失函数有效性验证实验 |
4.6.1 实验设计 |
4.6.2 实验数据 |
4.6.3 说话人确认测试 |
4.6.4 说话人辨认测试 |
4.6.5 实验总结 |
4.7 本章小结 |
第5章 基于多尺度卷积残差网络的说话人识别算法 |
5.1 引言 |
5.2 说话人识别模型构建 |
5.2.1 多尺度卷积残差模块 |
5.2.2 说话人识别网络模型 |
5.3 说话人识别模型有效性验证实验 |
5.3.1 实验数据 |
5.3.2 基线模型 |
5.3.3 实验设计 |
5.3.4 说话人确认测试 |
5.3.5 说话人辨认测试 |
5.3.6 特征可视化分析 |
5.4 说话人识别模型鲁棒性验证实验 |
5.4.1 实验数据 |
5.4.2 实验设计 |
5.4.3 实验结果分析 |
5.5 本章小结 |
第6章 基于说话人识别的身份核验与识别系统 |
6.1 系统设计 |
6.1.1 系统架构设计 |
6.1.2 系统流程设计 |
6.1.3 系统功能设计 |
6.2 系统实现 |
6.3 系统运行结果展示 |
6.3.1 声纹注册功能展示 |
6.3.2 身份核验功能展示 |
6.3.3 身份识别功能展示 |
6.4 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(5)基于音视频的多模态融合说话人识别研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 论文组织结构 |
第2章 声纹识别和人脸识别技术及特征融合策略 |
2.1 声纹识别技术 |
2.1.1 声纹识别的分类 |
2.1.2 语音信号特征提取 |
2.2 人脸识别技术 |
2.2.1 人脸识别的步骤 |
2.2.2 人脸识别的常用方法 |
2.3 多模态融合的说话人识别 |
2.3.1 融合分类 |
2.3.2 典型融合算法 |
2.3.3 神经网络中常见的融合策略 |
2.4 本章小结 |
第3章 多模态融合说话人识别网络模型架构 |
3.1 网络结构 |
3.1.1 深度残差网络 |
3.1.2 双向门控循环单元网络 |
3.2 音频流数据的处理 |
3.3 视频流数据的处理 |
3.4 端到端多模态融合模型 |
3.5 本章小结 |
第4章 基于音视频的多模态融合说话人识别 |
4.1 实验环境介绍 |
4.2 实验数据 |
4.3 基于端到端的多模态融合说话人识别 |
4.3.1 数据预处理 |
4.3.2 模型训练基本参数 |
4.3.3 模型结构设置 |
4.4 实验结果与分析 |
4.5 本章小结 |
第5章 噪声数据下的多模态融合说话人识别 |
5.1 音频噪声 |
5.2 图像噪声 |
5.3 基于噪声数据的多模态融合说话人识别 |
5.3.1 基于噪音数据的声纹识别 |
5.3.2 基于噪声数据的人脸识别 |
5.3.3 基于噪声数据的多模态融合说话人识别 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
攻读学位期间的研究成果 |
致谢 |
(6)基于神经网络特征映射的声纹识别技术研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 本文研究内容 |
1.4 论文章节安排 |
第二章 相关理论基础 |
2.1 传统单通道语音去噪算法 |
2.1.1 谱减法 |
2.1.2 维纳滤波法 |
2.1.3 OMLSA算法 |
2.2 声纹识别基础理论 |
2.2.1 预处理 |
2.2.2 语音特征参数 |
2.2.3 识别模型 |
2.3 神经网络基础理论 |
2.3.1 全连接神经网络 |
2.3.2 生成对抗神经网络 |
2.4 声纹识别系统性能的评测准则 |
2.5 本章小结 |
第三章 基于深层神经网络的特征映射 |
3.1 系统总体框架 |
3.2 FMDNN的模型结构与输入输出 |
3.3 FMDNN的训练过程 |
3.4 仿真实验和结果分析 |
3.4.1 实验配置 |
3.4.2 实验结果分析 |
3.5 本章小结 |
第四章 基于Wasserstein生成对抗神经网络的特征映射 |
4.1 Wasserstein生成对抗神经网络 |
4.2 基于FMWGAN的特征映射 |
4.3 仿真实验和结果分析 |
4.4 本章小结 |
第五章 声纹识别程序的实现与测试 |
5.1 程序功能需求和性能需求分析 |
5.1.1 程序功能需求分析 |
5.1.2 系统性能需求分析 |
5.2 声纹识别程序系统设计 |
5.2.1 系统结构设计 |
5.2.2 系统功能设计 |
5.3 系统的实现 |
5.3.1 系统开发环境 |
5.3.2 语音采集模块实现 |
5.3.3 预处理模块及特征提取模块的实现 |
5.3.4 用户声纹信息注册模块的实现 |
5.3.5 说话人识别模块实现 |
5.3.6 连续语音说话人识别模块的实现 |
5.4 程序测试 |
5.4.1 程序功能测试 |
5.4.2 程序性能测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 后续展望 |
致谢 |
参考文献 |
(7)说话人识别聚类算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 说话人识别研究进展 |
1.2.2 说话人聚类研究进展 |
1.3 研究目标与研究内容 |
1.4 论文内容安排 |
第二章 说话人识别基础 |
2.1 语音信号预处理 |
2.2 语音信号特征提取 |
2.2.1 梅尔频率倒谱系数 |
2.2.2 MFCC提取过程 |
2.3 GMM-UBM模型 |
2.4 系统的评价标准 |
2.5 本章小结 |
第三章 基于神经网络的说话人嵌入特征提取方法 |
3.1 基于卷积神经网络的说话人嵌入特征方案设计 |
3.1.1 卷积神经网络 |
3.1.2 梅尔语谱图特征提取 |
3.1.3 CNN模型的方案设计 |
3.2 基于Resnet改进的说话人嵌入特征方案设计 |
3.2.1 残差块 |
3.2.2 注意力机制 |
3.2.3 基于Resnet改进的网络设计 |
3.3 实验结果与分析 |
3.3.1 实验条件 |
3.3.2 说话人嵌入特征提取网络的实现 |
3.3.3 网络参数的选取 |
3.4 本章小结 |
第四章 说话人聚类算法研究 |
4.1 说话人聚类算法 |
4.1.1 层次聚类 |
4.1.2 近邻传播聚类 |
4.1.3 谱聚类 |
4.1.4 对不同聚类算法的分析 |
4.2 改进的基于特征间隔的谱聚类算法 |
4.2.1 构建相似度矩阵 |
4.2.2 自动估计聚类数目 |
4.2.3 谱聚类算法的优化与实现 |
4.3 实验结果与分析 |
4.3.1 实验条件 |
4.3.2 不同聚类算法的对比 |
4.4 本章小结 |
第五章 说话人识别聚类系统搭建及实验验证 |
5.1 说话人识别聚类系统 |
5.2 实验方案 |
5.2.1 基于GMM的说话人识别聚类实现 |
5.2.2 基于d-vector的说话人识别聚类实现 |
5.2.3 基于a-vector的说话人识别聚类实现 |
5.3 实验结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
(8)基于SOPC的声纹识别系统中声纹识别算法的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究的背景与意义 |
1.2 声纹识别研究的现状 |
1.3 本文的研究内容 |
1.4 本文的主要工作及章节安排 |
1.4.1 论文的主要工作 |
1.4.2 论文的章节安排 |
第二章 基于 SOPC 的声纹识别算法相关技术 |
2.1 基于FPGA的 SOPC技术 |
2.2 声纹识别模型选择 |
2.3 基于矢量量化的声纹识别模型 |
2.3.1 矢量量化的基本原理 |
2.3.2 矢量量化的失真测度 |
2.3.3 矢量量化的码本设计 |
2.4 本章小结 |
第三章 SOM-KMeans算法介绍 |
3.1 K-Means算法概述 |
3.2 自组织映射神经网络(SOM)概述 |
3.3 基于K-Means和 SOM的改进算法 |
3.3.1 算法改进的思路 |
3.3.2 新算法的流程 |
3.4 本章小结 |
第四章 SOM-KMeans声纹识别算法仿真测试 |
4.1 语音数据库的建立 |
4.2 语音信号预处理 |
4.2.1 预加重 |
4.2.2 分帧 |
4.2.3 加窗 |
4.2.4 端点检测 |
4.3 特征参数提取 |
4.3.1 FFT变换 |
4.3.2 Mel滤波 |
4.3.3 对数运算 |
4.3.4 DCT变换 |
4.4 模型训练 |
4.5 模型匹配 |
4.6 实验结果与分析 |
4.7 本章小结 |
第五章 基于SOPC的 SOM-KMeans声纹识别算法性能测试 |
5.1 实验的总体设计 |
5.2 实验平台介绍 |
5.3 SOPC硬件平台搭建 |
5.4 实验结果与分析 |
5.5 本章小结 |
第六章 工作总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
致谢 |
(9)基于深度卷积神经网络的声纹识别算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状和发展趋势 |
1.2.1 卷积神经网络研究现状和发展趋势 |
1.2.2 声纹识别研究现状和发展趋势 |
1.3 本文的主要工作 |
1.4 本文的组织结构 |
第二章 相关理论及技术 |
2.1 语音信号预处理 |
2.1.1 预处理步骤 |
2.1.2 Fbank特征参数提取 |
2.2 声纹识别 |
2.2.1 声纹识别概念 |
2.2.2 声纹识别模型 |
2.2.3 声纹识别评价指标 |
2.3 卷积神经网络 |
2.3.1 卷积神经网络结构 |
2.3.2 残差块 |
2.3.3 误差反向传播算法 |
2.3.4 批规范化算法 |
2.3.5 Deep Speaker模型 |
2.4 本章小结 |
第三章 基于注意力机制的深度卷积神经网络的声纹识别系统 |
3.1 声纹识别系统框架 |
3.2 基于SE注意力机制的深度卷积网络模型 |
3.2.1 SE-Res Block结构 |
3.2.2 SECNN模型结构 |
3.3 基于CBAM注意力机制的深度卷积网络模型 |
3.3.1 Attentive Res Block结构 |
3.3.2 Attentive CNN模型结构 |
3.4 实验与结果分析 |
3.4.1 实验环境和数据集介绍 |
3.4.2 数据集的语音预处理 |
3.4.3 声纹识别实验步骤 |
3.4.4 声纹辨认实验结果分析 |
3.4.5 声纹确认实验结果分析 |
3.5 本章小结 |
第四章 基于三元组损失改进声纹识别系统 |
4.1 改进的声纹识别系统框架 |
4.2 基于三元组损失的微调阶段 |
4.2.1 三元组损失基本定义 |
4.2.2 随机采样三元组 |
4.2.3 基于三元组采样的优化 |
4.2.4 微调阶段的模型评估 |
4.3 实验与结果分析 |
4.3.1 实验环境和数据集介绍 |
4.3.2 声纹辨认实验结果分析 |
4.3.3 声纹确认实验结果分析 |
4.4 本章小结 |
第五章 声纹识别系统实现 |
5.1 需求分析 |
5.1.1 业务流程 |
5.1.2 系统用例 |
5.1.3 总体功能 |
5.2 概要设计 |
5.2.1 系统架构 |
5.2.2 子系统包图 |
5.2.3 数据库逻辑设计 |
5.3 详细设计 |
5.3.1 模块设计 |
5.3.2 数据库表设计 |
5.4 系统实现 |
5.4.1 开发环境及开发工具 |
5.4.2 声纹辨认结果展示 |
5.4.3 声纹确认结果展示 |
5.5 系统测试 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士期间取得的研究成果 |
(10)基于说话人唇部特征信息提取算法的研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及现状 |
1.2 本文主要任务及研究内容 |
1.3 论文的组织结构 |
第二章 相关理论及关键技术 |
2.1 图像处理的相关技术简介 |
2.1.1 能量图 |
2.1.2 图像的运算 |
2.1.3 尺度归一化 |
2.2 模式识别的相关技术简介 |
2.2.1 主成分分析 |
2.2.2 线性判别分析 |
2.2.3 聚类分析 |
第三章 基于说话人唇部特征信息的提取方案构建 |
3.1 工作概述 |
3.2 方案的体系结构建立 |
3.3 方案的概要设计 |
3.3.1 说话人发音视频数据的预处理 |
3.3.2 唇部轮廓序列的生成 |
3.3.3 轮廓序列关键点的自动标定 |
3.3.4 唇部特征信息的生成 |
3.4 小结 |
第四章 说话人发音视频数据的预处理 |
4.1 工作概述及流程 |
4.2 预处理的详细设计 |
4.3 预处理中核心模块的算法设计及实现 |
4.3.1 视频首尾无音像段分割 |
4.3.2 视频分帧 |
4.3.3 色彩空间转换 |
4.3.4 人脸检测与提取 |
4.3.5 脸部对齐与尺寸归一化处理 |
4.4 小结 |
第五章 唇部轮廓序列的生成 |
5.1 工作概述及流程 |
5.2 唇部轮廓序列生成的详细处理模型 |
5.3 唇部轮廓序列生成的核心模块算法设计及实现 |
5.3.1 唇区提取 |
5.3.2 唇部轮廓的构造 |
5.3.3 唇部轮廓降噪处理 |
5.3.4 唇部轮廓亮度优化 |
5.4 小结 |
第六章 唇部轮廓序列关键点的自动标定 |
6.1 工作概述及流程 |
6.2 关键点自动标定的详细设计 |
6.3 关键点自动标定的核心模块算法设计及实现 |
6.3.1 关键点个数的选取 |
6.3.2 待选点集的确定 |
6.3.3 基准点集的确定 |
6.3.4 首帧唇部轮廓图像关键点的标定 |
6.3.5 后续唇部轮廓帧图像关键点的追踪标定 |
6.4 小结 |
第七章 唇部特征信息的生成 |
7.1 工作概述及流程 |
7.2 唇部特征信息生成的详细设计 |
7.3 唇部特征信息生成核心模块的算法设计 |
7.3.1 关键帧筛选 |
7.3.2 边线的选取及特征边信息的生成 |
7.3.3 生成面积特征信息 |
7.3.4 生成曲率特征信息 |
7.3.5 生成高宽比特征信息 |
7.3.6 唇部特征信息的融合 |
7.4 小结 |
第八章 唇部特征提取算法的验证与分析 |
8.1 概述 |
8.2 身份识别过程的建立 |
8.2.1 说话人身份识别过程的概要设计 |
8.2.2 说话人身份识别过程的核心环节的设计实现 |
8.3 唇部特征信息提取算法的可用性分析 |
8.3.1 抗噪音性分析 |
8.3.2 内容修改性分析 |
8.4 唇部特征信息提取算法的有效性分析 |
8.5 小结 |
第九章 总结及下一步研究工作 |
9.1 工作总结 |
9.2 论文的特色 |
9.3 下一步的主要工作 |
参考文献 |
致谢 |
附录1 外唇边缘轮廓构造过程的核心代码段 |
附录2 高宽比特征信息生成的核心代码段 |
附录3 首帧唇部轮廓图像关键点自动标定的核心代码段 |
附录4 实验中用到的唇部特征数据库的记录 |
四、说话人身份识别系统的设计与实现(论文参考文献)
- [1]移动互联网身份认证关键技术研究[D]. 落红卫. 北京邮电大学, 2021(01)
- [2]基于深度学习的反欺骗声纹识别系统设计与实现[D]. 陈青梅. 北京邮电大学, 2021(01)
- [3]基于SOPC的声纹识别系统的设计与现[D]. 苏靖婷. 内蒙古大学, 2021(12)
- [4]基于深度学习的说话人识别研究与应用[D]. 张兴明. 四川大学, 2021
- [5]基于音视频的多模态融合说话人识别研究[D]. 李永敏. 西北民族大学, 2021(08)
- [6]基于神经网络特征映射的声纹识别技术研究与实现[D]. 刘余. 电子科技大学, 2021(01)
- [7]说话人识别聚类算法研究[D]. 李佰玲. 电子科技大学, 2021(01)
- [8]基于SOPC的声纹识别系统中声纹识别算法的研究与实现[D]. 王伟伟. 内蒙古大学, 2021(12)
- [9]基于深度卷积神经网络的声纹识别算法研究[D]. 戚敏惠. 电子科技大学, 2021(01)
- [10]基于说话人唇部特征信息提取算法的研究[D]. 刘铭尧. 兰州大学, 2021(09)