一、Internet垃圾邮件过滤技术研究(论文文献综述)
向平常[1](2020)在《基于集成学习的个性化垃圾邮件过滤技术研究与应用》文中提出随着互联网时代的来临,电子邮件凭借其方便快捷的特点,已经成为人们日常工作学习传递信息不可或缺的一种方式,与此同时垃圾邮件的出现也引起了很多问题。垃圾邮件在传播过程中占用网络资源,分散用户工作学习的注意力,威胁用户隐私安全,给互联网环境带来了消极的影响,因此研究垃圾邮件过滤技术有很大的现实意义,本文针对垃圾邮件过滤技术研究现状中的不足,提出了相关的解决办法,主要工作包括:(1)针对现有的垃圾邮件过滤技术提取邮件特征不完整的问题,本文根据邮件结构化的特点,提出一种基于集成学习的Ada-CK邮件分类方法,该方法主要通过将邮件内容分为邮件头和邮件正文两部分,基于邮件头的邮件行为特征构建CART决策树分类器,基于邮件正文的内容语义特征构建K最近邻分类器,并在K最近邻分类方法中提出一种改进的基于相似度阈值的文本相似度比较方法,将文本相似度比较时的文本关键词划分为近似词语和一般词语,两者分别计算并线性组合得到最终的文本相似度。基于Adaboost的集成学习思想,将邮件头的CART决策树和邮件正文的K最近邻方法作为基分类器,经过多个基分类器对不同样本权重和不同样本特征的训练,集成基分类器的分类结果和话语权,得到最终的邮件分类结果。通过将Ada-CK方法分别与基于单个基分类器的Ada-CART和Ada-KNN方法,以及其它的邮件分类方法Co-PRFC,L1-SVM,TSVM-NB对比,实验表明Ada-CK在邮件分类精度指标上明显优于其它方法,符合邮件应用要求的准确率高的特点。(2)针对不同邮箱用户对垃圾邮件的认知不同的问题,提出一种基于用户个性化的主动学习方法ALUP,通过从邮件的正文文本中引入用户兴趣集的概念,介绍用户兴趣集模型及具体的基于兴趣集的分类方法。同时,在邮件的增量学习过程中,引入主动学习的方法,基于样本的分布密度来选择不确定度高的增量样本进行更新训练,避免将所有增量样本加入到训练集中造成的时间复杂度高的问题。通过将ALUP与其它邮件分类方法ALNSTC,SVM-AL,MFL进行性能上的对比,实验表明ALUP方法在保证较高的邮件分类精度的同时,明显降低了时间消耗,符合邮件在线应用要求的准确率高,速度快,且遵循用户个性化的特点。
闫秘[2](2020)在《基于fastText的垃圾邮件过滤算法研究》文中研究表明电子邮件在互联网时代扮演着不可替代的角色,垃圾邮件分类既可以阻断无用信息传播,提高用户体验,也可以拦截有害信息降低潜在危险。以往众多学者提出基于传统机器学习的垃圾邮件分类方法,存在人工筛选特征工程难度较大、训练时间较长等缺陷。近年来,深度学习在自然语言处理领域取得了令人瞩目的成就,fastText作为一种浅层神经网络在垃圾邮件分类上表现优良。本文在充分调研的基础上,发现fastText存在下面两点不足:(1)在n-gram特征处理阶段会产生噪声词,这些词出现的频率极高且缺少实际语义特征信息,降低邮件分类准确性。(2)邮件文本较短小,在向量空间建模时会产生稀疏向量与稀疏矩阵,不能充分映射特征空间,影响分类效果。针对上述问题,本文在fastText算法基础上对其改进。(1)提出TF-fastText算法,在输入层使用改进的TF-IDF-N算法计算n-gram处理后的特征词权重,根据权重去除高频低区分度的无意义词,从而消减fastText模型的噪声数据,提高邮件分类的准确率。通过将TF-IDF-N与传统算法进行组合实验,证明了TF-IDF-N的改进是有效的。使用TF-fastText与传统机器学习算法、神经网络算法进行邮件分类实验,实验结果表明此算法不仅能提升邮件分类的准确率而且花费的时间成本较低。(2)提出LDA-fastText算法,通过提取语料库中的主题词,将主题词与原始词序列对比,把相同主题词下的单词补充到原始词序列,减少稀疏向量,并且有利于高区分度特征词在隐藏层的向量表示,提高分类准确性。将其与传统机器学习算法、神经网络算法以及TF-fastText算法进行邮件分类实验,实验结果表明此算法对邮件分类的准确率略有提升但时间成本略高。(3)提出TFL-fastText算法,结合两种算法的优点既去除了冗余词条又补充了稀疏矩阵,将其与传统机器学习算法:朴素贝叶斯、KNN、SVM和神经网络算法:fastText、RNN、CNN及改进的TF-fastText、LDA-fastText进行邮件分类实验,实验结果表明此算法分类准确率最高且时间成本最低,证明了TFL-fastText的有效性。
路永鑫[3](2020)在《基于卷积神经网络的邮件管理系统的设计与实现》文中研究说明随着信息技术的发展,电子邮件服务以其高性价比的通信优势,迅速在网络用户中普及,成为人们信息交流的重要工具。但是,电子邮件便利的同时也带来了垃圾邮件泛滥的问题,垃圾邮件不仅占用互联网资源,更是对用户和企业造成严重困扰,耗费时间和精力,导致经济损失。因此,垃圾邮件过滤技术变得越来越重要,使用一款具有垃圾邮件过滤功能的邮件管理系统成为人们的需求。论文根据当前主要垃圾邮件过滤技术的特点与适用场景,基于卷积神经网络算法构建了一种中文垃圾邮件过滤模型。在模型构建前,论文对邮件内容进行了文本预处理和word2vec词向量生成等工作,然后依据卷积神经网络的结构和算法原理,完成了基础模型构建。为了提高模型的速度和准确率,论文依据卷积神经网络算法的结构特点,提出了 Dropout和L2正则化的优化方案。依据正常邮件和垃圾邮件的文本特征,提出了变步长卷积和带权池化的改进方案。然后通过实验,观察优化和改进方案对模型产生的影响。实验结果表明,经过优化和改进的中文垃圾邮件过滤算法,较未优化改进的中文垃圾邮件过滤算法,准确率提高4.43%,精确率提高4.91%,召回率提高6.10%,F1值提高5.50%,且模型较算法改进之前各指标在更快地提升。说明通过Dropout和L2正则化方案来优化算法,以变步长卷积和带权池化方案来改进算法,在提高模型分类速度和准确率方面,取得了一定效果。在对卷积神经网络中文垃圾邮件过滤算法改进后,论文采用JavaMail框架和vue-cli脚手架对邮件管理系统进行了设计与实现,并将基于改进算法构建的中文垃圾邮件过滤模型应用在系统中,使邮件管理系统能够提供用户登录,收发邮件,保存草稿,查看收件箱、发件箱、草稿箱和垃圾箱、管理通讯录、过滤垃圾邮件等主要功能。
缪沛恩[4](2020)在《基于Word2vec的电子邮件分类》文中进行了进一步梳理随着信息化技术的不断发展,电子邮件以其廉价性、实用性、即时性成为互联网应用最广的服务,电子邮件因为其突出的便捷性极大的便利了人们的日常沟通交流,对社会经济的发展产生了极大的促进作用,玉有微瑕也带来了一个意外的副产品——垃圾邮件。垃圾邮件的泛滥不但造成了极大的经济损失,同时还威胁着信息的安全,不仅影响社会风气,污染人文环境,还扭曲了人们的人生观、价值观,产生了诸多的社会的问题,时刻打击着人们对网络交流的信心,阻碍着互联网的发展。因此,如何解决垃圾邮件的问题,如何提高垃圾邮件过滤技术成了迫在眉睫的难题。目前在国内外垃圾邮件过滤技术研究中,以基于邮件内容的分类成为了主流,但传统的机器学习算法在做文本特征化的过程中不可避免的存在着诸如维度过大、数据集太过稀疏、数据彼此独立没有联系,丢失太多重要特征从而导致分类的准确率达不到人们的理想要求,本文在基于邮件内容的基础上,利用Word2vec中的Skip-gram模型+负采样策略来训练分布式文本词向量,并针对过拟合现象对模型进行相应的调整,本文相关工作如下:(1)数据集采用国际文本检索会议提供的一个公开的垃圾邮件语料库——中文数据集Trec06c,分词后训练词向量,经实验比对,将词向量的维度设置为200维,考虑到邮件内容长短不一,将词向量进行tf-idf加权处理后作为输入数据集输入到BP神经网络模型中,对比传统机器学习模型的性能得到了明显提高。(2)因为深度学习里参数众多,极容易出现过拟合现象并且计算速度慢,所以本文中将会在模型中加入Dropout层,并将数据集分成多个Bitch-size,分批输入模型,另外基于accuracy曲线图会做多次对比实验,选择最好的那个Dropout系数,可以让模型具有更好的泛化性。(3)在以往2分类中一般使用Sigmoid分类器,但鉴于Sigmoid函数越到极限收敛速度越慢的缺点,本文中将采用Softmax分类器,并在分类器中加入L2正则惩罚项,可以让模型对不同的样本表现出更好的鲁棒性。(4)为提高收敛速度,弥补传统的梯度下降法学习率固定无法修改的弊端,改用自适应学习率优化算法Adam算法。(5)将最佳结果与传统的贝叶斯模型和KNN模型进行对比,本文改进后的BP神经网络模型预测结果的Precision、Accuracy和Recall要好于传统的机器学习算法。
王鹿[5](2020)在《基于贝叶斯分类的垃圾邮件过滤技术研究》文中研究指明随着互联网技术的飞速发展,电子邮件以方便、快捷、环保等优点成为人们日常生活工作中不可或缺的一部分。但与此同时,垃圾邮件的出现对用户造成了严重的影响,给社会带来了极大的财产损失和安全威胁,因此研究垃圾邮件过滤技术具有重要意义。本文在基于目前现有的理论和研究基础之上,对垃圾邮件过滤方法进行了系统的介绍,针对当前朴素贝叶斯算法过滤垃圾邮件时尚且存在的不足进行了一定的改进。主要研究内容如下:(1)深入研究反垃圾邮件相关技术,包括邮件的预处理、文本表示模型、特征提取等等。着重研究了朴素贝叶斯分类算法的原理及其来源,并分析它在文本分类方面的优缺点。(2)分析随机森林算法的原理以及在特征选择方面的优势,提出使用随机森林结合朴素贝叶斯的分类算法。针对垃圾邮件过滤系统中普遍存在的维数灾难的问题,通过随机森林特征选择过滤掉邮件集中基尼不纯度为0的特征词,由朴素贝叶斯算法计算出特征选择后的测试邮件的后验概率,得出测试邮件所属类别。(3)提出基于树结构的朴素贝叶斯分类算法。针对朴素贝叶斯算法在分类前期的训练阶段大量消耗系统和网络资源,严重影响分类效率的问题,提出使用树结构代替算法中原本使用的数组来维护训练样本中特征词出现的次数;针对朴素贝叶斯算法在邮件样本属性个数较多时,分类效果较差的问题,对特征词条件概率进行开方处理。(4)通过设计的邮件过滤系统对过滤算法进行分类性能测试。实验结果表明,结合了随机森林的朴素贝叶斯算法较原有算法在分类性能上效果更好;基于树结构的朴素贝叶斯算法较原有算法在邮件样本训练过程中耗时明显减少,随着样本的不断增加,训练耗时也只是缓慢增长,通过选取合适的开方次数z值,来降低垃圾邮件的误判率,使得改进后的算法在垃圾邮件过滤方面具有更好的效果。
黄鹤[6](2019)在《基于深度学习的垃圾邮件过滤方法研究》文中进行了进一步梳理随着互联网相关应用的快速发展,广告技术的进步和电子邮件的普及,越来越多的垃圾邮件充斥着我们的生活。如何高效的区分垃圾邮件的研究也逐渐成为了热门课题。因自然语言在结构上有着很强的前后相关性,而且对于中文邮件直接转化成向量会有过高的维度产生,影响最后分类的准确性。基于内容和基于电子邮件源的识别技术现在是常用的两种垃圾邮件过滤方法。例如贝叶斯模型文本识别等就是基于内容的识别技术。白名单与黑名单机制、关键词匹配的是基于邮件来源的技术。电子邮件的数量增加可观、样式层出不穷,基于规则的方法不仅需要对邮件特征规则库进行不断的更新,同时还需要大量的人力。基于内容的方法当前已经取得令人可喜的成效,但随着科技的发展,现在垃圾邮件的制造者们开始大量的使用图像垃圾邮件,然后肆意的进行传播。这种方式的垃圾邮件更加难以检测且消耗的网络宽带也更大。论文主要分析总结当前常用的垃圾邮件的过滤方法,选择基于深度学习的分类算法作为本文研究的重点,建立垃圾邮件过滤模型。这之中具体工作以及贡献包括如下:1.本章设计了一种基于Skip-gram的CNNs-Highway邮件过滤模型(SGCH)。由于以前的词表示方法主要是独热编码(One-hot),但这样做的缺点是维度过高且数据稀疏,对于垃圾邮件过滤,单词之前和之后的语义信息不能很好地保留。目前,词嵌入(word embedding)可以有效地保留词汇语法和语义信息的词向量转换。本文提出的方法将基于词嵌入中Skip-gram模型将词分布式的映射到一个低维空间中,解决传统的One-hot编码词向量维度过高问题,然后结合不同卷积核的CNNs和Highway网络的级联网络,进行文本特征提取,最后在不同的中英文邮件数据集上进实验,证明其有效性。2.本章设计了一种基于深度卷积神经网络(DCNN)和双向GRU网络的垃圾邮件过滤模型(DCNN-BiGRU)。卷积神经网络可以很好的学习研究对象的局部特征,但同时存在其固有缺点,无法学习序列之间的关系。而循环神经网络则相反,在学习序列之间的关系方面有着不俗表现,但是对研究对象的局部信息却不是很敏感。为了弥补二者之间的缺陷,本文提出了改进的深度卷积神经网络和双向GRU网络,最后在CCERT中文邮件数据集上进行实验,证明其有效性。3.本章设计了一种基于决策级融合的垃圾邮件过滤方法。第1、2两个方法都对文本型垃圾邮件过滤技术的改进。然而,近年来,一些垃圾邮件的制造者利用图像承载着垃圾信息,从而进行大量的传播。单一的某一种模态邮件检测,其缺点是不能对邮件的所有信息进行全面的分析。本文基于前二个邮件文本的过滤方法并结合图像分类技术,提出了基于决策级融合的多模态架构模型,并在本文和图像混合的垃圾邮件数据库进行实验,证明其有效性。
文娅[7](2019)在《基于行为识别的垃圾邮件过滤系统的研究与实现》文中研究说明电子邮件以其传递信息便捷快速的优势己经成为了最为普遍的交流应用之一。虽然电子邮件可以给网络用户提供很大方便,但是同时也会带来某些非常严重的隐患,即有可能会有一些垃圾邮件。垃圾邮件通常数量众多,会在很大程度上挤占网络的带宽资源,从而使得网络通信信道拥堵,让许多网络用户没办法连接到目的网络或者没办法浏览和编辑一些重要的正规邮件。这会大大消耗用户的时间和精力,也会使得网络资源的应用不合理,进而严重损害了互联网的正常秩序和网络安全。所以,怎么去掉网络上面的大量垃圾邮件并且去除垃圾邮件的效率已经变成了网络用户和邮件提供商的亟需解决的问题。当前,去除垃圾邮件的相关技术以及相关研究在互联网的应用领域之中。然而,分析已存在的过滤技术,垃圾邮件过滤方面还存在一些问题,如已存在的的过滤方法精确度不高,经常出现误判的情况和对垃圾邮件过滤精确度高的技术存在耗时过多和用户信息泄露等等的问题。为了进一步加快判断的速度且提高垃圾邮件判断精确度,本文不仅通过研究邮件头的特征,还结合随机森林的特点,将随机森林算法应用在邮件过滤中。这样不仅能够提高判断邮件属性的准确率,同时还提高判定效率。基于行为识别的垃圾邮件过滤系统的研究与实现的工作包括一下内容:1、利用F-score法找出被判定为垃圾邮件的重要行为。根据大量的垃圾邮件分析的得出属性为垃圾邮件所表现出来共同行为特征,将这些行为特征采用F-score方法选择出具体代表性的行为特征。最后,随机森林算法使用被选择的最优行为特征去判定垃圾邮件的可能性。2、构建基于行为识别的随机森林算法垃圾邮件过滤模型。本课题的研究展示了多种垃圾邮件过滤方法,在对这些方法进行充分的分析以及比较之后,最后本文确定把基于行为特征的随机森林方法应用到垃圾邮件的过滤之中。基于当前学术界所应用的一些成熟实验环境和数据信息,对基于行为识别随机森林垃圾邮件过滤模型进行了搭建。本文研究了随机森林的基本结构、算法实现步骤以及训练数据的过程。3、系统的设计与实现。在已有的垃圾邮件过滤模型基础之上,与上文所设计搭建的随机森林模型进行结合,系统实现需求和功能方面的分析与定位,并且实现垃圾邮件系统总体框架的研究与搭建,本文所实现的系统,能够为垃圾邮件的快速和准确过滤展现出一类可行的方法。
徐丹丹[8](2019)在《个性化垃圾邮件过滤的扩展研究》文中指出由于兴趣、爱好的不同,不同用户对垃圾邮件的定义可能存在巨大差异,这是一般化邮件过滤器面临的窘境,因此实现个性化垃圾邮件过滤成为目前邮件过滤领域研究的重要课题。同时,特定用户在不同时间段,兴趣点也会发生变化,会使其重新定义对垃圾邮件的过滤标准,所以检测用户兴趣点是否发生变化也是个性化过滤的关键任务。本文针对特定用户邮箱的错滤情况,对个性化过滤技术进行扩展研究,重点关注如何在动态环境下,结合用户的兴趣特征,降低邮件错滤率,并实现自动修正。主要工作和创新点如下:(1)为了缓解现实情况下网络用户邮箱的错滤程度,本文提出了一种基于客户端的个性化邮件再过滤方法。该方法基于多任务学习理论,使得收件箱和垃圾箱过滤器借鉴彼此的特征描述,“互相学习,分开过滤”,缓解类不平衡问题。本文提出邮件数据流中的“广义虚漂移”概念,同时设计多窗口框架,结合重要性加权的方法以达到动态环境自适应的效果。(2)通常情况下,相同集体(实验室、俱乐部或公司)环境中的用户收到的邮件存在一定的相关性,因此本文提出在集体环境下的个性化邮件再过滤方法。当完全个性化邮件过滤器学到的信息有限时,利用相关性数据,可有效增加其信息量,提高过滤精度。在用户隐私保护的状态下,由用户自主放出主观意识下的垃圾邮件,组成“集体垃圾箱”,设置同集体环境下用户共享垃圾邮件,并基于上一项工作实现个性化过滤。(3)通过在多个公开数据集上与多个现有经典垃圾邮件过滤方法作比较,证明了本文过滤模型的优越性。同时对比集体环境与个体环境下过滤器的性能差异,验证了集体环境下可显着提高过滤器的可预见性。
王宗凯[9](2018)在《基于BP神经网络的多重邮件过滤系统的研究与设计》文中指出随着互联网网络的高速发展,人与人之间在信息交流中使用电子邮件的频率与日俱增,它逐渐成为一个重要的沟通媒介。但是,随着电子邮件的不断普及,伴随而来的是垃圾邮件的泛滥,控制不好甚至会影响了人们的正常工作与生活。目前已有的垃圾邮件过滤仍存在诸多不足,不能很好地将垃圾邮件区分过滤。针对这项不足,如何更好地加强对垃圾邮件过滤技术的研究便显得尤为重要。本次研究是要设计一种基于统计的邮件过滤系统模型。模型训练选用BP神经网络学习算法。实验过程对公共PU语料库进行数据预处理和算法训练得到大量模型,接着进行模型选择,最终通过模型组合得到垃圾邮件过滤系统主辅多重协同模型。邮件在该模型的过滤过程中会被分成多股数据流进入FC层,并分别在Output层输出结果,再根据子模型虚报率(FALLOUT)计算权值得到最终判断结果。论文预处理过程包括了基于Hadoop的词频统计、基于改进TF算法的词典降维和向量空间模型(VSM)形式矩阵生成。词频统计得到总特征词列表、合法邮件特征词列表、垃圾邮件特征词列表和每封邮件特征词列表。本研究针对数据预处理改进了传统的TF算法,通过词频统计对语料库特征词集合进行降维,将维度落在2000维内,收获较好的实验结果。VSM形式稀疏矩阵的生成通过JAVA编写程序实现。主辅模型的选择上通过数据划分将实验数据集划分为A、B、C三个子集,组合算法训练子集和模型仿真子集进行实验,比较A+BC、A+CB、AB+C三种方案训练的模型仿真调和平均精确率,得到系统模型的主模型和辅模型。模型选择是此次研究的关键环节。实验通过不同搭配方案得到模型间的比较、最优单一模型与SVM算法训练模型的比较、最优单一模型与系统组合模型间的比较一步步验证系统模型的性能。实验最后分别通过计算召回率、正确率、F值、精确率、AUC(Area Under Curve)值、基于MACCs和FLOPS的模型运算量、内存占用率对系统模型性能做进一步的测试和评估。实验最终得到的结论,将奇数个较优模型组合为一个分类器,通过多重过滤的方式,可以提高判断准确性和系统泛化能力,并能够有效减少合法邮件的误判。
邹苹钧[10](2018)在《个性化手机垃圾信息过滤技术研究》文中认为随着移动网络、智能手机终端和社交网络的融合,移动社交网络越来越普及,为移动用户之间的信息交流和信息共享提供了便利,也导致了广告、谣言和虚假信息在移动社交网络中的传播,对网络信息进行过滤可以延缓或阻止垃圾信息的传播。由于以往手机垃圾信息过滤技术大多根据垃圾信息的发送者或者垃圾信息的内容进行考虑,没有针对不同用户的个体特征和群体特征进行考虑,导致用户的个性化信息和社交关系无法得到充分的利用,从而造成了针对具体个体用户的垃圾信息过滤结果并不准确。本文首先对手机垃圾信息的概念、移动社交网络的相关内容以及国内外的研究现状进行了概述,对社会计算、用户相似度、众包、群智感知等在本课题中所用到的技术进行了详细的介绍,并总结了传统的垃圾信息过滤技术的研究进展。为了解决传统的垃圾信息过滤技术无法充分利用用户的个性化特征的问题,本文将手机垃圾信息分成共性化手机垃圾信息和个性化手机垃圾信息两类,然后提出了个性化手机垃圾信息过滤机制。针对两类不同垃圾信息,分别采用贝叶斯过滤器和基于用户兴趣的个性化垃圾信息过滤器进行过滤,并将两者结合,共同完成手机垃圾信息的过滤。贝叶斯过滤器用于对共性化手机垃圾信息进行过滤。个性化垃圾信息过滤器采用兴趣相似度来量化用户之间的相似程度,通过用户与好友共享垃圾信息报告的方式实现对垃圾信息的群智感知,来自不同用户的垃圾信息报告构成了本地用户对手机垃圾信息的个性化过滤。为了解决相似度计算的问题,本文对常见的相似度计算方法进行了分析,为了适应本文应用场景,提出了一种基于信息熵的相似度计算方法,用于计算用户之间的相似度。出于计算相似度和推送垃圾信息报告的需要,系统将用户兴趣信息,垃圾信息报告以数据表的形式存储在用户本地。最后,在仿真实验中,本文利用微信用户关系数据集构建虚拟移动社交网络,将个性化手机垃圾信息过滤系统应用到该网络,对过滤机制的效果及系统参数的影响进行分析。实验结果验证了本系统的过滤准确率比其他方法更高,抵抗毒药攻击方面的效果也更好。
二、Internet垃圾邮件过滤技术研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Internet垃圾邮件过滤技术研究(论文提纲范文)
(1)基于集成学习的个性化垃圾邮件过滤技术研究与应用(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 基于发送方特征的过滤技术 |
1.2.2 基于邮件内容的过滤技术 |
1.3 本文主要工作 |
1.4 本文组织结构 |
2 垃圾邮件过滤技术概述 |
2.1 垃圾邮件过滤步骤概述 |
2.1.1 邮件结构及工作原理 |
2.1.2 预处理 |
2.1.3 邮件文本特征选择 |
2.1.4 邮件文本特征表示 |
2.2 垃圾邮件过滤方法概述 |
2.2.1 增量学习 |
2.2.2 主动学习 |
2.2.3 集成学习 |
2.2.4 半监督学习 |
2.3 本章小结 |
3 基于邮件结构化文本的集成学习 |
3.1 研究背景与动机 |
3.2 邮件结构化文本集成学习框架 |
3.3 基于邮件头的决策树分类方法 |
3.3.1 邮件头特征表示 |
3.3.2 基于邮件头特征的CART决策树分类算法 |
3.4 基于邮件正文的K最近邻分类方法 |
3.4.1 word2vec词向量生成 |
3.4.2 TF-IDF加权的文本向量表示 |
3.4.3 基于相似度阈值的K最近邻分类算法 |
3.5 Ada-CK集成学习方法 |
3.5.1 Adaboost算法介绍 |
3.5.2 Ada-CK算法介绍 |
3.6 实验设计与结果分析 |
3.6.1 实验环境与数据 |
3.6.2 实验评估指标 |
3.6.3 实验方法与过程 |
3.6.4 参数分析 |
3.6.5 内部算法比较 |
3.6.6 外部算法比较 |
3.7 本章小结 |
4 基于用户个性化特征的主动学习 |
4.1 研究背景与动机 |
4.2 用户个性化垃圾邮件过滤框架 |
4.3 基于用户兴趣集的分类方法 |
4.3.1 兴趣集相关定义 |
4.3.2 兴趣集模型 |
4.3.3 基于兴趣集的邮件分类方法 |
4.4 基于主动学习的样本选择 |
4.5 兴趣集和训练集更新 |
4.6 实验设计与结果分析 |
4.6.1 实验环境及数据 |
4.6.2 实验方法与过程 |
4.6.3 参数分析 |
4.6.4 算法性能比较 |
4.7 本章小结 |
5 总结与展望 |
5.1 工作总结 |
5.2 未来展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(2)基于fastText的垃圾邮件过滤算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景和研究意义 |
1.1.1 课题研究背景 |
1.1.2 课题研究意义 |
1.2 国内外研究现状 |
1.2.1 基于黑白名单过滤技术 |
1.2.2 基于规则匹配过滤技术 |
1.2.3 基于数据挖掘过滤技术 |
1.3 本文的主要研究工作 |
1.4 本文的内容安排 |
第二章 相关理论和技术介绍 |
2.1 引言 |
2.2 邮件预处理 |
2.2.1 邮件解析 |
2.2.2 分词技术 |
2.2.3 去掉停用词 |
2.3 文本特征提取 |
2.3.1 词袋模型 |
2.3.2 TF-IDF算法 |
2.3.3 Word2Vec词向量模型 |
2.4 fastText快速文本分类模型 |
2.4.1 层次softmax |
2.4.2 n-gram特征 |
2.5 LDA文本主题提取模型 |
2.5.1 共轭先验分布 |
2.5.2 Dirichlet分布 |
2.5.3 LDA模型 |
2.6 本章小结 |
第三章 基于改进TF-IDF的 TF-fastText分类算法 |
3.1 引言 |
3.2 基于改进TF-IDF的 TF-fastText分类算法 |
3.2.1 Word Embedding |
3.2.2 邮件特征筛选 |
3.2.3 邮件特征表示 |
3.2.4 邮件分类 |
3.3 实验设计与结果 |
3.3.1 实验数据集 |
3.3.2 实验细节 |
3.3.3 实验结果 |
3.3.4 讨论与分析 |
3.4 本章小结 |
第四章 融合LDA的 LDA-fastText分类算法 |
4.1 引言 |
4.2 融合LDA的 LDA-fastText分类算法 |
4.2.1 邮件特征补充 |
4.3 实验设计与结果 |
4.3.1 实验数据集 |
4.3.2 实验细节 |
4.3.3 实验结果 |
4.3.4 讨论与分析 |
4.4 本章小结 |
第五章 基于TF-fastText与 LDA-fastText的 TFL-fastText分类算法 |
5.1 引言 |
5.2 基于TF-IDF与 LDA的 TFL-fastText分类算法 |
5.3 实验设计与结果 |
5.3.1 实验数据集 |
5.3.2 实验细节 |
5.3.3 实验结果 |
5.3.4 讨论与分析 |
5.4 本章小结 |
总结与展望 |
结论 |
展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(3)基于卷积神经网络的邮件管理系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 垃圾邮件过滤技术分析 |
1.3 基于统计的垃圾邮件过滤研究现状 |
1.3.1 朴素贝叶斯 |
1.3.2 K-近邻算法 |
1.3.3 支持向量机 |
1.3.4 垃圾邮件过滤算法评估 |
1.4 论文主要内容和结构安排 |
第二章 卷积神经网络相关技术概述 |
2.1 卷积神经网络 |
2.1.1 卷积层 |
2.1.2 激活函数 |
2.1.3 池化层 |
2.1.4 全连接层和softmax分类器 |
2.2 文本预处理 |
2.2.1 字符过滤 |
2.2.2 中文分词 |
2.2.3 停用词处理 |
2.3 word2vec |
2.3.1 独热编码 |
2.3.2 分布式词向量 |
2.3.3 word2vec |
2.3.4 词向量生成 |
2.4 基础卷积神经网络中文垃圾邮件过滤模型构建 |
2.5 本章小结 |
第三章 一种改进的卷积神经网络中文垃圾邮件过滤算法 |
3.1 改进方案 |
3.1.1 Dopout方案 |
3.1.2 L2正则化方案 |
3.1.3 变步长卷积方案 |
3.1.4 带权池化方案 |
3.2 实验设计 |
3.2.1 实验环境 |
3.2.2 实验数据集 |
3.2.3 评价指标 |
3.2.4 实验流程 |
3.3 实验结果分析 |
3.3.1 Dropout的影响 |
3.3.2 L2正则化的影响 |
3.3.3 变步长卷积的影响 |
3.3.4 带权池化的影响 |
3.3.5 实验结论 |
3.4 本章小结 |
第四章 邮件管理系统的设计与实现 |
4.1 技术支持 |
4.1.1 电子邮件格式协议 |
4.1.2 电子邮件工作原理 |
4.1.3 JavaMail框架 |
4.2 邮件管理系统需求分析 |
4.2.1 系统功能性需求 |
4.2.2 系统非功能性需求 |
4.3 后端设计与实现 |
4.3.1 系统结构 |
4.3.2 用户登录 |
4.3.3 接收邮件 |
4.3.4 发送邮件 |
4.3.5 管理通讯录 |
4.4 前端设计与实现 |
4.4.1 Vue.js |
4.4.2 页面实现 |
4.5 系统功能测试 |
4.5.1 用户登录测试 |
4.5.2 接收邮件测试 |
4.5.3 发送邮件测试 |
4.5.4 管理通讯录测试 |
4.6 本章小结 |
第五章 总结与展望 |
参考文献 |
致谢 |
(4)基于Word2vec的电子邮件分类(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 课题研究背景 |
1.1.2 课题意义 |
1.2 国内外研究现状 |
1.3 研究内容及创新点 |
1.4 论文框架 |
第二章 相关理论技术论述 |
2.1 对比试验的相关技术 |
2.1.1 机器学习模型的数据表示形式 |
2.1.2 KNN算法 |
2.1.3 贝叶斯算法 |
2.2 本文所采取的相关技术 |
2.2.1 BP神经网络模型 |
2.2.2 BP算法 |
2.3 代价函数的选择 |
2.4 激活函数的选择 |
2.5 Softmax分类器 |
2.6 本章小结 |
第三章 基于Word2vec的中文邮件识别 |
3.1 中文垃圾邮件过滤中的问题及解决思路 |
3.2 分布式向量化表示 |
3.2.1 数据集 |
3.2.2 数据过滤 |
3.2.3 对文本进行分词及结果 |
3.2.4 利用Word2vec训练词向量 |
3.2.5 训练词向量的两种加速方式 |
3.2.6 词向量训练结果 |
3.2.7 邮件文本的向量化表示 |
3.3 防过拟合措施 |
3.3.1 Dropout层 |
3.3.2 添加正则惩罚项 |
3.4 加快收敛速度的措施 |
3.4.1 Adam算法 |
3.4.2 数据输入方式 |
3.5 模型性能的评价标准 |
3.6 本章小结 |
第四章 邮件过滤模型实验分析 |
4.1 实验环境 |
4.2 实验分析 |
4.2.1 确定隐藏层神经元个数 |
4.2.2 Dropout层对模型的影响 |
4.2.3 Dropout值的确定 |
4.2.4 确定词向量的维度 |
4.2.5 Adam算法对实验结果影响 |
4.2.6 与其他算法的实验结果对比 |
4.3 实验总结 |
4.4 本章小结 |
第五章 总结与展望 |
致谢 |
参考文献 |
(5)基于贝叶斯分类的垃圾邮件过滤技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题背景及意义 |
1.2 邮件过滤技术国内外研究现状 |
1.2.1 基于黑名单的过滤技术 |
1.2.2 基于规则的过滤技术 |
1.2.3 基于内容统计的过滤技术 |
1.3 论文研究内容 |
1.4 论文组织结构 |
第二章 反垃圾邮件相关技术研究 |
2.1 邮件的基本结构 |
2.2 邮件主要模块的选取 |
2.3 邮件的预处理 |
2.3.1 英文邮件的预处理 |
2.3.2 中文邮件的预处理 |
2.4 文本表示模型 |
2.4.1 布尔模型 |
2.4.2 概率模型 |
2.4.3 向量空间模型 |
2.5 特征提取 |
2.6 贝叶斯分类技术 |
2.6.1 贝叶斯定理 |
2.6.2 贝叶斯分类器 |
2.6.3 朴素贝叶斯算法 |
2.6.4 常见的朴素贝叶斯扩展算法 |
2.7 本章小结 |
第三章 基于随机森林的朴素贝叶斯算法垃圾邮件过滤研究 |
3.1 随机森林算法 |
3.1.1 决策树 |
3.1.2 构建组合分类器方法 |
3.1.3 随机森林 |
3.2 朴素贝叶斯融合随机森林的过滤算法研究 |
3.3 基于随机森林的朴素贝叶斯算法垃圾邮件过滤模型 |
3.4 本章小结 |
第四章 基于树结构的朴素贝叶斯算法垃圾邮件过滤研究 |
4.1 树结构思想 |
4.2 敏感度分析 |
4.3 基于树结构的朴素贝叶斯算法 |
4.4 树结构朴素贝叶斯算法垃圾邮件过滤模型 |
4.5 本章小结 |
第五章 系统的设计与实现及实验结果分析 |
5.1 系统总体设计 |
5.2 过滤系统主要模块设计 |
5.3 过滤系统实现 |
5.4 实验结果及分析 |
5.4.1 评价标准 |
5.4.2 训练部分对比 |
5.4.3 测试部分对比 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间发表的学术论文及取得的相关科研成果 |
致谢 |
(6)基于深度学习的垃圾邮件过滤方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 垃圾邮件的定义 |
1.1.2 垃圾邮件的危害 |
1.2 课题国内外研究现状 |
1.3 论文的结构 |
第二章 邮件文本分类方法 |
2.1 电子邮件工作原理 |
2.1.1 电子邮件的标准格式和遵循的协议 |
2.1.2 电子邮件在网络中的传输 |
2.2 文本分类简介 |
2.3 文本预处理 |
2.3.1 非法字符的过滤 |
2.3.2 分词 |
2.3.3 去除停用词 |
2.3.4 替换相关词 |
2.3.5 词向量方法研究 |
2.4 常用垃圾邮件分类技术 |
2.4.1 Bayes分类模型 |
2.4.2 Decision Tree分类模型 |
2.4.3 SVM分类模型 |
2.4.4 FastText分类模型 |
2.4.5 CNN分类模型 |
2.4.6 RNN分类模型 |
2.4.7 LSTM与 GRU分类模型 |
2.5 本章小结 |
第三章 基于Skip-gram的 CNNs-Highway邮件过滤模型 |
3.1 引言 |
3.2 相关概念与算法模型 |
3.2.1 Word embedding |
3.2.2 模型架构 |
3.2.3 模型训练 |
3.3 实验结果有分析 |
3.3.1 实验环境 |
3.3.2 数据集及评价指标 |
3.3.3 实验结果分析 |
3.4 本章小结 |
第四章 基于DCNN-BiGRU的邮件过滤模型 |
4.1 引言 |
4.2 相关概念与算法模型 |
4.2.1 DCNN-BiGRU模型 |
4.2.2 模型架构 |
4.2.3 模型训练 |
4.3 实验结果与分析 |
4.3.1 实验环境 |
4.3.2 数据集及评价指标 |
4.3.3 实验结果分析 |
4.4 本章小结 |
第五章 基于数据融合的垃圾邮件过滤模型 |
5.1 引言 |
5.2 相关概念与算法模型 |
5.2.1 基于决策级融合的架构模型 |
5.2.2 模型架构 |
5.2.3 模型训练 |
5.3 实验结果与分析 |
5.3.1 实验环境 |
5.3.2 数据集及评价指标 |
5.3.3 实验结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 本文工作总结 |
6.2 工作展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
致谢 |
(7)基于行为识别的垃圾邮件过滤系统的研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 主要工作 |
1.4 本文组织结构 |
1.5 本章小结 |
第二章 垃圾邮件过滤系统的相关研究理论基础 |
2.1 垃圾邮件过滤的基本过程分析 |
2.2 随机森林算法 |
2.3 决策树算法 |
2.4 CART决策树概述和建立 |
2.5 本章小结 |
第三章 基于行为识别的随机森林垃圾邮件过滤模型研究 |
3.1 垃圾邮件过滤模型的研究与对比 |
3.2 基于行为识别的随机森林模型 |
3.3 模型对比 |
3.4 本章小结 |
第四章 垃圾邮件过滤系统研究与实现 |
4.1 垃圾邮件过滤系统可行性分析 |
4.2 垃圾邮件过滤系统功能需求分析 |
4.3 垃圾邮件系统总体设计 |
4.4 系统功能模块设计与实现 |
4.5 本章小结 |
第五章 垃圾邮件过滤系统环境与应用 |
5.1 系统实现环境 |
5.2 系统各子模块的应用 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简介 |
(8)个性化垃圾邮件过滤的扩展研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题研究背景和研究意义 |
1.1.1 课题研究背景 |
1.1.2 课题研究意义 |
1.2 国内外研究现状 |
1.2.1 一般化过滤与个性化过滤 |
1.2.2 基于协议过滤 |
1.2.3 基于内容过滤 |
1.3 本文的主要研究工作 |
1.4 本文的内容安排 |
第二章 动态环境下的个性化垃圾邮件技术回顾 |
2.1 动态环境自适应的相关研究 |
2.1.1 动态环境的概念漂移问题 |
2.1.2 动态环境下的类不平衡问题 |
2.1.3 动态环境自适应算法 |
2.2 垃圾邮件过滤相关研究 |
2.2.1 邮件的组成及其架构 |
2.2.2 邮件的文本特征选择策略 |
2.2.3 邮件的文本向量化策略 |
2.3 动态环境下个性化垃圾邮件过滤方法 |
2.3.1 增量学习IL |
2.3.2 半监督学习SSL |
2.3.3 集成学习EL |
2.4 本章小结 |
第三章 基于客户端的个性化邮件再过滤研究 |
3.1 研究背景与动机 |
3.2 基于客户端的个性化邮件再过滤系统 |
3.2.1 基于规则过滤 |
3.2.2 广义虚漂移 |
3.2.3 多任务学习 |
3.2.4 结合重要性加权的多窗口框架 |
3.3 实验及结果分析 |
3.3.1 实验设置 |
3.3.2 实验结果分析 |
3.4 本章小结 |
第四章 集体环境下的个性化邮件再过滤研究 |
4.1 研究背景与动机 |
4.2 集体环境下的个性化邮件再过滤系统 |
4.2.1 集体垃圾箱的建立 |
4.2.2 垃圾邮件的共享及再过滤 |
4.2.3 模型的选择:ELM和 OS-ELM |
4.3 实验及结果分析 |
4.3.1 实验设置 |
4.3.2 实验结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 未来展望 |
参考文献 |
致谢 |
在学期间的研究成果及发表的学术论文 |
(9)基于BP神经网络的多重邮件过滤系统的研究与设计(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文研究内容 |
1.4 本文组织结构 |
第二章 邮件过滤相关理论及实验平台 |
2.1 邮件过滤原理 |
2.1.1 服务器端和客户端的邮件过滤 |
2.1.2 三种邮件过滤技术原理 |
2.1.3 特征选择技术 |
2.2 基于统计的邮件过滤算法 |
2.2.1 贝叶斯 |
2.2.2 K近邻 |
2.2.3 支持向量机 |
2.2.4 BP神经网络算法 |
2.3 Hadoop平台及MapReduce编程模式 |
2.3.1 Hadoop平台 |
2.3.2 MapReduce编程模式 |
2.4 小结 |
第三章 数据采集、词典维数与预处理 |
3.1 实验语料库选择 |
3.2 语料库子集划分 |
3.3 基于Hadoop实验数据词频统计 |
3.4 基于改进的TF算法词典降维 |
3.4.1 初步降维 |
3.4.2 词典降维 |
3.4.3 生成VSM形式的稀疏矩阵 |
3.5 数据处理实验 |
3.5.1 Hadoop的配置 |
3.5.2 实验过程 |
3.5.3 实验结果 |
3.6 小结 |
第四章 基于BP神经网络邮件过滤研究 |
4.1 算法训练及模型选择 |
4.1.1 学习率(Learning Rate)选择 |
4.1.2 模型仿真及最优模型选择 |
4.2 实验最优模型与SVM基函数训练模型比较 |
4.3 小结 |
第五章 多重过滤系统的设计与实现 |
5.1 多重邮件过滤系统的流程设计 |
5.2 指标测试结果 |
5.2.1 重要评价指标 |
5.2.2 基于AUC的评价指标 |
5.3 模型运算量评估 |
5.4 模型内存占用率评估 |
5.5 小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
(10)个性化手机垃圾信息过滤技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题的背景和意义 |
1.2 国内外研究现状 |
1.3 本文主要研究内容 |
1.4 章节安排 |
第二章 相关技术概述 |
2.1 移动社交网络概述 |
2.1.1 移动社交网络 |
2.1.2 社会计算 |
2.1.3 社会信任 |
2.1.4 相似度度量 |
2.1.5 众包 |
2.1.6 群智感知 |
2.2 手机垃圾信息过滤技术 |
2.2.1 基于规则匹配的垃圾信息过滤技术 |
2.2.2 基于机器学习分类的垃圾信息过滤技术 |
2.2.3 基于社会网络的垃圾信息过滤技术 |
2.3 本章小结 |
第三章 个性化手机垃圾信息过滤模型 |
3.1 概念定义 |
3.1.1 共性化手机垃圾信息 |
3.1.2 个性化手机垃圾信息 |
3.2 个性化手机垃圾信息过滤模型的设计 |
3.2.1 整体模型 |
3.2.2 过滤算法流程 |
3.2.3 基于贝叶斯算法的共性化手机垃圾信息过滤机制 |
3.2.4 基于用户兴趣的个性化手机垃圾信息过滤机制 |
3.3 基于信息熵的相似度计算方法 |
3.3.1 传统相似度计算方法的不足 |
3.3.2 基于信息熵的相似度算法设计与分析 |
3.4 用户本地列表 |
3.4.1 本地垃圾信息列表 |
3.4.2 本地兴趣列表 |
3.4.3 好友信任度列表 |
3.5 推送机制 |
3.6 本章小结 |
第四章 仿真实验与结果分析 |
4.1 实验参数设置 |
4.2 实验结果分析 |
4.2.1 与其他过滤方法的比较 |
4.2.2 不同的良性关键词数量 |
4.2.3 不同的兴趣相似度阈值 |
4.2.4 不同的信任度阈值 |
4.2.5 不同的信任度调节参数 |
4.2.6 不同的兴趣项个数 |
4.3 本章小结 |
总结和展望 |
参考文献 |
攻读硕士学位期间取得的学术成果 |
致谢 |
四、Internet垃圾邮件过滤技术研究(论文参考文献)
- [1]基于集成学习的个性化垃圾邮件过滤技术研究与应用[D]. 向平常. 北京交通大学, 2020(03)
- [2]基于fastText的垃圾邮件过滤算法研究[D]. 闫秘. 华南理工大学, 2020(02)
- [3]基于卷积神经网络的邮件管理系统的设计与实现[D]. 路永鑫. 华中师范大学, 2020(12)
- [4]基于Word2vec的电子邮件分类[D]. 缪沛恩. 南昌大学, 2020(12)
- [5]基于贝叶斯分类的垃圾邮件过滤技术研究[D]. 王鹿. 上海工程技术大学, 2020(04)
- [6]基于深度学习的垃圾邮件过滤方法研究[D]. 黄鹤. 南京邮电大学, 2019(02)
- [7]基于行为识别的垃圾邮件过滤系统的研究与实现[D]. 文娅. 宁夏大学, 2019(02)
- [8]个性化垃圾邮件过滤的扩展研究[D]. 徐丹丹. 南京航空航天大学, 2019(02)
- [9]基于BP神经网络的多重邮件过滤系统的研究与设计[D]. 王宗凯. 深圳大学, 2018(09)
- [10]个性化手机垃圾信息过滤技术研究[D]. 邹苹钧. 中国石油大学(华东), 2018(07)