基于汉字的西夏字排版分析方法研究

基于汉字的西夏字排版分析方法研究

一、基于汉字字形的西夏文字版面分析方法研究(论文文献综述)

杨丽娟[1](2021)在《基于风格迁移的手写西夏文字样本生成研究》文中提出在当前人工智能技术迅速发展的背景下,将智能识别技术应用于西夏文字识别,势必为西夏学研究带来高效的科技研究手段和资源组织方式。但由于现有的西夏文字样本分布不均衡,对深度学习模型的训练和识别结果会产生很大的影响。为了解决在探索西夏文字样本集建立的过程中受到样本来源限制面临样本类别不完备问题,本文提出基于风格迁移的手写西夏文字样本生成研究。同现有的应用于图像、字母以及汉字生成的风格迁移不同,本文将现有的风格迁移技术应用到西夏文字从标准字库字体到古籍文献字体的生成中,主要研究内容如下:(1)对西夏文字图像结构特征与风格特征的分离提取及重构进行研究,实现字体结构与风格重组,即将给定的西夏文字体结构与所期望的字体风格进行重组生成期望风格的字符。(2)通过对现有的风格迁移技术进行分析,设计生成网络模型以及鉴别网络模型,实现西夏文字从标准字库字体到古籍文献风格字体的迁移。所研究的生成网络模型包含文字风格特征与结构特征提取以及重构模块,采用编-解码结构设计风格特征提取网络,基于U-NET网络和残差网络设计结构特征提取网络,基于PatchGAN设计鉴别网络模型,通过实验验证了所生成样本的有效性。(3)对原始样本识别准确率和风格迁移扩充后识别准确率进行对比,经风格迁移扩充后西夏文字样本集在深度识别模型上的准确率比原始样本识别准确率至少提升36%。最后,使用本文设计的风格迁移网络模型生成西夏文字图像,构建样本类别完备、样本表观多样性的古籍文献手写风格西夏字符样本库。本文提出的基于风格迁移的西夏文字样本生成研究解决了原始西夏文字样本数据集不均衡分布的缺陷,使得该数据库可以应用在西夏学研究的各个领域,对西夏学研究者的研究效率也有所提升。

陈燕[2](2021)在《西夏文献注译辅助识别系统平台设计》文中认为西夏文字是由西夏王朝创造、使用和记录的一种古文字。西夏古籍文献的解读和分析是西夏学研究的重要手段,由于熟练掌握西夏文字的研究者稀缺,同时传统文献查阅检索工作耗时费力。针对以上问题,本文设计并实现了西夏文献注译辅助识别系统平台,作为西夏文献解读的辅助工具,为西夏古文献研究提供字符辨识、文字检索等便利辅助,提高效率,本系统设计完成包括的主要研究内容如下:(1)确定西夏文字数据源,通过扫描的方式获取98张西夏文献图像版文件,采用文字提取算法对其进行单字提取,将提取的16320个单字样本,按照使用频率分为668类,构建单字样本数据集。通过对照相应的西夏文献参考资料查阅提取文字的汉语释义等信息,并建立MySQL文本数据库。(2)根据西夏文字的特点搭建文字识别卷积神经网络,在提取的单字样本数据集的基础上进行样本扩充,将其分为测试集和训练集对卷积神经网络进行训练和测试,识别准确率达到80.16%,将其保存为.h5识别模型待使用。(3)设计实现基于B/S架构的系统交互平台,在Django框架下采用MTV设计模式完成对数据业务的分层处理。前端通过在HTML脚本中嵌入CSS和JQuery来实现Web界面,PHP连接数据库并对数据进行操作,采用轻量级的数据格式Json实现前后端数据交互,建立西夏文献注译识别平台。该辅助识别系统的实现,便于西夏学研究者及爱好者对西夏文字的汉语释义、出处以及所在上下文翻译的查阅与检索。

贾运[3](2020)在《基于LOF和波动阈值的古籍图像版面分析》文中进行了进一步梳理我国历史悠久,珍贵的古籍藏书丰富,随着计算机技术的高速发展,利用计算机辅助古籍研究是必由之路。古籍图像版面结构复杂,对其进行有效、准确的分析是实现古籍汉字识别与检索的前提和基础,本文从以下两个方面对古籍图像展开研究。(1)古籍图像非正文成分提取针对古籍图像中存在印章、批注等非正文成分,影响版面分析准确性的问题,分别设计了基于自适应Canny算子的印章定位方法和基于Mask R-CNN的批注提取方法。对于印章,利用改进的自适应Canny算子提取古籍版面印章区域边缘轮廓信息,选择形状参数提取印章特征,实现古籍印章与其周围汉字的分离。对于批注,首先,使用Labelme图像标注工具对古籍图像批注数据集进行标注;其次,利用Mask R-CNN模型实例分割古籍批注图像,得到预测结果Mask图;然后,对比不同深度ResNet网络对Mask R-CNN识别效果、速率的影响,选取最优网络架构;最后,采用二分K-means算法对Mask图进行聚类,实现古籍批注成分的提取。(2)基于LOF和波动阈值的古籍图像版面分析方法针对古籍版面成分多样、古籍汉字结构复杂且风格多变的特点,提出了基于LOF(Local Outlier Factor,局部离群因子)和波动阈值的古籍图像版面分析方法。在对古籍图像进行倾斜校正预处理的基础上,首先,通过对大量古籍图像的分析,归纳古籍图像的版面特征;其次,采用基于LOF的分类算法对古籍图像投影分割后的版面区域进行分类,确定存在分割问题的候选混合区域;最后,利用波动阈值对候选混合区域中的文字与框线粘连部分进行分割,确定古籍版面中的文字区域并输出。采用《文渊阁四库全书》、《杜工部集》和《传习录》等,古籍汉字研究主流文献所包含的11560幅古籍图像作为实验数据集,对所实现的古籍图像版面分析系统进行了实验,并与基于连通域分析的、基于神经网络的和基于特征值的版面分析方法进行比对。本文方法对古籍汉字图像检索的准确率和召回率分别为87.02%和81.31%,且效率较高,主要性能优于对比方法。表明所提出的古籍图像版面分析方法与同类方法相比,能够有效地对古籍图像进行分析,定位文字区域和非文字区域,从而为实现古籍汉字图像的检索与识别打下基础。

苗晗[4](2020)在《面向藏经典文献字体的多样性表达方法研究与应用》文中进行了进一步梳理自从7世纪创建藏字以来,藏族同胞用自己的文字记录着自己的文化,写下了大量的经典文献,为后世研究藏族历史、宗教、文化、等提供了宝贵的资源。其中藏文大藏经是当今世界保存佛教原貌最完整的文献,因此对藏文大藏经的研究具有重要的研究意义。目前对藏文经典文献的研究主要集中在对内容的识别和图像处理等方面,并没有关注藏经原版雕刻中字体的多样性和美感。实现字体的多样性表达不仅能为拟合藏文经典文献的原貌提供帮助,还可以为我国优秀文化的保存、传承提供思路和帮助,具有深远的现实意义。本文将字体的多样性表达作为实现目标,关注大藏经中独特的字体,主要的工作如下:(1)对字体多样性表达课题进行阐述。通过分析目前对藏文经典文献和对其中多样且独特的雕刻字体的研究现状,对字体多样性表达课题进行描述,并给出了实现字体多样性表达的基本组成模块和基本思路。(2)对原版藏经图像进行图像处理和特征提取。确定了能构成7240个字丁的170个部件的部件库。从藏文经文原版图像的实际情况出发,提出对之进行图像处理的步骤,并使用经文原版图的第1-10段作为图像处理材料得到每个部件的单一部件图像。将每个单一部件图像通过多投影的方法获得其特征矩阵。(3)使用聚类思想对部件的特征矩阵进行处理。采用改进的k-中心点算法,在对初始中心选取时使用极大极小值的思想选取距离尽可能大的特征矩阵作为聚类中心,在此基础上确定代表字体的个数。使用得到的特征矩阵作为材料进行聚类,得到每个部件的k个代表字形,进而得到k个代表字体。(4)通过替换算法得到有字体多样性的效果。统计聚类后各个簇内的字形数量,建立基本字体+离散字体的字体模型,并使用计算基本字体占比率的方法从基本字体和离散字体中进行选择。在各个离散字体中选择时,采用轮盘赌生成随机数的方式获得字体序号。根据替换算法解决了在替换时从各个代表字体中选择的问题,并使用代表字体得到了有字体多样性的效果。

杨文慧[5](2018)在《西夏古籍文字样本数据库的创建及应用技术研究》文中研究表明古籍文献的数字信息化,有利于古籍文献的保护整理与研究交流,是现代社会研究古籍文献的主要渠道。西夏文是记录西夏党项族的一种古文字,通过古籍文献中的西夏文字我们能够充分了解当时西夏的社会历史形态和民族文化,因此当前发掘并保存的西夏古籍文献是我们研究西夏文的重要窗口。但由于年代久远,能存留至今的西夏古籍文献少之又少,并且存在纸张毁坏,文字不清等问题,严重阻碍了西夏文的数字化发展。如今光学字符识别、机器学习等技术将极大地帮助人们对古籍文字的解读,但这些技术都是基于文字数据库的,文字数据库为文字识别提供了训练样本和评价标准。因此建立标准、公开、通用的西夏文字样本数据库是开展西夏文识别研究的前提和基础。西夏文样本数据库不仅为西夏文智能识别算法提供测试样本和评价标准,同时能够弥补熟练掌握西夏文语言专家的稀缺性,为西夏学研究者提供更加便利的科研工具和高效的科研方法,也为古籍数字化文献信息检索在方式和内容提供有力支持。目前针对西夏文识别的样本数据库的建立尚处于空白阶段,本文重点探讨西夏文样本库的建立及应用技术研究。首先选择西夏文佛经文献作为数据源,然后对扫描后的古籍图像进行预处理和文字提取,将标注提取到的西夏文字图像信息组织整理为西夏文古籍样本数据库,包括文本样本数据库和单字样本数据库。文本数据库以Excel表格文件的形式组织,通过阅读Excel表中的信息,用户能方便地查询西夏文字并改善传统注释方式;单字符数据库以字符频率的顺序进行组织,单字符图像文件严格按照规定进行命名,以确保西夏学研究者在查阅研究西夏古籍文献时,通过数据库检索,方便地查询出该西夏字在哪些文献中出现过以及如何被翻译注释的。最后在创建的样本数据库的基础上开展西夏文智能识别研究,采用卷积神经网络建立深度学习模型对西夏文数据库进行训练学习,同时为了解决样本不均衡问题,提出了基于MLSD样本扩充技术提高对西夏文学习和识别算法性能。总之,在本文中,我们建立一个具有理论研究和实际应用价值的西夏文样本数据库,对于促进西夏文数字化的发展大有裨益。

张晓彪[6](2017)在《基于不变矩的西夏文字识别》文中指出本文致力于研究矩技术在西夏文字识别中的应用,矩技术在概率统计方面主要用于对随机变量的分析。假如将二值化图像和灰度图像视为概率分析中的二维密度分布函数,则可以将矩统计分析应用于光学字符识别中,矩可以理解为对一幅图像主要特征的描述。本人在前人的研究的基础之上,着重从以下几个方面进行了研究和创新:(1)本文的理论基础是对李范文先生提出的西夏文四角编码,但是结合西夏文字独有的结构特性,提出了分区编码的策略,从而对原有的编码进行了扩充。有利于西夏文笔形识别和定位,对部分特殊部件的识别提出了解决方案。(2)论文中提出了对古文献资料的数字化方法,并且利用了图像处理的方法对古文献中的字符进行了提取。利用了相关形态学方面的理论对提取到的字符进行了优化,使用连通域的概念提取出了字符中相关的笔形。(3)对提取到的笔形求取Hu不变矩,由于Hu不变矩本身并不具备放缩不变性的特性,因此,论文中对Hu不变矩进行了归一化的处理。其次,Hu不变矩是在连续函数的条件下进行推导。论文中给出了在离散条件的推导方法。(4)由于Hu不变矩并不具备正交特性,从而导致了提取的不变矩抗干扰特性比较差。因此,论文中又引入了 Zernike不变矩的相关理论。Zernike不变矩是正交不变矩,其抗干扰和抗噪声的特性良好,但是,Zernike不变矩并不具备旋转不变的特性,使得识别率大大降低,本文中借鉴了数学中正则化的相关理论将Zernike不变矩进行了改进。本文中使用了最小距离法和相关系数的方法对不变矩提取到的结果进行了分析,实验结果表明两种不变矩均可以对行笔形的识别处理,但是,经过统计分析,Hu不变矩抗干扰能力差,总体识别率偏低。在同样的条件下Zernike不变矩明显优于Hu不变矩,识别效果也更加明显。

张冬冬[7](2012)在《20世纪以来出土简牍(含帛书)年代学暨简牍书署制度研究》文中研究指明本选题是以研究战国、秦以降典籍所载古代史书书署制度文献为经,尝试以20世纪以来考古发掘简牍书迹实物的整体作为主体考察材料,主要从①简、牍的源流及简牍书署制度的概念,②20世纪五十年代以来,出土战国楚系竹简册、秦简、秦牍、的类型学分类及简牍学特征,③两汉简牍年代学及其简牍学特征,④三国·孙吴及魏晋时期简牍所载的署书及署书书体的渊源与流变,⑤20世纪以来,西域地区新疆楼兰遗址等出土汉晋简牍及纸文书的发现、整理与研究,⑥简牍署书文字的字体及书写特征,⑦简牍制度的起源及先秦简牍实物的抄手,⑧先秦简牍实物的抄手与其书署形制的特点,⑨周代外史(大学)“掌达书名于四方”的“谕书名”教育,同秦汉之际,以书课吏制度的书署专门之学之间的关系,⑩书署课吏制度中“兼会杂体”与“正文字”对书法史五体并存的影响。等10个方面来探讨和论述:简牍书署制度的存在状况以及对早期中国字体的演变与书法史以及魏晋以降书法“名家流派时代”的决定性意义为主要目的。

门光福,潘晨,柳长青[8](2011)在《基于弹性网格的西夏文字识别》文中研究表明随着国内外对西夏学研究的不断深入,收藏于世界各地的大批西夏古籍文献通过影印方式陆续出版。如何将这些西夏古籍文献数字化、文本化则有着极其重要的意义。该文采用弹性网格方法及线性判别分析(Linear Discriminant Analysis,LDA)方法对西夏文字识别进行了研究。首先对西夏影印文献进行预处理、细化,然后根据西夏文字笔画分布构造非均匀的弹性网格,将弹性网格分别作用于西夏文字的四个方向分量上,统计像素点在网格内的概率分布作为特征,最后使用LDA方法对提取的特征降维处理。对240类共9600个西夏文字做4重交叉验证,平均识别率可达87.99%,实验表明该方法是有效的。

苏向东[9](2011)在《蒙古文古籍识别技术的研究》文中提出目前,我国有大量的蒙古文古籍以图像的形式保存在图书馆中。这些古籍文档内容涉及宗教、历史、文化、艺术、天文、地理、民族、医学等诸多方面,是人类文化的宝贵遗产。但图像格式的古籍文档不利于研究人员的编辑,检索、以及更进一步的统计分析。因此本文以木刻印刷的《御制蒙古文甘珠尔经》为研究对象,对蒙古文古籍文档的识别进行了深入研究,对蒙古文古籍的识别提出了行之有效的解决方案,以期推动蒙古文古籍文档的电子化,为蒙古文古籍的挖掘和利用提供便利,从而促进蒙古文化的传播和发扬光大。本文分析了蒙古文以及蒙古文古籍的特点,在此基础上提出了蒙古文古籍识别的方法。在预处理阶段,通过对古籍的自身特点的分析,本文选取合适的方法对蒙古文古籍文档进行倾斜校正,二值化和去噪处理。在文档分割阶段,本文依据水平投影对文档图像进行列切分,然后根据最大连通域对每一列进行词切分。在单词切分后,进一步依据主干线将蒙古文单词切分成字元(Glyph Unit Abbr. GU)。每个字元由不超过三个蒙古文字母组成。在特征提取阶段,我们根据分类要求,共提取字元的八种特征:LP, Euler number, BD, DCT, DWT, PCA, Con&Pro, and EPI。在分类阶段,我们采取三步分类的方法。在第一步,我们利用决策树进行将所有的字元分到九组字元中的一组。在第二步,对每组字元,我们利用5个BP神经网络对该组字元进行识别。5个神经网络的输入分别为字元的五种特征向量。在第三步,通过对5个神经网络返回的5组结果综合生成每组字元的最终的识别结果。对每组识别后的结果,我们采取基于加权编辑距离的错误校正算法对结果进行校正,并最终生成编码的蒙古文古籍文档。本论文共选取了20页蒙古文古籍文档进行了实验。统计实验结果,蒙古文单词字元切分准确率96.2%,最终单词识别的准确率达到了71%。由于蒙古文古籍是由多人书写木刻印刷而成,每一个文字存在多个不规范的变体,字母的重叠相交的问题比较明显,所以切分和识别难度较大。所以本文在文蒙古文古籍的识别率是令人满意的。

万晨[10](2011)在《脱机手写女书文字识别技术研究》文中提出女书是世界上最具性别意识的文字,有着重要的非物质文化遗产保护价值。到目前为止,女书文献主要依靠手工抄写的方式传承,而随着女书传人的相继去世,女书文献的收集和整理变得更加困难,女书文化濒临消失。针对此问题,本文将脱机手写文字识别技术应用到女书文献的信息化上,为保护和发扬女书这组中华民族珍贵的文明基因尽自己的一份力量。本文在对目前脱机手写文字识别算法进行详细分析的基础上,针对女书自身的特点提出了一种脱机手写女书文字识别方案。从方案的设计着手,详细分析了脱机手写女书文字识别的工作流程,各部分的功能和常用算法,将周边方向贡献度特征提取算法应用到女书文字的特征提取上,并提出了一种改进的笔画密度特征提取算法和一种三级距离分类识别算法;设计并实现了一个实用的女书识别系统。本文的主要工作和特色如下:1)针对女书文字的样本,采用平滑算法和二值化算法去除样本图像中的方格噪声和背景,并根据女书样本中文字分布的特性,采用行合并的切分算法切分女书文字。最后将切分出的女书文字归一化成统一规格。2)分析了两种笔画密度特征提取算法的特点以及它们应用在女书文字上的不足,将周边方向贡献度特征提取算法应用到女书文字的特征提取上,并根据女书文字倾斜的特性,提出了一种改进的笔画密度特征提取算法。3)对现有多级距离分类器进行了分析,针对欧式距离在识别过程中的不足,设计了一种三级距离分类器。分类器的一级分类采用Manhattan距离,二级分类和三级分类采用误差均衡距离,该分类器具有Manhattan距离分类速度快和误差均衡距离分类能够使女书文字特征中稳定的部分得到突出,不稳定的部分被抑制的优点。4)采用本文提出的改进笔画密度特征提取方法、三级距离分类器等算法,设计并实现了一个脱机手写女书文字识别系统。用系统进行了仿真实验,对实验结果进行分析和比较。

二、基于汉字字形的西夏文字版面分析方法研究(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、基于汉字字形的西夏文字版面分析方法研究(论文提纲范文)

(1)基于风格迁移的手写西夏文字样本生成研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 论文的主要研究内容
    1.4 论文章节安排
第2章 生成对抗网络(GAN)
    2.1 引言
    2.2 GAN基本原理及结构
    2.3 条件生成对抗网络cGAN
    2.4 本章小结
第3章 基于CGAN的风格迁移
    3.1 图像风格迁移技术
    3.2 基于cGAN的图像风格迁移
    3.3 应用于字体生成的风格迁移
    3.4 本章小结
第4章 基于风格迁移的西夏字符样本生成研究
    4.1 基于U-NET的生成网络模型设计
    4.2 基于PATCHGAN的鉴别网络模型设计
    4.3 西夏文字体风格迁移网络模型GAN结构设计
    4.4 损失函数及参数优化设计
    4.5 本章小节
第5章 西夏文字样本生成实验及分析
    5.1 手写体西夏文字样本生成实验设置
    5.2 实验平台和参数
    5.3 实验结果分析
    5.4 风格迁移后深度模型识别结果
    5.5 本章小结
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢
个人简历及论文发表情况

(2)西夏文献注译辅助识别系统平台设计(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 研究现状
    1.4 论文主要研究内容与章节安排
第2章 西夏文献注译辅助识别系统的设计与应用
    2.1 西夏文献注译辅助识别系统的应用
    2.2 识别系统设计
    2.3 系统的整体架构
    2.4 本章小结
第3章 西夏文字文本数据库的设计与实现
    3.1 引言
    3.2 数据库的数据提取
    3.3 MySQL数据库的实现
    3.4 本章小结
第4章 卷积神经网络在识别系统中的应用
    4.1 卷积神经网络
    4.2 针对西夏文字识别的CNN结构模型
    4.3 本章小结
第5章 西夏文献注译辅助识别平台的设计与实现
    5.1 开发环境与相关技术介绍
    5.2 网页功能模块的设计
    5.3 网页功能模块的实现
    5.4 本章小结
第6章 总结与展望
    6.1 工作总结
    6.2 工作展望
参考文献
致谢

(3)基于LOF和波动阈值的古籍图像版面分析(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 研究内容及主要工作
    1.4 本文的组织结构
第二章 相关理论和技术
    2.1 边缘检测算法
    2.2 版面分析方法
        2.2.1 版面分割
        2.2.2 区域识别
    2.3 本章小结
第三章 古籍图像非正文成分提取
    3.1 基于自适应Canny算子的古籍印章定位
        3.1.1 高斯滤波器尺度参数?的自适应选取
        3.1.2 改进的梯度计算方法
        3.1.3 双阈值的自适应确定
        3.1.4 古籍图像印章区域特征提取与定位
    3.2 基于Mask R-CNN的古籍批注成分提取
        3.2.1 古籍批注图像数据集标注
        3.2.2 Mask R-CNN框架
        3.2.3 ResNet模型网络深度的选取
        3.2.4 古籍图像批注成分提取
    3.3 本章小结
第四章 基于LOF和波动阈值的古籍版面图像分析
    4.1 古籍图像倾斜校正
    4.2 古籍版面图像特征分析
    4.3 基于LOF的古籍版面区域分类
    4.4 基于波动阈值的版面混合区域分割
    4.5 本章小结
第五章 实验结果与分析
    5.1 实验环境与实验数据
    5.2 基于自适应Canny算子的古籍印章定位实验结果分析
        5.2.1 边缘检测结果
        5.2.2 印章定位结果
    5.3 基于Mask R-CNN的古籍批注成分提取实验结果分析
        5.3.1 古籍批注成分提取结果
        5.3.2 ResNet网络选择结果分析
    5.4 基于LOF和波动阈值的古籍版面分析实验结果与分析
        5.4.1 版面分类结果
        5.4.2 混合区域粘连分割结果
        5.4.3 时间性能分析
    5.5 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 后续工作展望
参考文献
致谢
攻读学位期间取得的科研成果

(4)面向藏经典文献字体的多样性表达方法研究与应用(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 藏经典古籍简介
    1.2 研究背景及意义
    1.3 字体多样性表达
        1.3.1 多样性
        1.3.2 字体多样性
        1.3.3 字体多样性表达
    1.4 研究现状
    1.5 主要研究内容和主要创新点
        1.5.1 论文主要研究内容
        1.5.2 论文主要创新点
    1.6 论文结构
    1.7 本章总结
第二章 相关理论及方法概述
    2.1 图像处理
        2.1.1 图像二值化
        2.1.2 图像分割
        2.1.3 特征提取
    2.2 k-中心点聚类
        2.2.1 聚类的概念
        2.2.2 k-means聚类算法
        2.2.3 k-中心点聚类
    2.3 本章总结
第三章 藏经典文献的图像处理
    3.1 经文图像实际情况
    3.2 确定部件库
        3.2.1 藏字字丁的结构
        3.2.2 确定部件库
    3.3 图像处理
        3.3.1 图像分割
        3.3.2 基于多投影的特征提取方法
    3.4 本章总结
第四章 基于改进k-中心点的代表字体获取方法研究
    4.1 使用聚类的思想
        4.1.1 使用聚类的原因
        4.1.2 思想框架
    4.2 改进k-中心点聚类算法
        4.2.1 k-中心点聚类算法
        4.2.2 改进k-中心点聚类算法
        4.2.3 方法流程
    4.3 实验
        4.3.1 实验材料和实验环境
        4.3.2 实验结果
    4.4 本章总结
第五章 基于替换算法的字体多样性表达方法
    5.1 基本思想
    5.2 建立字体模型
        5.2.1 建立基本+离散字体的字体模型
        5.2.2 计算基本字体占比率
        5.2.3 统计各离散字体的频率
    5.3 基于替换算法的字体选择方法
        5.3.1 轮盘赌算法生成随机数
        5.3.2 替换算法
    5.4 实验
        5.4.1 实验材料和实验环境
        5.4.2 实验结果
    5.5 本章总结
第六章 总结与展望
    6.1 论文总结
    6.2 展望
致谢
参考文献
附录 A 攻读硕士期间的研究成果

(5)西夏古籍文字样本数据库的创建及应用技术研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 课题研究的背景
    1.2 课题研究的意义
    1.3 西夏文古籍数字化研究的现状
    1.4 本文主要研究内容和章节安排
第二章 西夏文样本数据库的总体设计方案和古籍图像预处理
    2.1 西夏文样本数据库的总体设计思路
    2.2 西夏文样本数据库中数据源选取分析
    2.3 图像扫描
    2.4 西夏古籍图像预处理
    2.5 本章小结
第三章 西夏古籍文字提取技术研究
    3.1 常用的文字提取算法研究
    3.2 西夏古籍图像版面分析和文字提取的难点
    3.3 基于K-means算法的西夏古籍图像分割
    3.4 基于直方图投影的西夏文字切分
    3.5 本章小结
第四章 西夏文样本数据库的设计与实现
    4.1 样本标注和汉字表的建立
    4.2 文本样本数据库建立
    4.3 单字样本数据库建立
    4.4 西夏文样本数据库的宏观统计分析
    4.5 本章小结
第五章 基于深度学习在西夏文识别中的应用研究
    5.1 深度学习简介
    5.2 基于MLSD的字符样本扩充
    5.3 基于卷积神经网络的西夏文识别训练
    5.4 对测试集西夏文的识别和评估
    5.5 本章小结
第六章 总结和展望
    6.1 总结
    6.2 展望
参考文献
致谢
个人简介

(6)基于不变矩的西夏文字识别(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 课题的背景和意义
    1.2 研究现状
    1.3 论文的组织结构
第二章 西夏文字结构分析和总体设计思路
    2.1 西夏文的四角号码检字法
    2.2 总体设计思路分析
    2.3 基于西夏文结构的四角编码识别理论
    2.4 四角号码定位方法
    2.5 附码的编码方法
    2.6 笔形编码库
第三章 西夏文笔形的拆分与预处理
    3.1 西夏文版面分析
    3.2 文字提取
    3.3 西夏文笔形提取
    3.4 笔形分离
第四章 基于Hu不变矩的西夏文笔形识别
    4.1 矩和不变矩
    4.2 不变矩相似程度检测
    4.3 提取西夏文笔形的Hu不变矩
    4.4 检测笔形相似度
第五章 基于Zernike正交不变矩的西夏文笔形识别
    5.1 Zernike矩提取图像特征
    5.2 Zernike矩的旋转不变特性
    5.3 Zernike矩的计算
    5.4 Zernike矩正则化
    5.5 提取西夏文笔形的Zernike不变矩
    5.6 检测笔形的相似度
第六章 结论分析
    6.1 实验中笔形的检测方法
    6.2 西夏文字整字识别测试
第七章 总结和展望
    7.1 论文中的研究成果
    7.2 本文的不足和将来研究的方向
致谢
参考文献
个人简介

(7)20世纪以来出土简牍(含帛书)年代学暨简牍书署制度研究(论文提纲范文)

内容提要
中文摘要
English Abstract
第一章 绪论
    1.1 本课题研究状况概述
    1.2 本研究课题采用的研究方法
    1.3 本研究课题的主要目的
第二章 用简用牍及简牍书署制度研究综述
    2.1 简、牍的源流及简牍书署制度的概念
    2.2 简牍年代学研究的成果、内容及现状
    2.3 简牍书署制度研究的成果、内容及现状
    2.4 用简、用牍制度的起源
    2.5 20 世纪五十年代以来,出土战国楚系竹简册的类型学分类及简牍学特征
        2.5.1 楚地出土简册年代学综论
        2.5.2 出土战国简册类型学分类的第一期——战国早期、中期前段至中期
        2.5.3 出土战国楚简牍类型学分类的第二期——战国中期后段至中期偏晚
        2.5.4 出土战国楚简册类型学分类的第二期——战国中期晚段竹书的代表
        2.5.5 出土战国楚简册类型学分类的第三期——战国晚期早段至晚期
        2.5.6 系年未能确定或信息不全面的部分战国楚地出土简册
    2.6 简牍署书文字的字体及书写特征
        2.6.1 战国楚系简牍文字概念的界定
        2.6.2 战国简牍楚系文字字体的书写特征
第三章 简牍制度的起源及先秦简牍实物的抄手
    3.1 先秦佚籍文献、卜筮祭祷与司法文书等三类写手间的联系及其书署形制特点
    3.2 简牍书署制度中的先秦两汉古佚籍抄件特点
    3.3 文献中书署制度的主体与先秦简牍实物中的签署人
    3.4 周代小学六艺教育中的“书名”传习及书写实物的对应考察
    3.5 包山 M2 楚墓所出土文书类及卜筮祭祷类简文,所见署名分类及战国简牍书署制度的探讨
        3.5.1 包山 M2 楚墓出土文书简简文后署名的分类与书写风格的划分
        3.5.2 包山二号楚墓出土筮祷祠简简文中的署名之分类及书写风格的划分
第四章 秦及两汉时期——简牍书署制度的完成
    4.1 “掌官书以赞治”的周代史官与秦汉衙署府史、胥吏的“史书而仕宦”的传承关系
    4.2 秦汉之际以书课吏制度的书署专门之学
    4.3 20 世纪七十年代中期以来出土秦简、秦牍的类型学分类及其简牍学特征
        4.3.1 出土秦简牍类型学分类的第一期——战国秦至始皇前期
        4.3.2 出土秦简牍类型学分类的第二期——秦始皇嬴政至二世时期
        4.3.3 出土秦简牍类型学分类的第三期——秦与西汉之相交叠时期
    4.4 秦系简牍署书文字实物的时代下限
        4.4.1 秦系简牍文字的专称——“署书”概念的界定与近年来考古所见实物的关系
        4.4.2 秦系简牍署书的书写特点
    4.5 秦汉宦学教本——早期习书的“法帖”
        4.5.1 《为吏之道》作为秦代学吏制度习字教本的文献依据
        4.5.2 《为吏之道》在书写风格及字形结体上同其它秦汉简牍抄件的联系
第五章 两汉简牍年代学及其简牍学特征
    5.1 20 世纪下半叶以来长江流域汉代墓葬简牍的类型学分类及其简牍学特征
        5.1.1 汉代墓葬出土简牍(含帛书)类型学分类的第一期——西汉早期至武帝期
        5.1.2 汉代墓葬出土简牍类型学分类的第二期——西汉中期至西汉晚期
        5.1.3 汉代墓葬出土简牍类型学分类的第三期——东汉早期至东汉晚期
        5.1.4 两汉简牍部分详细系年待公布或无法确定者
    5.2 20 世纪初以来,西北地区汉代边塞遗址简牍(含纸文书)的发现及其简牍学特征
        5.2.1 敦煌汉简部分
        5.2.1.1 1949 年以前,有关敦煌及部分楼兰遗址出土汉简的发现、整理与研究
        5.2.1.2 20 世纪八十年代以来,关于敦煌汉简的进一步整理与研究成果
        5.2.1.3 1949 年以来,新发现敦煌汉简的发掘与整理
        5.2.2 罗布淖尔汉简部分
        5.2.3 居延汉简部分
        5.2.3.1 1949 年以前,国内有关旧居延汉简的发现、整理与研究
        5.2.3.2 1949 年以来,国内有关旧居延汉简图版与释文的整理与研究成果
        5.2.3.3 1949 年以来,台湾对旧居延汉简图版及释文的最新研究成果
        5.2.3.4 新居延汉简的发现与整理工作的进展
        5.2.4 1949 年以来,甘肃省东部——武威地区汉简的发现与整理
        5.2.5 1949 年以后,西域地区于阗、尼雅等地区出土汉简牍的发现、整理与研究
第六章 简牍制度在两汉的形成
    6.1 古代简牍制度文献的比勘、研究与分析
    6.2 从简牍出土实物与文献的比勘,看简牍制度的形成
    6.3 汉代简牍署书体——“八分”的起始年代问题
    6.4 20 世纪以来出土简牍中所载秦汉字书兼法帖:《仓颉篇》书体之研究
第七章 简牍书署制度对名家流派书法时代的决定性影响
    7.1 简牍书署制度对秦汉书法风格的决定性影响
    7.2 简牍缀联与后世书法作品的行款
        7.2.1 简牍缀联与书写顺序
    7.3 史“掌官书以赞治”的化石性标志——简牍书迹行款中装饰性笔画:掠磔饰笔
        7.3.1 问题的提出
        7.3.2 掠磔笔画在两汉简牍书迹中出现的规律
        7.3.3 装饰性掠磔笔划在两汉简牍书迹章法中的作用新探
        7.3.4 “掠磔笔划”的渊源及其与隶变的关系
        7.3.5 书简书牍制度对秦汉其它写件的影响
    7.4 秦汉简牍文书习语与汉代早期草书形成的关系
        7.4.1 西汉早期简牍草书体系年的考察
        7.4.2 简牍文书中习语与简署书体书写草化之间的关系
第八章 三国、两晋及六朝——简牍与纸张的交替时代
    8.1 三国、孙吴及魏晋时期简牍所载的署书及署书书体的渊源与流变
        8.1.1 20 世纪初以来出土三国吴至十六国时期简牍的类型学分类及其简牍学特征
        8.1.2 20 世纪初以来出土晋六朝简牍的简牍学特征及类型学分类
        8.1.3 20 世纪初以来出土三国、两晋时期无法系年的简牍
    8.2 20 世纪以来,西域地区新疆楼兰遗址等出土汉晋简牍及纸文书的发现、整理与研究
        8.2.1 1949 年以前,有关新疆楼兰遗址内汉文魏晋木简牍及纸文书的发现、整理与研究
        8.2.2 1949 年以来,有关新疆楼兰遗址内汉文魏晋木简牍及纸文书的整理与研究
        8.2.3 1949 年以后,新疆楼兰地区出土简牍的发现与整理工作
    8.3 书署字体在简牍制度探讨上的重要地位
        8.3.1 简牍书署制度的研究对探讨书法艺术基本美学的重要意义
馀论
论文参考文献
攻读博士学位以来发表的学术专着、论文目录

(8)基于弹性网格的西夏文字识别(论文提纲范文)

1 引言
2 西夏文字弹性网格笔画特征提取
    (1) 横分量:
    (2) 竖分量:
    (3) 撇分量:
    (4) 捺分量:
3 LDA特征压缩
4 实验
    4.1 不同网格划分下识别率比较
    4.2 LDA方法压缩特征的识别率比较
    4.3 测试样本作为多候选字时的识别率分析
5 结束语

(9)蒙古文古籍识别技术的研究(论文提纲范文)

摘要
ABSTRACT
目录
图表目录
第一章 绪论
    1.1 研究背景及意义
    1.2 文字识别的发展历史及现状
    1.3 研究内容
    1.4 结构安排
第二章 文字识别相关理论与技术
    2.1 文字的切分识别和整词识别
    2.2 文字识别的模式识别方法
        2.2.1 模板匹配
        2.2.2 统计方法
        2.2.3 结构化方法
        2.2.4 神经网络
第三章 蒙古文古籍识别技术的研究
    3.1 蒙古文及蒙古文古籍概述
        3.1.1 蒙古文概述
        3.1.2 蒙古文古籍概述
    3.2 蒙古文古籍识别方法和流程
    3.3 预处理
        3.3.1 二值化
        3.3.2 去噪
        3.3.3 倾斜校正
    3.4 切分
        3.4.1 列切分
        3.4.2 词切分
        3.4.3 字元切分
    3.5 字元特征提取
        3.5.1 LP
        3.5.2 Euler Number
        3.5.3 BD
        3.5.4 Con&Pro
        3.5.5 DCT
        3.5.6 DWT
        3.5.7 PCA
        3.5.8 EPI
    3.6 字元识别
        3.6.1 决策树
        3.6.2 BP神经网络
        3.6.3 结果平滑
    3.7 识别后处理
        3.7.1 后缀处理
        3.7.2 编码
        3.7.3 错误校正
第四章 实验
    4.1 实验文档以及切分结果
    4.2 字元识别结果与讨论
    4.3 单词识别结果与讨论
第五章 结论与未来研究方向
    5.1 全文总结
    5.2 进一步的研究工作
致谢
参考文献
攻读硕士期间发表的学术论文

(10)脱机手写女书文字识别技术研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 目的和意义
    1.2 国内外研究现状
    1.3 本文的主要工作和结构
第2章 脱机手写女书文字识别方案设计
    2.1 脱机手写女书文字识别方案
    2.2 手写体女书样本的收集
    2.3 女书文字图像预处理
        2.3.1 图像平滑
        2.3.2 二值化
        2.3.3 文字切分
        2.3.4 归一化
    2.4 文字识别
        2.4.1 特征提取
        2.4.2 特征压缩
        2.4.3 特征字典
        2.4.4 分类识别
    2.5 小结
第3章 预处理
    3.1 女书文字图像平滑
    3.2 女书文字图像二值化
    3.3 女书文字切分
        3.3.1 算法设计
        3.3.2 算法实现
    3.4 女书文字归一化
        3.4.1 算法设计
        3.4.2 算法实现
    3.5 小结
第4章 特征提取
    4.1 特征提取
    4.2 笔画密度特征提取算法分析
        4.2.1 四方向笔画方向量
        4.2.2 全局笔画密度特征
        4.2.3 局部笔画密度特征
    4.3 周边方向贡献度特征提取算法
        4.3.1 八方向笔画方向量
        4.3.2 算法设计
        4.3.3 算法实现
    4.4 改进的笔画密度特征提取算法
        4.4.1 16 方向笔画方向量
        4.4.2 算法设计
        4.4.3 算法实现
    4.5 小结
第5章 分类识别
    5.1 多级分类器
    5.2 最小距离分类器
    5.3 多级距离分类器
    5.4 三级距离分类器的设计与实现
        5.4.1 算法设计
        5.4.2 算法实现
    5.5 小结
第6章 实验系统及识别结果分析
    6.1 实验系统的建立
    6.2 识别结果及分析
        6.2.1 实验1
        6.2.2 实验2
    6.3 小结
第7章 总结与展望
    7.1 总结
    7.2 展望
参考文献
致谢
攻读学位期间发表的学术论文和参与的项目

四、基于汉字字形的西夏文字版面分析方法研究(论文参考文献)

  • [1]基于风格迁移的手写西夏文字样本生成研究[D]. 杨丽娟. 宁夏大学, 2021
  • [2]西夏文献注译辅助识别系统平台设计[D]. 陈燕. 宁夏大学, 2021
  • [3]基于LOF和波动阈值的古籍图像版面分析[D]. 贾运. 河北大学, 2020(08)
  • [4]面向藏经典文献字体的多样性表达方法研究与应用[D]. 苗晗. 昆明理工大学, 2020(05)
  • [5]西夏古籍文字样本数据库的创建及应用技术研究[D]. 杨文慧. 宁夏大学, 2018(01)
  • [6]基于不变矩的西夏文字识别[D]. 张晓彪. 宁夏大学, 2017(02)
  • [7]20世纪以来出土简牍(含帛书)年代学暨简牍书署制度研究[D]. 张冬冬. 吉林大学, 2012(04)
  • [8]基于弹性网格的西夏文字识别[J]. 门光福,潘晨,柳长青. 中文信息学报, 2011(05)
  • [9]蒙古文古籍识别技术的研究[D]. 苏向东. 内蒙古大学, 2011(10)
  • [10]脱机手写女书文字识别技术研究[D]. 万晨. 中南民族大学, 2011(07)

标签:;  ;  ;  ;  ;  

基于汉字的西夏字排版分析方法研究
下载Doc文档

猜你喜欢