如何使用JavaScript实现《中国搜索引擎百科全书》

一、怎样用JavaScript实现“中文搜索引擎大全”（论文文献综述）

李斐飞^[1]（2017）在《价值重构：数字时代广告公司商业模式创新研究》文中认为今天数字技术趋于成熟,并在应用领域内迅速普及,将人类社会带入信息化的高级阶段—数字时代。新技术与新的社会发展阶段,带来了全新的价值创造方式和商业规则。对于广告公司而言,如何在不断变革的环境下生存发展下去,是业界和学界的共同关注课题。价值是人类社会经济系统永恒的主题,从农业经济到工业经济,再发展到今天的信息经济乃至数字经济,社会价值系统呈现出连续性与非连续性的变化特征,唯一不变的是社会经济系统的终极使命——创造“价值”。从微观层面商业模式是企业组织的价值逻辑,它必然折射出特定阶段更为宏观的社会价值系统的价值创造逻辑。本研究以“价值创造”为核心,试图回答“从工业社会价值生产系统走向数字社会价值系统的过程中,广告公司如何通过商业模式来实现生存和发展”这一现实问题。本研究将这一复杂问题分解为四个子问题:第一,数字时代广告公司商业模式的基本范式是什么;第二,对比传统广告公司商业模式的基本范式,数字时代广告公司商业模式出现了哪些创新?第三,主导广告公司商业模式创新的推动性因素是什么;第四,从传统到数字时代,广告公司商业模式创新的可行性路径。为了得到这四个问题的答案,本研究采用了理论演绎与经验研究两种研究路径。一方面以价值理论为工具,通过理论演绎将广告公司商业模式创新这一具体问题置于社会价值系统的范畴内,通过社会价值系统的演变过程分析和研究数字时代广告公司商业模式的创新方向和方式。另一方面,从现实材料中,采用定性为主体的案例研究、比较研究,结合部分定量分析,采用NVIVO.11作为案例研究的数据储存、分析工具,通过两个相互联系的子研究,总结业界在实践中给出的解决方案以及相关思考。两种不同的研究路径,可以将从上至下的理论研究与从下至上的经验研究相互对比、相互补充,试图对以上的四个子问题做出比较客观,又具有一定理论前瞻性的解答。全文分七个部分:前两章是论文的基础,第一章绪论,对本研究的基本介绍,包括背景、研究问题和研究意义,并界定研究对象核心概念,澄清研究的基本问题内容、研究方案的设计;第二章文献综述以及理论资源。通过梳理商业模式理论、以及商业模式创新理论,统一本研究中的核心概念:商业模式以及商业模式创新。并通过对以往学者的研究范式的梳理,确定了以理论演绎和案例归纳作为本研究的两个研究方法路径。并在此部分梳理了经济学与管理学体范畴内的价值理论体系,明确了本文的理论工具选择;第三、四、五章,是采用理论演绎的路径对四个问题进行具体的研究。这三章的基本理论工具是经济学与管理学中的价值源泉与价值工具理论,通过对以“价值”创造为核心的人类社会价值系统的历史性梳理,总结不同社会价值系统下的价值创造的一般性规律和决定性力量。并由外在社会价值系统的价值创造规律,推导作为企业组织的广告公司价值创造的基本逻辑——商业模式的变化规律以及发展趋势。第三章,回顾了工业社会广告公司商业模式创新的历史发展过程,探讨了广告公司在工业社会中的价值定位以及商业模式的一般演进规律,并提出在工业社会价值系统下,广告公司商业模式创新是基于工业社会内在价值逻辑自我完善和自我发展主导下的价值创新;第四章从解构到重构:“技术-价值范式”迭代中的广告公司商业模式创新,从技术社会学视角提出社会价值系统的内在价值逻辑——“技术-价值范式”这一全新的构念。商业模式创新,都是由社会价值系统的“技术-价值范式”所决定和主导的,因此整个社会价值系统的“技术-价值范式”迭代发展,必然导致广告公司旧有商业模式的解构,继而建构符合新的技术价值范式的新商业模式。第五章,数字时代“技术-价值范式”下广告公司商业模式基本范式以及创新路径。本章并通过阐述数字时代“技术-价值范式”的内在逻辑,分析其主导下的广告公司商业模式的可能范式,并解析其理想范式的价值创造机制、竞争机制,并进一步分析从传统的广告公司商业模式向数字时代广告公司商业模式创新重构的可行性路径。本研究的第六、七两个章节,则从丰富的实践案例中,以多案例研究的方式对这四个问题进行了归纳式的研究。第六章,价值重构:基于多案例的数字时代广告公司商业模式创新的实证研究。本章采用一种对比研究的方式,通过对传统广告公司商业模式与数字时代商业模式的比较,去回答数字时代广告公司商业模式的基本范式;以及广告公司商业模式是否存在创新,哪些方面存在创新。第七章殊途同归:基于多案例的数字时代广告公司商业模式创新路径及动力机制研究。本章通过纵向解剖个案的方式,通过对新进入的广告公司与传统在位者的创新过程研究对广告公司商业模式创新中的推动力量与创新路径进行深描,并提出数字时代“技术-价值范式”下的广告公司商业模式创新的一般路径以及影响因素的理论模型构想。本研究的第八章结论与展望则在总结了本研究的基本研究结论的基础上,从组织层面为商业模式转型中的提出广告公司提出策略性建议,在制度层面为政策制定提出一些思考,并在最后提出了本研究的不足和未来研究的展望。本研究的主要结论包括:第一,广告公司商业模式的创新的基本特征是价值创新,其创新的方向是由其所属的社会价值系统的“技术-价值范式”所决定的,在“技术-价值范式”主导下,企业家扮演广告公司商业模式创新的内部推动者角色。“技术-价值范式”是复杂性系统:其中技术与价值需求（包括媒体、广告主、消费者）是外部根本性驱动力量;竞争者与合作伙伴,尤其是资本市场的推动是影响广告公司商业模式模式变迁的重要的外部影响因素;推动企业商业模式变革内在驱动是企业内部的企业家（企业家精神）。广告公司商业模式创新过程中,这些因素对商业模式创新的驱动并不是直线型因果关系,他们彼此之间相互影响,共同演进。它表示在社会价值系统演进过程中,通过系统内彼此相关的元素的相互作用,而实现广告公司商业模式创新。第二,从传统到数字时代“技术-价值范式”的迭代决定了广告公司商业模式必然发生价值重构。其理想的发展范式是构成营销价值网络的“大平台”“小服务前端”或“大平台+小服务前端”模式。在“大广告产业”的范畴内,现阶段广告公司商业模式创新的方向是打造“大平台”或“小服务前端”的商业模式,而少数具有较强实力的企业正在设计打造“大平台+小服务前端”的整体价值网络系统。“大平台”、“小服务前端”或“大平台+小服务前端”的商业模式建立的基础是基于稀缺知识资源的互补,参与者必须建构或者嵌入到特定的营销价值网络系统中,从而获取网络租金。“大平台+小服务前端”的商业模式本身是与数字时代“技术-价值范式”专业分工相互匹配的一种组织合作和价值生产的治理制度,它主动通过关系构建从而进行价值创造,这种商业模式中的价值模块之间通过嵌入到这种组织形态中形成彼此的利益相关者,它们通过相互耦合实现价值的创造,价值转移、价值分配以及价值消费。第三,数字时代广告公司商业模式实现了创新。广告公司的价值主张发生了创新性的演进:从为广告主提供整合营销传播迁移到提供更加丰富的营销服务演进。以数据作为核心资源的智能投放等企业的商业模式中服务范畴出现较明显的扩展,他们为具有营销或营销传播需求的小微创新者提供营销服务。此外通过商业模式创新,广告公司提供的价值内容实现了飞跃:一方面大幅度低营销传播过程的交易费用,提高交易效率;二,是通过创造体验价值,增加商品的价值总和。此外,价值主张创新带动的广告公司商业模式的价值建构方式以及价值获取也实现了创新,从价值建构角度来看,数据、信息、知识,广告公司中愈来愈成为核心资源,而传统价值链式的组织治理方式向价值网络转变;从价值获取视角来看,广告公司的成本结构向大数据技术转移,并在盈利方式上显现出更加弹性、多元化的特征。第四,广告公司商业模式的基本范式从传统走向数字是一个从解构到建构的过程,不同基因的企业有不同的创新路径。从价值系统的层面来看,价值实现机制的演进,数字时代“技术-价值范式”带来价值链模式的解体和价值网络的建构,这是一个从解构到建构的过程,具有普遍性。从具体的企业组织角度来看,在位企业与新进入者的商业模式创新的路径具有显着的差异。新进入者的价值定位是全新的,直接进入数字营销价值系统的核心区域。其商业模式创新是从无到有创新路径:设计—建构—优化。与新进入企业不同,位企业在传统价值系统中的原有价值定位受到新的“技术—价值逻辑”侵蚀后,会有两种选择:固守或创新。采用商业模式创新也与新进入企业不同,在位企业一般选择在原有商业价值主张的基础上,以最小风险成本为目标,渐进性迁移到数字营销价值系统中,采用一种迂回路径:补充—设计一整合—优化。

黄国锴^[2]（2016）在《面向视频网站的自感知通用爬虫系统的设计与实现》文中认为随着计算机技术的高速发展和互联网的广泛普及,互联网上信息量爆发式激增甚至过载,过载的信息量提高了用户的信息筛选难度,视频网站便是其中典型的例子。随着视频网站越来越多,视频版权制度越来越完善,大多数视频网站无法购买到所有视频的播放授权,而这也同时给互联网用户提出了难题,互联网用户常常无法在同一家视频网站看到自己想看的所有视频内容。于是面向视频网站的内容聚合需求便应运而生。面向视频网站的内容聚合需要爬虫系统为其提供最基本的数据支持。本文针对爬虫系统遇到的视频网站改版导致爬虫失效、爬虫失效后不能及时感知、以及对失效的爬虫进行修复时可读性差和维护成本高等问题,通过对目前国内主流的视频网站的共性和特点进行分析,设计和实现了面向视频网站的自感知通用爬虫系统。第一,针对视频网站设计了深度定制的XML模板标签语言,以表达各家网站视频业务的抽取逻辑,并实现了相应的模板解释器以对XML抽取模板进行解释执行;第二,基于Scrapy爬虫系统,在爬虫系统的各个环节插入数据收集逻辑;第三,在爬虫系统执行完成对本次爬虫系统产生的中间数据和入库的数据进行统计和分析,通过数据的统计分析,得出爬虫系统的数据规律,在一定程度上感知爬虫系统是否存在失效。此外,本文还实现了失效地址的探测子系统,通过模拟视频内容请求流程,来扫描数据库中的哪些视频信息属于无法播放的失效视频,并进行标记。最后,本文对上述设计和实现进行了实验,得出了视频抓取量的变化规律,验证了爬虫系统模板化通用抽取的可用性,以及数据统计分析和异常感知在一定程度上的有效性。

沙吾提江·亚森^[3]（2015）在《基于本体的维吾尔语语义搜索引擎的研究与实现》文中研究表明随着新疆经济的飞速发展,新疆少数民族语言网站建设也进入了新的发展阶段,其中,维吾尔文网站也形成了一定的规模,据有关部分2013年年底统计数据,新疆地区少数民族语言文字网站数超过几万,新疆上网用户突破1094万。所以,研究开发一个支持多语种的搜索引擎系统,为新疆的少数民族上网用户的本民族语言文字信息检索提供方便,开发多语种搜索引擎系统对少数民族地区教育和经济发展,提高本地区的信息化水平有着非常重要的意义。基于本体的智能化搜索引擎对互联网应用,互联网发展影响很大,通过智能化搜索引擎发现和累计有用信息,及时发现并去掉社会有害信息,对促进社会经济,文化,教育发展有很大的作用和积极的意义。基于本体的智能化搜索引擎的研究对新疆经济、文化、教育建设的高速稳定发展及网络不良信息的及时发现和消除具有非常重要的意义。但是维吾尔文字库编码标准化工作比较晚,维吾尔文网站建设起步比较晚等各种原因,到目前为止还没有一个针对维吾尔文网站的比较实用的搜索引擎系统。虽然出现了一些基于开源框架的搜索引擎网站系统,但这些搜索引擎系统信息检索能力较差,返回的搜索结果往往不尽人意,查全率和查准率上远远不能满足用户的需求,信息检索在用户关键字智能处理方面能力缺乏,用户寻往往寻找不到自己感兴趣的内容。这对维吾尔族网民在共享维吾尔文网络资源,网上检索信息带来了极大的不便,并影响了少数民族地区信息技术的发展。本文以维吾尔语的搜索引擎系统及其特点为研究课题,从维吾尔语语义本身的角度来研究语义搜索,建立维吾尔语搜索引擎搜索模型,重点分析基于维吾尔语的网络爬虫技术,维吾尔文编码处理技术,及基于本体维吾尔语信息检索技术,维吾尔文网页识别分析及维吾尔文在线处理技术,Android客户端维吾尔文显示技术等一些关键技术问题。

杨静娴^[4]（2014）在《面向数码商品垂直搜索引擎原型系统的设计与实现》文中研究说明随着互联网技术的快速发展,用户的检索需求也在不断的变更,面对用户越来越个性化和专业化的检索需求,传统的综合搜索引擎已经逐渐满足不了信息检索用户的需求,用户开始偏向使用更加专业化、行业化、个性化的垂直搜索引擎。垂直搜索引擎发展持续增快,用户逐渐增多,它所涉及的领域也越来越多,在日常生活中,垂直搜索引擎的发展使用户能够快速、精准地定位检索信息,摆脱“信息迷航”和“信息过载”所带来的困扰,以“专、精、深”为检索特点的垂直搜索引擎从而成为了目前搜索引擎的发展方向。现在越来越多的用户通过互联网来了解和购买数码商品,一方面促进了数码商品电子商务的发展,另一方面用户对搜索引擎的服务也有了越来越高的要求。摒弃大量的冗余数据和广告信息,垂直搜索引擎针对特定领域、特定人群或特定需求提供信息和相关服务的特点与数码商品检索的需求很好地契合。本文设计并实现了一款面向数码商品垂直搜索引擎的原型系统,以高效搜索为实现目标,应用垂直搜索引擎和Hadoop云计算平台的相关理论和技术予以实现。本文在掌握网络爬虫和MapReduce的工作原理和相关技术之后,编写实现了数码商品的网络爬虫：在分析和掌握基于网页结构的信息抽取方式和基于正则表达式的信息抽取方式基础上,编程实现了信息抽取功能；在分析和掌握信息索引的相关原理和技术之后,设计信息索引结构、改进西南交通大学分词系统和TF-IDF算法,结合MapReduce编程模型实现了数码商品信息的索引功能；运用JSP技术实现用户查询页面设计。该原型系统实现了设计中所有需求的功能,满足了用户检索数码商品的需求,具有一定的实际应用价值。

郭名芳,林予松,王宗敏^[5]（2013）在《按需索取的中文Web Fonts技术研究》文中研究说明为了使网页支持更多的字体类型,尤其是中文字体类型,提出两种基于按需索取的中文Web Fonts解决方案。对现有英文Web Fonts技术进行探讨,分析方案存在的问题,并对其浏览器兼容性进行测试。在此基础上,针对中文字体文件过大的问题,对@ font-face和Typeface.js两种方案进行优化,通过把中文字体库上传到Web服务器上,根据请求参数,按需索取字体文件和字形轮廓信息。最后通过搭建一个实际网络环境,验证了方案的有效性。

林乐^[6]（2013）在《特定网站新闻检索系统的设计与实现》文中研究表明互联网快速的发展，人们的生活越来越离不开互联网，网络信息量爆发式地增长给搜索引擎带来了巨大的挑战。人们每天都花一定的时间来浏览新闻网站，了解当前国内外正在发生的一些时事新闻，然而互联网上的新闻门户网站也越来越多，人们获取自己感兴趣的新闻也就越来越难。在很多情形下（例如舆情检测等），人们只对一些特定网站的新闻感兴趣，而通用搜索引擎并不提供这种选择。这种情况下，我们需要一个面向特定网站的新闻搜索系统，能为用户搜集、整理并提供感兴趣的新闻服务。本文旨在设计并实现一个及时准确的、用户可配置和定制的、可扩展的新闻搜索系统，该系统能实时采集指定网站的新闻，并给用户提供个性化的新闻搜索服务。本文调研了搜索引擎及新闻搜索国内外的研究现状，基于搜索引擎的主要工作原理，提出了面向特定网站的新闻检索系统的设计。本文使用MVC分层思想对系统进行实现，将系统分成数据采集层、业务逻辑层和展示层。本文通过新闻网站的RSS源来发现最新的新闻报道，使用Boilerpipe开源库提取网页的正文信息，使用IK分词器对网页正文进行分词并为网页建立倒排索引，最后为用户提供个性化的新闻搜索服务。同时本文还根据新闻的特性，提出了基于新闻相关性、新鲜性、新闻类别、新闻来源站点这四个因素的新闻搜索结果排序算法对新闻结果进行排序。本文对系统进行测试，统计新闻的采集情况，对新闻网页正文提取进行测试，对新闻搜索系统的Web服务部分进行功能测试。

黄希欣^[7]（2013）在《基于Android的数码产品垂直搜索引擎研究与实现》文中研究指明信息技术的迅速发展给我们的生活带来了很多乐趣,然而,信息量的增多给我们查询所需要的信息带来了很大的难度,直到搜索引擎的出现才缓解了这一局势。通用搜索引擎将搜索结果不加区分的返回给用户,用户还需要从五花八门的结果中再进行大量的人工筛选才能找到自己想要的结果。作为搜索引擎的高级形式,垂直搜索引擎带来了明显的查询优势。它查询精准,分类明确,使用户可以方便、准确的找到自己所需,增加了用户黏性,推广起来也不成问题。进入新世纪以来,智能移动终端快速普及,3G、WLAN等无线通信技术也得到了较好的应用,这都标志着移动互联网离我们的生活越来越近,随之而来的是蓬勃发展的移动应用开发。当前,Android系统占据了移动应用开发系统较大比例的市场,受到了广大移动应用开发者的青睐。手机客户端搜索引擎能够起到实时搜索、降低购物成本等作用,人们希望能随时随地从因特网获得更丰富的信息,这时一个移动终端的智能搜索系统就可以满足用户当前的需要。本文以笔记本电脑和手机产品的资源库为背景,通过研究垂直搜索引擎的特点,设计并实现了一个数码产品垂直搜索引擎系统：其中包括对开源网络爬虫Heritrix的扩展与改进,对网页抓取过程中存在的问题进行了优化和处理；结合HTMLParser技术,将爬虫定制抓取下来的网页解析成结构化的文本并进行存储；结合Lucene技术,对结构化的文本建立了索引,同时还构建了专业词库,实现了检索模块；采用JAVA EE三层架构,利用Spring和DWR技术,开发了用户接口。在此搜索系统的基础上,通过制定和实现Android客户端与服务器端之间的通信接口,将Android客户端的数码产品搜索纳入到本文的研究内容中,更好地满足用户的需要。最后通过对系统测试,移动数码产品垂直搜索引擎的方案是切实可行的,提高了查询的效率和准确度。本文及系统的创新点有：构建本系统的时候,采用了相关策略和算法实现了主题网络爬虫模块,使获取到的信息更加精确、更符合用户预期；在Android系统上实现了门户网站的垂直搜索功能。

周政^[8]（2012）在《隐藏型垃圾网页检测技术的研究与实现》文中指出随着互联网的发展和普及,Web信息出现了爆炸式的增长,搜索引擎已成为人们从这些海量信息中获取所需信息不可或缺的工具。但在搜索结果中,排在前几位的并不是用户真正所需的网页,而是垃圾网页制造者使用黑帽SEO技术制造的与搜索不相关的垃圾网页,甚至是具有欺诈性的重定向垃圾网页。从而浪费了搜索引擎用户的时间,也降低了搜索引擎公司的信誉。在垃圾网页中,隐藏型垃圾网页具有隐蔽性、欺骗性和难以检测等多个特点,已成为垃圾网页检测领域,一个亟待解决的问题。本文综述了目前国内外隐藏型垃圾网页检测技术的研究,详细分析了隐藏型垃圾网页技术特点和类型,特别研究了其中的重定向垃圾网页实现技术。总结归纳了重定向垃圾网页类型,详细分析了这些现象的特征和成因。本文根据已总结的重定向垃圾现象,提出了一种面向搜索结果的重定向垃圾网页检测算法,设计了面向搜索结果的重定向检测系统框架,能对搜索结果的重定向垃圾网页做出有效地检测。本文构建了一个中文垃圾关键词库和中文重定向检测样本数据集,通过实验对提出的重定向检测算法进行了验证,并从混淆矩阵、关键词、伪装网页类型、重定向类型和垃圾网站等多个方面进行了统计分析,获得了很有价值的实验结果。

王腾飞^[9]（2012）在《基于Solr的分布式实时全文检索系统的设计与实现》文中研究说明伴随着信息技术的快速发展,越来越多的企业建立了自己的信息平台或者网站。当企业内的数据量不断增长时,使用数据库提供的检索功能将严重影响搜索效率,要想使用数据库提供的检索能力实现和搜索引擎（百度、Google）类似的检索效率是不可能的。这就需要使用搜索引擎中使用的全文检索技术,怎样把全文检索应用嵌入在企业的系统中,并提供高效的检索服务是许多企业需要解决的主要问题。企业往往需要系统有较强的性能和扩展能力,而且根据企业对信息的实时性要求较高的特点,因此一个分布式实时全文检索系统可以很好的解决上述问题。本文首先介绍分布式和全文检索系统,并详细说明了全文检索中的核心技术和Lucene （Apache软件基金会的一个子项目）,Lucene是一个开放源代码的全文检索引擎工具包。在对Lucene深入了解之后,经过对其相关项目分析,最终选择使用其子项目Solr作为开发分布式实时全文检索系统的核心技术。Solr是Apache软件基金会基于Lucene开发的企业级搜索应用服务器,它所提供的客户端接口可以方便实现分布式应用,作为一个开放源代码的项目和其本身就是为企业应用而开发的,因此非常适合企业使用。在文中详细介绍Solr的架构和特点,并重点说明Solr服务器的搭建。在对Colr和Solrj （Solr客户端编程接口）深入研究后,详细说明了分布式实时全文检索系统的设计,并提出了一种简单的分布式全文检索系统模型。最后基于一个具体的项目,将分布式实时全文检索的功能加入其中,并对Solr搜索服务器的相关性能进行简单的测试。

朱敏^[10]（2012）在《基于Lucene的垂直搜索引擎的研究与实现》文中指出随着互联网上的信息不断膨胀以及信息形式的日渐多元化,通用搜索引擎所需要采集、索引和查询的内容越来越多,然而面对庞大的搜索返回结果,用户寻找自己所需要的信息是一件很费力的事情。所以,一个专注于特定领域的、数据全面深入、更新及时、注重专业化与结构分析的垂直搜索引擎应运而生,如何准确、及时地返回结构化的信息,以及如何实现垂直搜索引擎在特定领域中的应用具有重要的研究意义。在搜索引擎领域,中文分词对搜索结果排名的影响非常大,因为搜索引擎在建立索引和检索结果的过程中,都需要先分词。本文在深入研究基于理解的分词、基于统计的分词和基于词典的分词、以及歧义词和未登录词处理的基础上,设计了一种基于字典的字符串匹配方法和基于统计相结合的分词算法,其中基于字典的方法采用逆向最大匹配方法。算法中的词典由核心词典和临时词典组成,并且核心词典采用二级哈希存储结构,在此基础上使用整词二分法的首字哈希查找技术,可在兼顾结构简单、空间占用小的情况下提高查找效率。临时词典采用单字哈希以简化其构造和维护。统计策略是解决歧义问题及未登录词问题的关键,一个好的统计策略的制定至关重要。本文计算词频的统计策略来解决新词的识别,其中新词包括未登录词和歧义词。实验证明,改进后的分词算法在经过不断的统计与学习之后,分词准确率保持在98%左右,选择合适的语料,经过不断地统计与学习,其性能得到很大的提高并能满足具体领域的应用。在改进的中文分词算法基础上,本文针对手机信息的特点和手机产品详细信息的搜索需求进行需求分析,在Eclipse开发环境中利用Lucene开源框架实现了一个可在Tomcat服务器上运行的手机信息垂直搜索引擎系统。该系统的设计方案为：首先改进Heritrix爬虫框架,在Heritrix开源爬虫框架中定制特定的抓取手机网页的类,对互联网上电子商务网站中的手机信息进行采集,然后使用正则表达式和HtmlParser提取网页内容,并在系统中加入中文分词算法对信息进行处理,同时构建手机信息词库,建立手机信息数据库和索引结构,实现用于接收用户查询信息的检索功能,最后将查询结果返回给用户。通过系统测试,本文设计的手机信息垂直搜索引擎返回的结果准确率高、性能良好,能够满足用户需要,该设计方法具有可借鉴性,可在其他领域应用。

二、怎样用JavaScript实现“中文搜索引擎大全”（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、怎样用JavaScript实现“中文搜索引擎大全”（论文提纲范文）

（1）价值重构：数字时代广告公司商业模式创新研究（论文提纲范文）

中文摘要 ABSTRACT 1 引言

1.1 选题的研究背景

1.1.1 现实背景:趋向成熟的中国广告业迎来数字时代变革的机遇与挑战

1.1.2 理论背景:数字时代的新价值、新管理视角

1.2 问题与研究意义

1.2.1 问题的提出

1.2.2 本研究的学术价值以及现实意义

1.3 研究对象与核心概念界定

1.3.1 研究对象界定

1.3.2 核心概念界定

1.4 研究内容和基本结构

1.4.1 研究的主要内容

1.4.2 本文的主要结构

1.5 研究方法与技术路线设计

1.5.1 研究方法

1.5.2 研究的技术路线

1.6 本研究可能的创新点 2 相关研究述评与理论资源

2.1 商业模式与商业模式创新理论研究评析

2.1.1 多元视角下的商业模式的理论内涵

2.1.2 静态视角下的商业模式的理论模型与构成要素研究

2.1.3 商业模式理论的功能与价值研究

2.1.4 创新理论与动态视角下的商业模式创新

2.1.5 数字时代广告公司商业模式研究述评

2.2 管理学与经济学理论视角下的价值研究

2.2.1 价值的理论内涵

2.2.2 一元与多元之争:价值源泉理论

2.2.3 价值链到价值网:价值工具论的演变 3 价值创新:广告公司商业模式创新的演进规律

3.1 工业社会价值系统下广告公司商业模式的创新演进

3.1.1 单一价值模块的报业广告批发商模式

3.1.2 价值链延伸的全面服务广告代理制模式

3.1.3 多价值链条并行的整合营销传播集团模式

3.2 广告公司的价值定位及其商业模式创新的基本特征

3.2.1 从客观价值到主客观价值并重:广告公司在社会价值系统中的价值定位演进

3.2.2 价值创新:广告公司商业模式创新的基本特征 4 从解构到重构:“技术-价值范式”迭代与商业模式创新

4.1 社会价值系统的内在价值逻辑:“技术-价值范式”

4.1.1 社会价值系统及其构成要素

4.1.2 “技术-价值范式”:社会价值系统的价值逻辑

4.2 解构与重构:“技术-价值范式”主导下的社会价值系统的演进规律

4.2.1 人类社会价值系统发展的连续与非连续性

4.2.2 “技术-价值范式”主导下的社会价值系统的演进过程

4.3 “技术-价值范式”:企业商业模式创新演进决定性因素

4.3.1 社会价值系统中的企业组织

4.3.2 “技术-价值范式”:企业商业模式创新的决定性力量

4.3.3 企业家:“技术-价值范式”主导下的企业商业模式创新的历史推动者

4.4 从“自我完善”走向“价值重构”:“技术-价值范式”主导下广告公司商业模式创新

4.4.1 从建构到解构:工业时代“技术-价值范式”主导的传统广告公司商业模式创新

4.4.2 从解构到重构:数字时代“技术-价值”范式迭代下的广告公司商业模式创新 5 数字时代“技术-价值范式”下的广告公司商业模式基本范式以及其创新路径

5.1 数字时代“技术-价值范式”特征以及价值实现机制

5.1.1 数字时代“技术-价值范式”的基本特征

5.1.2 数字时代“技术-价值范式”下的价值实现机制:价值网络

5.2 数字时代“技术-价值范式”下的广告公司商业模式基本范式

5.2.1 “大平台”与“小服务前端”:数字时代广告公司商业模式的基本范式

5.2.2 “大平台”与“小服务前端”商业模式价值创造机制

5.3 数字时代广告公司商业模式的竞争机制

5.3.1 “大平台”与“小服务前端”商业模式的竞争优势来源

5.3.2 “大平台”与“小服务前端”商业模式内部竞争机制

5.4 数字时代广告公司商业模式创新路径

5.4.1 “大平台”与“小服务前端”商业模式形成的基础

5.4.2 从解构到建构:大平台+小服务前端商业模式的形成过程 6 数字时代广告公司商业模式创新实证研究一:基本范式的价值重构

6.1 研究方案

6.1.1 问题、方法与工具

6.1.2 案例的选择

6.1.3 资料搜集与处理

6.2 从传统到数字,广告公司商业模式创新比较分析

6.2.1 以价值主张为主要判断依据的商业模式创新标准

6.2.2 传统广告商业模式范式

6.2.3 基于案例研究的数字时代广告公司商业模式的基本范式

6.2.4 数字时代广告公司商业模式创新结论 7 数字时代商业模式创新实证研究二:新进入者与在位者的殊途同归

7.1 多案例研究设计

7.2 乘势而起:新进入者商业模式创新

7.2.1 抓住市场的风口:新进入者在数字环境下的价值主张创新

7.2.2 回应数字“技术-价值范式”:新进入者的商业模式建构的内在逻辑

7.2.3 多赢:新进入者价值获取的意图

7.3 基因的选择:在位者商业模式创新

7.3.1 基因的不对称动机:在位者的商业模式价值主张创新

7.3.2 如何实现大梦想:在位者商业模式创新中的价值建构方式

7.3.3 多元化的价值获取方式:在位者商业模式创新中的价值获取

7.3.4 如何突破亚历山大难题:在位者的商业模式创新的思考

7.4 结论与探讨一:数字“技术-价值范式”下的时代广告公司商业模式创新实践驱动因素

7.4.1 “大平台+小服务前端”:技术与价值需求的选择

7.4.2 “大平台+小服务前端”:价值竞争与价值共创的耦合

7.4.3 广告公司商业模式创新的内部驱动者:企业家(企业家精神)

7.5 结论与探讨二:价值视角下新进入者与在位者商业模式创新路径选择 8 结论与展望

8.1 数字时代广告公司商业模式创新的基本结论

8.2 广告公司未来商业模式创新的策略性思考

8.2.1 培育内部企业家精神,塑造持续创新文化

8.2.2 建设二元性组织,协调创新与效率矛盾

8.3 制度创新促进广告公司商业模式创新

8.4 本研究的不足与展望参考文献附录攻博期间发表的与学位论文相关的科研成果后记

（2）面向视频网站的自感知通用爬虫系统的设计与实现（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 爬虫系统的研究现状

1.2.2 面向特定业务的爬虫系统的研究现状

1.2.3 面向视频网站的爬虫系统的研究现状

1.3 论文主要内容

1.4 论文组织结构

第二章相关技术分析

2.1 网络爬虫系统概述

2.1.1 网络爬虫简介

2.1.2 网络爬虫的原理

2.2 网络爬虫的分类

2.2.1 通用网络爬虫

2.2.2 聚焦网络爬虫

2.3 垂直型(聚焦型)网络爬虫相关技术

2.3.1 Scrapy爬虫框架

2.3.2 模板化抽取

2.4 本章小结

第三章面向视频网站的自感知通用爬虫系统的分析和设计

3.1 面向视频网站的自感知通用爬虫系统的概述

3.1.1 面向视频业务的爬虫系统概述

3.1.2 视频网站业务的共性和特点

3.1.3 视频业务的通用爬虫系统概述

3.1.4 爬虫系统的异常类型

3.1.5 具有自感知能力的通用爬虫系统概述

3.2 面向视频网站的自感知通用爬虫系统的架构设计

3.3 爬虫系统模板化抽取模块的设计

3.3.1 模板化页面抽取的模板设计概述

3.3.2 模板化页面抽取的标签语言设计

3.3.3 模板化页面抽取的模板解释器设计

3.4 爬取轨迹数据收集模块的设计

3.4.1 爬虫系统执行时的数据收集

3.4.2 数据收集的方法设计

3.5 爬虫系统独立数据统计分析感知子系统的设计

3.5.1 视频分集缺失的统计分析方法设计

3.5.2 视频字段抽取不完全的统计分析方法设计

3.5.3 视频剧集未抓取到的统计分析方法设计

3.6 失效地址探测子系统的设计

3.6.1 失效地址探测子系统设计概述

3.6.2 失效地址探测子系统的数据库存储方案设计

3.6.3 失效地址探测子系统的探测方案设计

3.7 本章小结

第四章面向视频网站的自感知通用爬虫系统的实现

4.1 面向视频网站的爬虫系统模板化抽取模块的实现

4.1.1 模板标签语言的实现

4.1.2 模板标签语言的应用

4.1.3 模板解释器的实现

4.2 爬取轨迹数据收集模块的实现

4.3 数据统计分析和异常感知子系统的实现

4.3.1 视频分集缺失的数据统计和异常感知的实现

4.3.2 视频字段抽取不完全的统计分析和异常感知的实现

4.3.3 视频剧集抓取不到的统计分析和异常感知的实现

4.4 失效地址探测子系统的实现

4.4.1 实现失效地址探测子系统的概述

4.4.2 视频失效标识获取交互流程模拟

4.4.3 失效探测的实现结果

4.5 本章小结

第五章面向视频网站的自感知通用爬虫系统的实验与分析

5.1 实验环境

5.1.1 硬件环境

5.1.2 软件环境

5.2 实验测试方案设计

5.2.1 模板化通用抽取子系统测试方案

5.2.2 爬取轨迹数据收集模块的测试方案

5.2.3 数据统计分析和异常感知效果的测试方案

5.2.4 失效地址探测效果的测试方案

5.3 测试结果与分析

5.3.1 模板化通用抽取子系统的测试结果与分析

5.3.2 爬取轨迹数据统计模块效果的展示与分析

5.3.3 数据统计分析和异常感知效果的测试结果和分析

5.4 本章小结

第六章总结与展望

6.1 工作总结

6.2 工作展望

参考文献

致谢

攻读学位期间发表的学术论文和科研情况

（3）基于本体的维吾尔语语义搜索引擎的研究与实现（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 课题研究目的和意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 全文主要内容及章节安排

第二章维吾尔语语义搜索引擎及其关键技术

2.1 本体的基本概念，目的及作用

2.2 主流语义搜索引擎技术

2.2.1 语义网与基于本体的语义搜索引擎

2.2.2 语义网与专题搜索引擎框架

2.2.3 语义专题爬虫概况

2.3 基于本体的维吾尔语搜索引擎基本原理

2.4 基于本体的维吾尔语搜索引擎关键技术

2.4.1 基于语义词典的维吾尔文网页检测技术

2.4.2 基于语义词典的维吾尔语分词和词干提取技术

2.4.3 基于本体的维吾尔语语义搜索引擎中维吾尔文输入法技术

2.5 本章总结

第三章基于本体的维吾尔语语义搜索引擎需求分析

3.1 基于本体的维吾尔语语义搜索引擎系统分析

3.2 维吾尔语搜索引擎系统需求分析

3.3 本章总结

第四章基于本体的维吾尔语语义搜索引擎总体设计

4.1 系统设计目标

4.2 搜索引擎系统概述及结构

4.3 维吾尔语的主要特点

4.4 基于本体的维吾尔语语义搜索引擎系统需求概述

4.5 基于本体的维吾尔语语义搜索引擎总体设计

4.6 本章总结

第五章维吾尔语搜索引擎系统详细设计

5.1 基于本体的维吾尔语语义搜索引擎设计思想

5.2 系统开发环境与开发工具

5.3 基于本体的维吾尔语语义搜索引擎结构

5.4 维吾尔语搜索引擎各模块详细设计

5.4.1 网页搜集

5.4.2 预处理

5.4.3 查询服务

5.4.4 维吾尔语语法分析模块的设计

5.4.5 维吾尔文在线输入模块的设计

5.5 本章总结

第六章维吾尔语搜索引擎系统实现

6.1 搜索引擎网络爬虫的实现

6.2 搜索引擎网页内容分析器的实现

6.3 搜索引擎检索器和用户接.的实现

6.4 基于本体的维吾尔语语义搜索引擎语义词典的实现

6.5 本章总结

第七章维吾尔语搜索引擎系统测试

7.1 系统测试及运行结果分析

7.1.1 维吾尔语搜索引擎测试方法

7.1.2 系统测试结果

7.2 系统测试结果分析

7.3 本章总结

第八章全文总结与展望

致谢

参考文献

（4）面向数码商品垂直搜索引擎原型系统的设计与实现（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 课题研究背景

1.2 国内外现状分析

1.3 垂直搜索引擎相关理论

1.3.1 垂直搜索引擎的结构

1.3.2 垂直搜索引擎与传统搜索引擎的比较

1.4 研究内容

1.5 论文的结构

第2章垂直搜索引擎的平台及关键技术研究

2.1 Hadoop云计算平台的关键技术

2.1.1 HDFS分布式文件系统

2.1.2 MapReduce编程模型

2.2 垂直搜索引擎的关键技术

2.2.1 网络爬虫

2.2.2 信息抽取

2.2.3 索引和搜索

2.2.4 中文分词

2.3 小结

第3章面向数码商品垂直搜索引擎的分析与设计

3.1 面向数码商品垂直搜索引擎原型系统需求分析

3.1.1 业务分析

3.1.2 功能分析

3.1.3 性能分析

3.2 面向数码商品垂直搜索引擎原型系统体系结构的设计

3.3 数码商品网络爬虫功能设计

3.3.1 网页链接分析

3.3.2 网络爬虫策略

3.4 数码商品信息抽取功能设计

3.4.1 数码商品网页结构分析

3.4.2 半结构化信息抽取策略

3.4.3 结构化信息存储策略

3.5 数码商品信息索引功能设计

3.5.1 元数据预处理

3.5.2 追加自定义词典

3.5.3 改进的TF-IDF算法

3.5.4 信息索引策略

3.6 小结

第4章面向数码商品垂直搜索引擎的具体实现

4.1 开发环境

4.2 数码商品网络爬虫和信息抽取功能实现

4.3 数码商品信息索引功能实现

4.3.1 元数据预处理具体实现

4.3.2 文本分词具体实现

4.3.3 信息索引具体实现

4.4 数码商品信息查询页面设计功能实现

4.5 小结

第5章系统功能评测

5.1 评测环境

5.2 功能评测

5.2.1 网络爬虫和信息抽取功能测试与分析

5.2.2 信息索引功能测试与分析

5.2.3 信息搜索功能测试与分析

结论

致谢

参考文献

攻读硕士学位期间参与的项目

（5）按需索取的中文Web Fonts技术研究（论文提纲范文）

0 引言

1 英文Web Fonts技术

1.1 CSS3中的@font-face属性

1.2 sIFR

1.3 Typeface.js

1.4 Cufon

1.5 Google Font API

2 浏览器的兼容性测试和方案比较

2.1浏览器的兼容性测试

2.2几种方案的比较

3 中文Web Fonts存在的问题及解决方案

3.1 通过@font-face按需索取字体

3.2 通过Canvas绘制字体

4 实验及分析

4.1 实验环境

4.2 实验结果及分析

5 结语

（6）特定网站新闻检索系统的设计与实现（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 主要研究工作和内容

1.4 论文组织结构

第二章相关理论知识

2.1 搜索引擎的介绍

2.1.1 搜索引擎的分类

2.1.2 搜索引擎的工作原理

2.2 信息采集的基本原理

2.2.1 传统信息采集系统

2.2.2 RSS 信息源

2.3 网页的预处理

2.3.1 Web 信息提取

2.3.2 中文分词

2.3.3 全文索引

2.4 搜索结果排序算法

2.4.1 基于网页内容的排序算法

2.4.2 基于网页链接分析的排序算法

2.5 本章总结

第三章新闻搜索系统的总体设计

3.1 系统的设计目标

3.2 系统的体系结构

3.3 系统的模块组成

3.3.1 数据采集层

3.3.2 业务逻辑层

3.3.3 展示层

3.4 系统的工作流程

3.5 新闻搜索排序算法

3.6 系统数据库的设计

3.7 本章总结

第四章系统的详细设计与实现

4.1 数据采集层

4.1.1 RSS 文件的采集

4.1.2 RSS 文件的解析

4.1.3 网页的下载

4.1.4 网页正文的提取

4.1.5 正文分词

4.1.6 倒排索引表的建立

4.2 业务逻辑层

4.2.1 用户注册

4.2.2 用户登录

4.2.3 用户个性化设置

4.2.4 新闻排序

4.2.5 新闻推荐

4.2.6 用户搜索记录

4.2.7 新闻搜索

4.3 展示层

4.3.1 用户注册界面

4.3.2 用户登录界面

4.3.3 用户个性化设置界面

4.3.4 新闻推荐界面

4.3.5 用户搜索记录界面

4.3.6 新闻搜索界面

4.4 本章总结

第五章系统测试及分析

5.1 系统测试环境

5.2 新闻采集的统计

5.3 新闻正文提取的测试

5.4 Web 服务功能测试

5.4.1 新闻搜索功能

5.4.2 用户注册、登录

5.4.3 用户个性化设置

5.4.4 新闻推荐功能

5.4.5 用户搜索记录功能

5.5 本章总结

总结与展望

参考文献

攻读硕士学位期间取得的研究成果

致谢

附件

（7）基于Android的数码产品垂直搜索引擎研究与实现（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 课题研究背景及意义

1.2 国内外研究现状

1.2.1 Android系统在国内的发展

1.2.2 垂直搜索引擎国内外研究现状

1.3 搜索引擎概述

1.3.1 搜索引擎的概念

1.3.2 搜索引擎的发展历程

1.3.3 搜索引擎的体系结构

1.3.4 搜索引擎的关键技术

1.3.5 搜索引擎的评价指标

1.4 垂直搜索引擎

1.4.1 垂直搜索引擎的概念

1.4.2 垂直搜索引擎系统的核心功能模块

1.5 移动搜索引擎

1.6 论文的主要研究工作与组织结构

1.6.1 论文的主要研究工作

1.6.2 论文的组织结构

第二章相关理论与技术研究

2.1 垂直搜索引擎的主题搜索策略

2.1.1 基于内容评价的搜索策略

2.1.2 基于链接结构评价的搜索策略

2.1.3 基于综合价值评价的搜索策略

2.2 主题相关度判断

2.2.1 向量空间模型

2.3 Android平台研究

2.3.1 Android系统构架

2.3.2 Android组件

2.3.3 多线程

2.4 Android数据存取方式概述

2.5 Android网络通信技术

2.6 Android下XML文件的解析技术

2.7 Heritrix框架及Lucene搜索引擎

2.7.1 Heritrix框架

2.7.2 Lucene全文搜索框架

第三章 Android移动垂直搜索引擎系统模块设计

3.1 系统概述

3.2 系统的业务分析

3.3 数码产品主题词库的设计

3.4 主题相关度判定算法的设计

3.5 软件功能划分

3.5.1 Android客户端功能模块设计

3.5.2 服务器端功能模块设计

3.6 客户端与服务器端的数据交互

第四章 Android移动垂直搜索引擎系统的实现

4.1 开发平台和运行环境

4.2 基于Android的数码产品垂直搜索引擎系统的实现

4.3 服务器端垂直搜索引擎系统实现

4.3.1 主题网络爬虫模块的实现

4.3.2 网页内容解析模块

4.3.3 信息存储和索引模块

4.3.4 检索模块

4.3.5 用户接口模块

4.4 Android客户端程序的实现

4.4.1 软件整体运行流程

4.4.2 Android客户端的界面设计与实现

4.4.3 关键字搜索模块

4.4.4 搜索结果列表展现模块

4.4.5 产品详细信息查看模块

4.5 客户端与服务器端数据交互的设计与实现

4.5.1 定制开发API调用接口

4.5.2 客户端与服务器端数据交互的实现

第五章实验结果及数据分析

5.1 实验结果

5.1.1 测试环境

5.1.2 对Android移动终端的功能测试

5.1.3 对服务器端进行功能测试

5.2 数据分析

第六章总结与展望

6.1 总结

6.2 展望

致谢

参考文献

附录A 攻读硕士学位期间发表的论文

（8）隐藏型垃圾网页检测技术的研究与实现（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景和意义

1.2 研究目标和研究内容

1.3 论文的结构安排

1.4 本章小结

第2章隐藏型垃圾网页欺诈的检测技术

2.1 隐藏型垃圾网页欺诈的技术

2.1.1 内容隐藏

2.1.2 伪装

2.1.3 重定向垃圾网页欺诈

2.1.4 重定向垃圾的现象和机理

2.2 隐藏型Web Spam检测研究现状

2.2.1 伪装检测研究现状

2.2.2 重定向检测研究现状

2.3 系统技术基础

2.3.1 DOM

2.3.2 Xpath

2.3.3 HtmlUnit

2.3.4 Rhino

2.3.5 MyBatis

2.4 本章小结

第3章重定向欺诈检测系统的设计

3.1 面向搜索结果的重定向欺诈检测系统需求

3.2 系统数据对象

3.3 面向搜索结果的重定向欺诈检测系统框架

3.3.1 搜索结果页面解析及信息提取

3.3.2 搜索结果信息指向页面(SRRP)抓取

3.4 系统工作流程

3.5 系统的数据库设计

3.6 重定向Spam检测算法设计

3.6.1 原理分析

3.6.2 具体设计

3.7 本章小结

第4章重定向欺诈检测系统的实现

4.1 搜索结果页面信息提取

4.1.1 抓取SERP

4.1.2 信息定位

4.1.3 信息提取

4.2 相关页面的获取

4.3 重定向欺诈的检测

4.3.1 重定向欺诈检测算法

4.3.2 重定向欺诈检测流程

4.4 文件管理

4.5 本章小结

第5章重定向欺诈检测系统实验与测试

5.1 系统的核心数据集

5.1.1 关键词库

5.1.2 基于关键词的搜索方案

5.1.3 搜索结果标注

5.2 评测指标

5.3 实验结果及分析

5.3.1 混淆矩阵分析

5.3.2 伪装页面类型分析

5.3.3 关键词分析

5.3.4 重定向类型分析

5.3.5 垃圾站点分析

5.4 本章小结

第6章总结与展望

6.1 总结

6.2 展望

致谢

参考文献

攻读硕士学位期间发表的论文

（9）基于Solr的分布式实时全文检索系统的设计与实现（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.2 论文的主要内容及组织结构

1.2.1 论文研究内容

1.2.2 论文结构

第二章分布式与全文检索系统简介

2.1 分布式系统简介

2.2 全文检索系统的含义

2.3 Lucene简介

2.3.1 Lucene核心包

2.3.2 Lucene索引结构

2.4 全文检索系统的结构

2.5 全文检索系统的核心技术

2.5.1 索引技术

2.5.2 检索技术

2.5.3 压缩技术

2.6 检索结果质量的评价

2.7 分布式全文检索系统简介

2.8 本章小结

第三章分布式Solr分析研究

3.1 Solr简介

3.2 Solr的系统架构与特点

3.2.1 Solr的架构

3.2.2 Solr的特点

3.3 Solr服务的搭建

3.3.1 准备工作

3.3.2 Solr安装

3.3.3 中文分词组件选择

3.3.4 Solr中文分词组件添加

3.3.5 Solr其他配置

3.4 Solrj客户端编程简介

3.5 Solr分布式应用研究

3.6 本章小结

第四章分布式实时全文检索系统设计

4.1 系统需求分析

4.2 系统开发环境与设计目标

4.3 系统总体设计

4.4 系统详细设计

4.4.1 数据库设计

4.4.2 搜索服务器分布式集群设计

4.4.3 分布式创建索引设计

4.4.4 分布式检索设计

4.5 分布式全文检索系统模型设计

4.6 本章小结

第五章分布式实时全文检索系统实现与性能测试

5.1 分布式实时全文检索系统实现

5.1.1 数据库访问实现

5.1.2 分布式创建索引实现

5.1.3 分布式检索实现

5.1.4 用户模块实现

5.2 系统运行截图

5.3 索引性能测试

5.3.1 索引吞吐量测试

5.3.2 多用户并发操作测试

5.4 搜索时延测试

5.5 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

致谢

（10）基于Lucene的垂直搜索引擎的研究与实现（论文提纲范文）

摘要

Abstract

第1章引言

1.1 研究背景

1.2 研究现状

1.3 研究内容

第2章垂直搜索引擎的关键技术

2.1 垂直搜索引擎概述

2.1.1 垂直搜索引擎简介

2.1.2 垂直搜索的特点

2.1.3 垂直搜索引擎框架

2.2 Heritrix网络爬虫简介

2.2.1 Heritrix的工作流程及其构架

2.2.2 Heritrix主要组件包含的类

2.3 Lucene全文搜索框架

2.3.1 Lucene的索引

2.3.1.1 Lucene的索引记录

2.3.1.2 Lucene的索引工具

2.3.2 Lucene的搜索方式

第3章中文分词算法

3.1 中文分词技术概述

3.1.1 中文分词代表

3.1.2 中文分词系统的评价标准

3.2 中文分词算法的分类

3.2.1 基于字符串匹配的分词方法

3.2.2 基于理解的分词方法

3.2.3 基于统计的分词方法

3.3 中文分词技术面临的问题

3.3.1 歧义识别

3.3.2 未登录词的识别

3.4 中文分词算法

3.4.1 算法设计所针对的问题

3.4.2 分词词典的设计

3.4.3 统计策略的设计

3.4.4 语料库的获取

3.4.5 分词算法

3.5 实验结果分析

3.5.1 综合性能测试一

3.5.2 综合性能测试二

3.5.3 分全率和分词效率实验

3.5.4 歧义词和未登录词处理能力测试

第4章手机信息垂直搜索引擎系统分析

4.1 系统功能模块分析

4.2 系统功能模块概述

4.2.1 网页抓取模块

4.2.2 网页预处理和索引模块

4.2.2.1 网页净化与消重

4.2.2.2 PageRank算法

4.2.3 用户检索模块

4.2.4 后台管理模块

第5章垂直搜索引擎的系统设计与实现

5.1 网页抓取模块设计

5.1.1 网页抓取流程

5.1.2 网页抓取逻辑

5.2 网页信息解析模块设计

5.3 词库的建立

5.4 数据库与索引结构

5.4.1 Product类

5.4.2 数据库结构

5.4.3 数据库处理类

5.4.4 索引结构

5.4.5 索引处理类

5.4.6 综合处理类

5.5 用户检索模块设计

5.5.1 信息检索的实现

5.5.2 检索结果的排序

5.5.3 搜索引擎后台

5.5.4 Bean类的设计

5.5.5 Web页面设计与实现

5.5.6 手机垂直搜索引擎系统性能评价

结论

致谢

参考文献

攻读学位期间取得学术成果

四、怎样用JavaScript实现“中文搜索引擎大全”（论文参考文献）

[1]价值重构：数字时代广告公司商业模式创新研究[D]. 李斐飞. 武汉大学, 2017(06)
[2]面向视频网站的自感知通用爬虫系统的设计与实现[D]. 黄国锴. 北京邮电大学, 2016(05)
[3]基于本体的维吾尔语语义搜索引擎的研究与实现[D]. 沙吾提江·亚森. 电子科技大学, 2015(03)
[4]面向数码商品垂直搜索引擎原型系统的设计与实现[D]. 杨静娴. 西南交通大学, 2014(09)
[5]按需索取的中文Web Fonts技术研究[J]. 郭名芳,林予松,王宗敏. 计算机应用与软件, 2013(06)
[6]特定网站新闻检索系统的设计与实现[D]. 林乐. 华南理工大学, 2013(S2)
[7]基于Android的数码产品垂直搜索引擎研究与实现[D]. 黄希欣. 昆明理工大学, 2013(02)
[8]隐藏型垃圾网页检测技术的研究与实现[D]. 周政. 西南交通大学, 2012(04)
[9]基于Solr的分布式实时全文检索系统的设计与实现[D]. 王腾飞. 云南大学, 2012(10)
[10]基于Lucene的垂直搜索引擎的研究与实现[D]. 朱敏. 成都理工大学, 2012(02)

标签：市场营销论文; 商业模式创新论文; 垂直搜索论文; 搜索引擎技术论文; 数字技术论文;

如何使用JavaScript实现《中国搜索引擎百科全书》

一、怎样用JavaScript实现“中文搜索引擎大全”（论文文献综述）

二、怎样用JavaScript实现“中文搜索引擎大全”（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、怎样用JavaScript实现“中文搜索引擎大全”（论文提纲范文）

（1）价值重构：数字时代广告公司商业模式创新研究（论文提纲范文）

（2）面向视频网站的自感知通用爬虫系统的设计与实现（论文提纲范文）

（3）基于本体的维吾尔语语义搜索引擎的研究与实现（论文提纲范文）

（4）面向数码商品垂直搜索引擎原型系统的设计与实现（论文提纲范文）

（5）按需索取的中文Web Fonts技术研究（论文提纲范文）

（6）特定网站新闻检索系统的设计与实现（论文提纲范文）

（7）基于Android的数码产品垂直搜索引擎研究与实现（论文提纲范文）

（8）隐藏型垃圾网页检测技术的研究与实现（论文提纲范文）

（9）基于Solr的分布式实时全文检索系统的设计与实现（论文提纲范文）

（10）基于Lucene的垂直搜索引擎的研究与实现（论文提纲范文）

四、怎样用JavaScript实现“中文搜索引擎大全”（论文参考文献）

猜你喜欢