《[毕业设计精品]分词技术在电子商务信息查询中的应用.doc》由会员分享,可在线阅读,更多相关《[毕业设计精品]分词技术在电子商务信息查询中的应用.doc(28页珍藏版)》请在三一办公上搜索。
1、分词技术在电子商务信息查询中的应用摘 要通过近几年的发展,电子商务已经离我们不再遥远。电子商务上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果由人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,如果是查询中分词信息多,那么结果就会令人不满意。通过引入分词技术,就可以使机器对海量信息的整理更准确更合理,那么“制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。 所以中文分词的应用会改善
2、我们的生活,使人们真正体会到科技为我所用。本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,此外,讨论了中文分词算法,结合电子商务行业的特点对分词算法进行描述,和阐述了电子商务查询中分词技术的应用并进行了分析。关键词:搜索引擎 中文分词 电子商务Segmentation information in e-commerce application a queryAbstractThrough years of development, electronic commerce is no longer far away fro
3、m us. Information on e-commerce is also rapidly expanding, in this mass of information, the kinds of information mixed together, in order to take advantage of these information resources is necessary to organize them, if the person do the job, has not possible, and if the face of Chinese word segmen
4、tation information is not used, then the order of the results to be too rough, which led to resources not available, check if it is carved the word information and more, then the result will be unsatisfactory. Through the introduction of word segmentation, we can make the collation of the machine on
5、 the mass of information more accurate and reasonable, then, are two different manufacturing and service industries in the Kimono will not be treated as a word processing, then search kimono Of course it will not be retrieved, making search results more accurate and efficie will be greatly enhanced.
6、 Therefore, the application of Chinese word segmentation to improve our lives, so people really understand science and technology for our use. In this paper, the concept of e-commerce search engine, through the analysis of general search engine technology, combined with e-commerce industry, the dema
7、nd for search engine part to the need for improvement, in addition, discussed the Chinese word segmentation algorithm and the characteristics of e-commerce segmentation algorithm is described, and elaborated carved the word of e-commerce echnology application query and analyzed.Keywords: search engi
8、ne Chinese word e-commerce目录前言6第章电子商务综述81.1电子商务的定义81.2电子商务的产生的背景91.3电子商务发展现状9第章探究分词技术122.1 分词技术简述122.1.1 基于字符串匹配的分词方法122.1.2基于统计的分词方法132.1.3基于理解的分词方法132.2分词技术及错误流程142.2.1 歧义识别和新词识别142.2.2分词技术错误提示流程152.3分词技术的最新发展17第章探究搜索引擎183.1 搜索引擎183.1.1 搜索引擎的理解183.1.2 我国搜索引擎的背景183.1.3搜索引擎的现状193.2 搜索引擎的实现原理203.2.1
9、从互联网上抓取网页203.2.2建立索引数据库213.2.3在索引数据库中搜索213.2.4对搜索结果进行处理排序213.3 电子商务搜索引擎的形式23第章分词技术案例分析244.1 百度分词技术分析244.1.1 最大分词词长244.1.2分词算法254.2 分析语句“红色摇滚很搞笑”26结论27参考文献28致谢29前言随着互联网的迅速发展,电子商务让消费方式变得更为快捷,更多的人涌向网上商店,网络市场前景巨大,拥有更为广阔的发展空间。面对海量的网络信息资源,人们可以通过传统的搜索引擎,如Google、百度、中搜等,方便快捷地获取所需商业信息。尽管通用搜索引擎的功能非常强大,但是对于检索某一
10、特定行业的信息时,通用型搜索引擎对信息的挖掘深度不够。查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想。自动分词是中文信息处理的一项重要的基础性工作,以中文作为信息的载体的语言文字信息处理已经成为我国信息化建设的“瓶颈”。许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是按句连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题。词的正确切分是进行中文文本处理的必要条件。在电子商务需求的强大动力推动下,自动分词已经成为中文信息处理的一
11、个前沿课题。中文分词技术的优劣直接关系到搜索引擎的效率,本文就是深入研究在电子商务查询中分词技术的应用来提高搜索查询的速度,首先在本文的第一章大体概述了电子商务的定义、电子商务的背景、以及电子商务的发展前景。在第二章中阐述了在电子商务查询中应用广泛的分词技术,在这一章本文首先阐述了分词技术的概念,然后介绍了分词技术的分类,在最后两章中介绍了搜索引擎的概念和用一些具体例子介绍了分词技术的具体应用。面对海量的网络信息资源,人们可以通过传统的搜索引擎,如Google、百度、中搜等,方便快捷地获取所需商业信息。尽管通用搜索引擎的功能非常强大,但是对于检索某一特定行业的信息时,通用型搜索引擎对信息的挖掘
12、神队不够。查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想,因此,建立面向特定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。第章 电子商务综述1.1 电子商务的定义电子商务(Electronic Commerce)的定义:以电子及电子技术为手段,以商务为核心,把原来传统的销售、购物渠道移到互联网上来,打破国家与地区有形无形的壁垒,使生产企业达到全球化,网络化,无形化,个性化、一体化。通俗的讲电子商务是指利用简单、快捷、低成本的电子通信方式,买卖双方不谋面地进行的各种商业和贸易活动。电子商务是运用数字信息技术,对
13、企业的各项活动进行持续优化的过程。电子商务涵盖的范围很广,一般可分为企业对企业(Business-to-Business),或企业对消费者(Business-to-Consumer)两种。另外还有消费者对消费者(Consumer-to-Consumer)这种大步增长的模式。随着国内Internet使用人数的增加,利用Internet进行网络购物并以银行卡付款的消费方式已渐流行,市场份额也在迅速增长,电子商务网站也层出不穷。电子商务最常见之安全机制有SSL(安全套接层协议)及SET(安全电子交易协议)两种。电子商务是一个不断发展的概念,电子商务的先驱IBM公司于1996年提出了 Electron
14、ic Commerce(E-Commerce)的概念,到了1997年,该公司又提出了Electronic Business(E-Business)的概念。但我国在引进这些概念的时候都翻译成电子商务,很多人对这两者的概念产生了混淆。事实上这两个概念及内容是有区别的,E-Commerce应翻译成电子商业,有人将E-Commerce称为狭义的电子商务。将E-Business称为广义的电子商务。E-Commerce是指实现整个贸易过程中各阶段贸易活动的电子化。E-Business是利用网络实现所有商务活动业务流程的电子化。E-Commerce集中于电子交易,强调企业与外部的交易与合作,而E-Busin
15、ess则把涵盖范围扩大了很多。广义上指使用各种电子工具从事商务或活动。狭义上指利用Internet从事商务或活动。1.2 电子商务的产生的背景中国电子商务在20世纪90年代开始出现,这个时候电子商务只是一种概念,根源在于中国互联网的接入以及世界一些知名企业的影响!在这一阶段中国出现了一些比较典型的电子商务企业,如8848,易趣等!随着人们对电子商务的逐渐认识,在新的一世纪里产生了若干电子商务企业,涉及的范围从B2B向B2C以及C2C等多方面发展!随着网络产业向纵深层次的不断发展,更多的人参与到网络产业中,往往是利益的驱使使得人们行为过于盲目,从03年开始中国互联网进入低潮,一部分人放弃互联网,
16、一部分企业不得不采取一定的收索策略甚至转变业务!这些使得他们不得不从新定位和思考如何发展新一代的电子商务!那么可以说现阶段中国电子商务真正得到发展的第一步应当从这个时候开始!从大的范围上讲,人们对电子商务的认识更加深刻!十年前,人们对电子商务十分陌生,而现在几乎很少人不知道电子商务的!中国出现的一些极具代表性的电子商务企业的影响,一个行业的发展往往是这个行业的巨头所引起的技术的突破,物流的发展,人才的兴起改变了以前电子商务发展的一些瓶颈!一些中国大的电子商务平台改变了中国商务环境!相关互联网产业的兴起也带动了电子商务的发展,如典型的搜索业务、视频业务、SNS、IM等兴起。1.3 电子商务发展现
17、状近年来,在全球经济保持平稳增长和互联网宽带技术迅速普及的背景下,世界主要国家和地区的电子商务市场保持了高速增长态势。以美国为首的发达国家,仍然是世界电子商务的主力军;而中国等发展中国家电子商务异军突起,正成为国际电子商务市场的重要力量。2008年,中国电子商务市场前期延续了2007年电子商务持续高速增值的势头,后期则受全球金融危机和发展瓶颈影响,交易额增长放缓。但总体来说,中国电子商务市场的发展仍在稳步前行。2008年中国电子商务市场交易额达到24000亿元,同比增值达到41.2%,其中B2B市场仍是总交易额的构成主体,C2C基本维持现状,B2C将提速发展。2010年中国电子商务市场除在扩大
18、资金来源、支撑体系建设方面有所成就外,不可避免的需要面临全球金融危机所带来的影响,但随着中国电子商务与行业发展结合的更广、更深,充分利用电子商务B2C手段已经成为中国行业企业在度过经济寒冬中的重要选择。因此,2008年投资机构对中国电子商务市场的关注度不降反升,其中B2C行业无论在投资案例数量还是在投资金额上都呈快速增值趋势。2010年政府加强了在电子商务领域的引导性投资,用以改善中国电子商务市场的投资环境,政府通过将投资收益返还社会投资人支持社会投资回购政府所持股份等政策,将大量资金引入电子商务的发展。随着国内Internet使用人数的增加,利用Internet进行网络购物并以银行卡付款的消
19、费方式已渐流行,市场份额也在快速增长,电子商务逐渐成为业界热议的一个焦点话题,相关的电子商务网站也层出不穷。2011年中国电子商务市场可谓机遇和挑战并存,而政府和企业的通力合作是抓住机遇并赢得挑战的基础。在此基础上,中国电子商务市场才有可能逐步向发达国家电子商务水平接近。眼看网络购物市场不断扩大,一些搜索网站瞄准了B2C市场。同时,越来越多的传统经销商也开始切入B2C电子商务领域拓展其在线零售业务。苏宁、国美、迪信通等全国性连锁以及广州的广州百货等也都开辟了自己的B2C网站,越来越多的B2C厂商已做好进入垂直细分市场的准备。对新渠道的需求催生了B2C市场在被C2C市场超越之后,开始了新一轮的急
20、速上升。B2C是面对金融危机却依然能蓬勃发展的国内少数行业之一,不过即使没有2008年的这场波及全球的金融危机,电子商务B2C行业在2010年仍然会卯足劲儿大踏步前进,金融危机的影响只是更加加速了中国B2C行业的发展。未来几年,C2C增速将趋缓,而B2C市场规模增速将赶超C2C。预计,B2C市场规模从2011年开始快速增长,市场份额将逐步上升,有望成为电子商务行业新的增长点。预计未来三年中国B2C市场复合增长率可达到41%,以后中国电子商务B2C市场交易额有望达到千亿元。我国互联网电子商务交易规模图1.1第章 探究分词技术2.1 分词技术简述语言本身也是在不停的进化和发展的,新的词语层出不穷,
21、一些老的词语渐渐被弃用。作为中文分词的基础-词库,其新词补充和老词删除就是非常重要的工作。“超级女声”、“超女”、“李宇春”、“八荣八耻”、“非典”,当这些新词的出现时,搜索引擎需要快速捕捉到,并且马上把其添加到分词系统中去。如何判断那些词是新词,这就全部倚靠算法来实现。新词捕捉主要来源于新闻和网络BBS论坛,主要机制是依靠统计程序,统计上升速度最高的词。另外作为搜索引擎公司,对众多用户的搜索词进行“用户行为”分析,也能提高其“新词补充”效果。2.1.1 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找
22、到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的词数最小)。2.1.2 基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现
23、的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串
24、匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。2.1.3 基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于
25、理解的分词系统还处在试验阶段。图2.12.2分词技术及错误流程2.2.1 歧义识别和新词识别歧义识别是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错。“化妆和服装”可以分成“化妆 和 服装”或者“化妆和服装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿
26、开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。新词专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎
27、去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词? 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。2.2.2分词技术错误提示流程目前在自然语言处理技术中,中
28、文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分
29、词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。下图是错误提示流程:图2.22.3分词技术的最新发展无长度限制,并且在歧义内容方面将出现歧义的各种可能性都包含进去,作为分词的参考。例如:感冒、感冒解痛散、感冒解痛颗粒、感冒解痛灵茶等都能匹配。图2.3第章 探究搜索引擎3.1 搜索引擎3.1.1 搜索引擎的理解搜索引擎(SearchEngine)通过运行一个软件,该软件在网络上通过各种链接,自动获得大量站点页面的信息,并按照一定规则进行归类整理,从而形成数据库,以备查询。这样的站点(获得信息整理建立数据库提供查询)我们就称之
30、为“搜索引擎”。3.1.2 我国搜索引擎的背景百度上市后,我国的搜索市场一下子热了起来。越来越多的企业围绕着搜索市场作起了文章。而且,在搜索大战的同时,一些企业也抛出了一些惊人言论。近日,记者从专业做人脉交际的联络家()技术总监冉征处了解到,联络家正在加紧研发人脉相关领域的专业垂直,联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象Google、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。 那么缘何能得出如此结论呢?CNNIC第十四次
31、互联网调查显示,搜索以71.9的绝对优势成为用户从互联网上获得信息的主要方式。几乎在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,在海量的网页里找信息按照传统方式需要用户非常麻烦的寻找,要耗费大量的精力和时间,几乎是不可能实现的任务。3.1.3 搜索引擎的现状随着互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越
32、来越难迅速的找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容,而垂直搜索引擎针对专业特定的领域或行业的内容做了专业和深入的分析挖掘,精细分类,过滤筛选等,信息定位更精准,因此在此垂直领域或行业提供的搜索服务势必更好更强,更为用户所欢迎。比如,对于一个网民来说如果有对特定的领域或行业的信息需求的时候,如果一个是专业的垂直搜索能做到精确锁定内容,但内容量偏小,而另一个是能检索出大量内容,但搜索到的内容一大部分都是“垃圾”并且很难找到符合的信息,这样的话,你会选择哪个呢,就如用户想购买一个商品,他是会去专门的比价购物搜索引擎上找还是会去 Google上找,如果你想找
33、一份工作,是会去专门的工作搜索引擎上找还是会去百度上找?答案很明显,更多的用户会舍弃后者,即使前者品牌小名声小,但结果往往是最令网民看重的。联络家LINKIST一直做人脉交际圈的拓展,也就是现在炙手可热的 SNS网站,SNS网站的目的就是要建立一个庞大的人脉圈,参与其中的人都能通过站内人脉的搜索引擎找到自己想找的人,可以找工作、搜罗人才、寻找合作商机。联络家LINKIST短短几个月的时间已经聚敛起了近7万多位高级商务人士。有了一定的用户基础做铺垫,联络家LINKIST目前大力开发人脉专业领域的垂直搜索引擎,如工作搜索引擎的人脉搜索引擎,而这比以往的“贴简历、翻招聘信息”的机械作法要灵活的多。而
34、且,能做出这样的预测显然并不是空穴来风。据记者了解,现在搜索市场大量的的垂直专业搜索引擎的诞生如雨后春笋般, 如比价购物搜索引擎,工作搜索引擎,博客搜索引擎等等,占了百度几乎一半以上的流量的MP3搜索,其实也可以说是专业的搜索MP3的垂直搜索引擎,许多垂直门户也纷纷推出了自己的搜索引擎系统。那么,像Google、百度能会不会通过“补课”挤掉这部分专用搜索市场呢?冉先生对记者表示,Google、百度注定了走的是大而全的粗犷路线,而专用的垂直搜索引擎则不同,需要对做内容的深度挖掘,做精细的分类,构建专业领域的知识库体系等等,而这些都是Google、百度等无法做到的,他们根本就没有精力做这些,也不可
35、能针对每个行业领域都能做透,“术业有专攻”就是这个道理。就象门户网站与专业垂直的行业性网站可以共存一样,网民也有不同的胃口,有的仅仅是简单模糊的信息就已经满足了,而一些寻找精确内容的网民则更青睐于专业引擎,比如你打算换一份工作,以前去人才招聘网站贴简历往往都尿杳无音信,现在,就可以去联络家LINKIST试试,还能跟同行的朋友交换下最新的行业信息,探讨下行业发展趋势。而且,以后联络家 LINKIST推出人脉引擎后,只需轻轻点击便能收获颇丰。有专家预测,未来,专业的垂直搜索将掀起一轮热潮,而且,垂直搜索引擎不会是一个简单的文本框、一个按纽就走遍天下了,更需要专业的信息辅助和配套的增值内容的支持,也
36、就是对相关内容的二次“加工”。而这恰恰是Google、百度类所不能提供的。相信,届时很多VC的眼球会聚焦于此,而Google、百度又将面临怎样的挑战呢?我们只能拭目以待了 。3.2 搜索引擎的实现原理3.2.1 从互联网上抓取网页利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。3.2.2 建立索引数据库由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复
37、杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。3.2.3 在索引数据库中搜索当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。3.2.4 对搜索结果进行处理排序所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。下图是一个典型的搜索引擎系统架构图,搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述:图3.1
38、“网络蜘蛛”从互联网上抓取网页,把网页送入“网页数据库”,从网页中“提取URL”,把URL送入“URL数据库”,“蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有的网页抓取完成。系统从“网页数据库”中得到文本信息,送入“文本索引”模块建立索引,形成“索引数据库”。同时进行“链接信息提取”,把链接信息(包括锚文本、链接本身等信息)送入“链接数据库”,为“网页评级”提供依据。“用户”通过提交查询请求给“查询服务器”,服务器在“索引数据库”中进行相关网页的查找,同时“网页评级”把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过“查询服务器”按照相关度进行排序,并
39、提取关键词的内容摘要,组织最后的页面返回给“用户”。3.3 电子商务搜索引擎的形式目前电子商务搜索引擎主要有以下两种实现形式:以生意经、商务搜、金泉网、企搜为代表的独立搜索引擎,该类搜索网站的页面与通用搜索引擎网站的页面形式几乎完全一致,区别在于内容主要是针对商业用户使用者。独立搜索引擎的优势在于访问者和投放广告者在参与上更为自由,可以获得更多的信息和受众。但同时这也是其缺陷所在,由于开放度过高,将不可避免的出现诚信问题。以阿里巴巴、淘宝网、慧聪网为代表, 表现形式为电子商务网站站内搜索。这类搜索引擎由于以网站的会员制为基础,有资质认证体系为保障,因此诚信问题出现的概率较小。但站内搜索的缺点在
40、于开放性不够,搜索和推广只局限在会员之间。第章 分词技术案例分析看一下中国三大搜索引擎的分词技术。我们的三大搜索引擎都在他们的快照里把查询语句拆分,然后用不同颜色的高亮来显示,大家可以一目了然地看到他们的分词方法。搜狗、有道这些非主流的搜索引擎都没有这种功能。腾讯搜搜采用的是谷歌的内核,快照可以直接看到,但是却没有分词高亮显示。谷歌已经去掉了“快照”功能,只有上Google去,并且需要使用代理服务器或者用一点小技巧才能看到。4.1 百度分词技术分析4.1.1 最大分词词长对于大于等于4个汉字的词将被分词。如下图:图4.14.1.2 分词算法查询:“工地方向导”正向最大匹配: 工地/方向/导;反
41、向最大匹配: 工/地方/向导。百度采用正向最大匹配算法:图4.24.2 分析语句“红色摇滚很搞笑”从拆词的情况来看,谷歌竟然并没有把“摇滚”看作是一个词!它是不是在搞笑?这就意味着,当你的谷歌里搜索“摇滚”的时候,谷歌把这句话也当成候选的结果“斗牛士摇来摇去,公牛说:本牛不操无名之辈,滚!”图4.3雅虎比谷歌更懂中文!图4.4最后一个,就是业界一直盛传的百度的分词技术了,把“红色摇滚”整个儿好地看成一个词,赞。它连“很搞笑”都看成是一个整体!结论本文在借鉴传统搜索引擎的相关技术并结合电子商务自身的特点基础上,构建出了一个电子商务行业搜索引擎的原型系统,并对其中涉及到得若干关键性问题进行了研究和
42、探讨,并提出了解决方案,可以应用于需要对网络信息进行深层次加工、处理的相关应用中。本系统的涉及与实现也可以加以改进,如加入文本分类模块、关键字识别模块,进而用来开发情报采集系统,帮助企业及时掌握市场动态,随时了解竞争对手的信息,准确把握行业发展趋势和国家最新政策,从而在市场竞争中获胜。当然本搜索引擎还是很初步的,在获取信息的全面性和准确性等方面还可以改进,另外,应能在人工智能和数据挖掘领域深入研究,使该搜索引擎的搜索性能更优。参考文献【1】杨佩璐.未来电子商务的发展趋势与产业化应用前景分析。【2】史海燕,王勃侠,王少非.搜索引擎在电子商务中的应用分析。【3】陈苏毅.搜索引擎在电子商务中的运用.
43、商场现代化【4】张春霞,郝永天 汉语自动分词的研究现状及困难。【5】李家福,张亚非 基于EM算法的汉语自动分词方法J 情报学报,2002,21(3),【6】 谭琼,史忠植 分词中的歧义处理J计算机工程与应用,2002,38(11),P125-127【7】孙茂松等 利用汉字二元语法关系解决汉语自动分词中的交集型歧义J 计算机研究与发展,1997,34(5),P332-339.【8】吕雅娟,赵铁军,杨沐昀,于浩,李生 基于分解与动态规划策略的汉语未登录词识别J 中文信息学报,2000,15(1),P28-33致谢在论文完成之际,我要特别感谢我的指导老师?的热情关怀和悉心指导。在我撰写论文的过程中,?老师倾注了大量的心血和汗水,无论是在论文的选题、构思和资料的收集方面,还是在论文的研究方法以及成文定稿方面,我都得到了?老师悉心细致的教诲和无私的帮助,特别是他广博的学识、深厚的学术素养、严谨的治学精神和一丝不苟的工作作风使我终生受益,在此表示真诚地感谢和深深的谢意。在论文的写作过程中,也得到了许多同学的宝贵建议,在此一并致以诚挚的谢意。感谢所有关心、支持、帮助过我的良师益友。最后,向在百忙中抽出时间对本文进行评审并提出宝贵意见的各位老师表示衷心地感谢!