计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc

上传人:仙人指路1688 文档编号:2396347 上传时间:2023-02-17 格式:DOC 页数:3 大小:17.50KB
返回 下载 相关 举报
计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc_第1页
第1页 / 共3页
计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc_第2页
第2页 / 共3页
计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc》由会员分享,可在线阅读,更多相关《计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc(3页珍藏版)》请在三一办公上搜索。

1、浅谈基于WEB计算机文本挖掘技术的客户知识管理 一、引言 本毕业论文由毕业论文网搜集与整理。随着知识经济的发展,企业基于信息的竞争优势正在向基于知识创造的竞争优势发展,知识作为一种稀缺资源成为经济发展的核心要素。企业的知识资产不仅可以增加企业的市场竞争力,不断充实企业知识资本,累积企业实力,还能更好的支持企业管理。因此,知识管理作为企业管理的新模式悄然兴起,实施知识管理成为企业的重要战略。 在客户关系管理中,传统的方法是采用客户服务模式处理客户的信息和知识,其核心是建立基于售后服务的客户知识采集、反馈体系。本文以客户知识采集需求为基础,以WEB文本中的客户知识为采集目标,以WEB文本挖 掘的相

2、关方法与技术为手段,创建了基于WEB文本挖掘客户知识采集方法,具有很广的研究和应用价值。 二、基于WEB文本挖掘的客户知识管理方法 (一)知识管理的概念。世界知识管理之父Sveiby博士1986年在世界上首次提出知识管理这个名词。知识管理的概念可从狭义和广义的角度理解:狭义的知识管理主要是针对知识本身的管理,包括对知识的创造、获取、加工、存储、传播和应用的管理;广义的知识管理不仅包括对知识进行管理,而且包括与知识有关的资源和无形资产的管理,涉及知识组织、知识设施、知识资产、知识活动、知识人员的全方位和全过程的管理。 (二)客户知识管理理论。1997年美国学者韦兰与科尔首次完整提出了客户知识管理

3、(简称CKM)。CKM是一种管理策略,它使得企业组织、工作流程、技术支持和客户服务以客户为中心来协调和统一与客户的交互行动,从而达到获取、发展、保留价值客户,挖掘潜在客户,提升客户满意度和忠诚度,最终使客户长期价值最大化,为企业增加盈利。作为解决方案,CKM集合了当今最新的信息技术,包括Internet和电子商务、多媒体技术、数据仓库和数据挖掘、专家系统和人工智能、呼叫中心以及相应的硬件环境。 (三)基于WEB挖掘的知识采集。知识采集作为一个外来词,又名知识获取、知识抽取。本文采用知识采集,主要是为了进一步突出在这个过程中对知识的收集和分类。知识采集也有自己的生命周期。从早期的直接从原始资料(

4、人类专家和书面材料)中采集知识,到中期的从知识素材中提炼规律性知识,再到后期的通过实践检验和修正知识,经历过无数次周而复始的循环。客户知识采集过程体系应包括三项基本功能:(1)数据或信息采集功能;(2)信息到知识的转化功能;(3)知识分类功能。 企业关注客户服务,采集经销商和最终消费者对产品提出的各类问题及意见,这些信息和知识很大一部分存在于分布在全国各地经销商的网站中,知识采集者不可能一一登录网站查看。因此,需要设计面向WEB页面的知识采集方法,实现自动获取。 (四)WEB文本挖掘方法。在WEB文本挖掘中,文本的特征表示挖掘工作的基础,而文本分类和聚类是两种最重要、最基本的挖掘方法。 矢量空

5、间模型(VSM)是近年来应用较多且效果较好的方法之一。在该模型中,文档空间被看作是由一组正交词条矢量所形成的矢量空间,每个文档d表示其中的一个范化特征矢量: V(d)=(t1,w1(d);ti,wi(d);tn,w(d) 其中ti为词条项,wi(d)为ti在d中的权值。可以将d中出现的所有单词作为ti,也可以要求ti是d中出现的所有短语,从而提高内容特征表示的准确性。 wi(d)一般被定义为ti在d中出现频率tfi (d)的函数,即: wi(d )=(tfi(d)(1) 式中常用的有: 布尔函数=1,tf(d)1 0,tf(d)=0 平方根函数= 对象函数=log(tfi(d)1) TFIDF

6、函数=tfi(d)logN/ni 其中,N为所有文档的数目,ni为含有词条ti的文档数目。 文本分类是一种典型的有教师机器学习问题,一般分为训练和分类两个阶段,具体过程如下。 1、训练阶段:定义类别集合C=c1,ci,cn,这些类别可以是层次式的或并列式的;给出文档集合S=s1,sj,sn,每个训练文档sj,标上类别标识cj;统计S中所有文档的特征矢量V(sj),确定代表C中每个类别的特征矢量V(cj)。 2、分类阶段:对于测试文档集合T=d1,dk,dt中的每个待分类文档dk,计算其特征矢量V(dk)与每个V(ci)之间的相似度sim(dk,ci);选取相似度最大的一个类别argmaxcis

7、im(dk,ci)作为dk的类别。只要dk与这些类别之间的相似度超过某个预定的阈值,就可以为dk指定多个类别。如果dk与所有类别 的相似度均低于闽值,那么通常将该文档放在一边,由用户来做最终决定。在计算sim(dk,ci)时,最简单的方法是仅考虑两个特征矢量中所包含的词条的重叠程度,即: sim(dk,ci)=n(dk,ci)/n(dk,ci)(2) 其中,n(dk,ci)是V(dk)和V(ci)具有的相同词条数目,n(dk,ci)是V(dk)和V(ci)具有的所有词条数目。最常用的方法是考虑两个特征矢量之间的夹角正弦: sim(dk,ci)=V(dk)-V(ci)/V(dk)V(ci)(3)

8、 文本聚类是一种典型的无教师机器学习问题。对于给定的文档集合D=d1,dk,dn,层次凝聚法的具体过程如下:(1)将D中的每个文档试看作是一个具有单个成员的簇ck=dk,这些簇构成了D的一个聚类c=c1,ci,cn;(2)计算C中每对簇(ci,cj)之间的相似度sim(ci,cj);(3)选取具有最大相似度的簇对arg maxsim(ci,cj)sim(ci,cj),并将ci、cj合并为一个新的簇c=cicj,从而构成了D的一个新的聚类c=c1,ci,cn-1;(4)重复上述步骤,直至C中剩下一个簇为止。 三、基于WEB文本挖掘的客户知识采集 (一)文本知识采集。WEB文本知识采集是个复杂的多

9、阶段过程,涉及WEB文本挖掘、知识发现、问题采集等多个方面。学习阶段根据用户的适当参与产生抽取信息的规则。首先确定需要抽取信息的同类WEB页面集,从中选定样本页面,并根据实际的需求和样本页面的具体情况定义模式信息,同时对样本页面进行适当的标记得到样本记录放入知识库中;然后利用这些规则,对同类主题的相似页面进行自动信息抽取,将抽取的记录放入信息库中。 (二)获取WEB页面路径的正则表达式。正则表达式最早是由数学家斯蒂芬克琳于1956年提出,他是在对自然语言的递增研究成果的基础上提出来的。从那时起,正则表达式经过几个时期的发展,现在的标准已经被国际标准组织(ISO)批准和被Open Group组织

10、认定。它并非一门专用语言,但可用于在一个文件或字符里查找和替代文本的一种标准。目前具有两种标准:基本的正则表达式和扩展的正则表达式。 本文中使用的正则表达式包括转义字符、限定符和原子零宽度符。使用一系列的特殊字符构建匹配模式。然后,把匹配模式与目标文本、程序输入以及WEB页面的表单输入等目标对象进行比较,根据比较对象中是否包含匹配模式,执行相应的程序。 所谓样本文档分析,就是把文档输入HTML分析器,按照文档对象模型生成一种树型表示。文档对象模型提供了一个标准的对象集合用以表示HTML或XML文档及其各组成部分之间的关系,并为存取和处理这些对象提供标准编程接口。 (三)客户知识采集模块功能。客

11、户知识采集模块是系统的核心,主要实现的功能包括:将广大特约销售服务店网站上的客户问题和答案采集到本地,存储到XML格式的文件中。对外:通过制成WEB服务,提供给其他网站调用,方便特约销售服务店和分销商使用;对内:经过分析,获得各类知识,以支持决策。 四、结束语 客户知识管理的实现是一项复杂的系统工程,需要科学合理地、全面地获取采集信息,同时需要做大量的研究和实践。知识采集是知识管理的重要组成部分,国外已有应用,但在国内这方面的研究还比较少。本文将文本挖掘、知识采集用于客户知识管理,为进一步实现分布式知识资源的动态配置与管理打下了的基础,以更好地支持客户知识管理的实施。本文在这方面只做了初步的探索,还有待于进一步深入研究。 (作者单位:北京理工大学管理与经济学院) 主要参考文献: 丁蔚,倪波.知识管理系统与企业电子商务.图书情报知识,2001.3.7. 相国鹏,汪良军.知识视角企业核心竞争力.外国经济管理,2001.3.8.本毕业论文由毕业论文网搜集与整理

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号