计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc

资源描述

《计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc》由会员分享，可在线阅读，更多相关《计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc（3页珍藏版）》请在三一办公上搜索。

1、浅谈基于WEB计算机文本挖掘技术的客户知识管理一、引言本毕业论文由毕业论文网搜集与整理。随着知识经济的发展，企业基于信息的竞争优势正在向基于知识创造的竞争优势发展，知识作为一种稀缺资源成为经济发展的核心要素。企业的知识资产不仅可以增加企业的市场竞争力，不断充实企业知识资本，累积企业实力，还能更好的支持企业管理。因此，知识管理作为企业管理的新模式悄然兴起，实施知识管理成为企业的重要战略。在客户关系管理中，传统的方法是采用客户服务模式处理客户的信息和知识，其核心是建立基于售后服务的客户知识采集、反馈体系。本文以客户知识采集需求为基础，以WEB文本中的客户知识为采集目标，以WEB文本挖掘的相

2、关方法与技术为手段，创建了基于WEB文本挖掘客户知识采集方法，具有很广的研究和应用价值。二、基于WEB文本挖掘的客户知识管理方法（一）知识管理的概念。世界知识管理之父Sveiby博士1986年在世界上首次提出知识管理这个名词。知识管理的概念可从狭义和广义的角度理解：狭义的知识管理主要是针对知识本身的管理，包括对知识的创造、获取、加工、存储、传播和应用的管理；广义的知识管理不仅包括对知识进行管理，而且包括与知识有关的资源和无形资产的管理，涉及知识组织、知识设施、知识资产、知识活动、知识人员的全方位和全过程的管理。（二）客户知识管理理论。1997年美国学者韦兰与科尔首次完整提出了客户知识管理

3、（简称CKM）。CKM是一种管理策略，它使得企业组织、工作流程、技术支持和客户服务以客户为中心来协调和统一与客户的交互行动，从而达到获取、发展、保留价值客户，挖掘潜在客户，提升客户满意度和忠诚度，最终使客户长期价值最大化，为企业增加盈利。作为解决方案，CKM集合了当今最新的信息技术，包括Internet和电子商务、多媒体技术、数据仓库和数据挖掘、专家系统和人工智能、呼叫中心以及相应的硬件环境。（三）基于WEB挖掘的知识采集。知识采集作为一个外来词，又名知识获取、知识抽取。本文采用知识采集，主要是为了进一步突出在这个过程中对知识的收集和分类。知识采集也有自己的生命周期。从早期的直接从原始资料（

4、人类专家和书面材料）中采集知识，到中期的从知识素材中提炼规律性知识，再到后期的通过实践检验和修正知识，经历过无数次周而复始的循环。客户知识采集过程体系应包括三项基本功能：（1）数据或信息采集功能；（2）信息到知识的转化功能；（3）知识分类功能。企业关注客户服务，采集经销商和最终消费者对产品提出的各类问题及意见，这些信息和知识很大一部分存在于分布在全国各地经销商的网站中，知识采集者不可能一一登录网站查看。因此，需要设计面向WEB页面的知识采集方法，实现自动获取。（四）WEB文本挖掘方法。在WEB文本挖掘中，文本的特征表示挖掘工作的基础，而文本分类和聚类是两种最重要、最基本的挖掘方法。矢量空

5、间模型（VSM）是近年来应用较多且效果较好的方法之一。在该模型中，文档空间被看作是由一组正交词条矢量所形成的矢量空间，每个文档d表示其中的一个范化特征矢量： V（d）=（t1，w1（d）；ti，wi（d）；tn，w（d）其中ti为词条项，wi（d）为ti在d中的权值。可以将d中出现的所有单词作为ti，也可以要求ti是d中出现的所有短语，从而提高内容特征表示的准确性。 wi（d）一般被定义为ti在d中出现频率tfi （d）的函数，即： wi（d ）=（tfi（d）（1）式中常用的有：布尔函数=1，tf（d）1 0，tf（d）=0 平方根函数= 对象函数=log（tfi（d）1） TFIDF

6、函数=tfi（d）logN/ni 其中，N为所有文档的数目，ni为含有词条ti的文档数目。文本分类是一种典型的有教师机器学习问题，一般分为训练和分类两个阶段，具体过程如下。 1、训练阶段：定义类别集合C=c1，ci，cn，这些类别可以是层次式的或并列式的；给出文档集合S=s1，sj，sn，每个训练文档sj，标上类别标识cj；统计S中所有文档的特征矢量V（sj），确定代表C中每个类别的特征矢量V（cj）。 2、分类阶段：对于测试文档集合T=d1，dk，dt中的每个待分类文档dk，计算其特征矢量V（dk）与每个V（ci）之间的相似度sim（dk，ci）；选取相似度最大的一个类别argmaxcis

7、im（dk，ci）作为dk的类别。只要dk与这些类别之间的相似度超过某个预定的阈值，就可以为dk指定多个类别。如果dk与所有类别的相似度均低于闽值，那么通常将该文档放在一边，由用户来做最终决定。在计算sim（dk，ci）时，最简单的方法是仅考虑两个特征矢量中所包含的词条的重叠程度，即： sim（dk，ci）=n（dk，ci）/n（dk，ci）（2）其中，n（dk，ci）是V（dk）和V（ci）具有的相同词条数目，n（dk，ci）是V（dk）和V（ci）具有的所有词条数目。最常用的方法是考虑两个特征矢量之间的夹角正弦： sim（dk，ci）=V（dk）-V（ci）/V（dk）V（ci）（3）

8、文本聚类是一种典型的无教师机器学习问题。对于给定的文档集合D=d1，dk，dn，层次凝聚法的具体过程如下：（1）将D中的每个文档试看作是一个具有单个成员的簇ck=dk，这些簇构成了D的一个聚类c=c1，ci，cn；（2）计算C中每对簇（ci，cj）之间的相似度sim（ci，cj）；（3）选取具有最大相似度的簇对arg maxsim（ci，cj）sim（ci，cj），并将ci、cj合并为一个新的簇c=cicj，从而构成了D的一个新的聚类c=c1，ci，cn-1；（4）重复上述步骤，直至C中剩下一个簇为止。三、基于WEB文本挖掘的客户知识采集（一）文本知识采集。WEB文本知识采集是个复杂的多

9、阶段过程，涉及WEB文本挖掘、知识发现、问题采集等多个方面。学习阶段根据用户的适当参与产生抽取信息的规则。首先确定需要抽取信息的同类WEB页面集，从中选定样本页面，并根据实际的需求和样本页面的具体情况定义模式信息，同时对样本页面进行适当的标记得到样本记录放入知识库中；然后利用这些规则，对同类主题的相似页面进行自动信息抽取，将抽取的记录放入信息库中。（二）获取WEB页面路径的正则表达式。正则表达式最早是由数学家斯蒂芬克琳于1956年提出，他是在对自然语言的递增研究成果的基础上提出来的。从那时起，正则表达式经过几个时期的发展，现在的标准已经被国际标准组织（ISO）批准和被Open Group组织

10、认定。它并非一门专用语言，但可用于在一个文件或字符里查找和替代文本的一种标准。目前具有两种标准：基本的正则表达式和扩展的正则表达式。本文中使用的正则表达式包括转义字符、限定符和原子零宽度符。使用一系列的特殊字符构建匹配模式。然后，把匹配模式与目标文本、程序输入以及WEB页面的表单输入等目标对象进行比较，根据比较对象中是否包含匹配模式，执行相应的程序。所谓样本文档分析，就是把文档输入HTML分析器，按照文档对象模型生成一种树型表示。文档对象模型提供了一个标准的对象集合用以表示HTML或XML文档及其各组成部分之间的关系，并为存取和处理这些对象提供标准编程接口。（三）客户知识采集模块功能。客

11、户知识采集模块是系统的核心，主要实现的功能包括：将广大特约销售服务店网站上的客户问题和答案采集到本地，存储到XML格式的文件中。对外：通过制成WEB服务，提供给其他网站调用，方便特约销售服务店和分销商使用；对内：经过分析，获得各类知识，以支持决策。四、结束语客户知识管理的实现是一项复杂的系统工程，需要科学合理地、全面地获取采集信息，同时需要做大量的研究和实践。知识采集是知识管理的重要组成部分，国外已有应用，但在国内这方面的研究还比较少。本文将文本挖掘、知识采集用于客户知识管理，为进一步实现分布式知识资源的动态配置与管理打下了的基础，以更好地支持客户知识管理的实施。本文在这方面只做了初步的探索，还有待于进一步深入研究。（作者单位：北京理工大学管理与经济学院）主要参考文献：丁蔚，倪波.知识管理系统与企业电子商务.图书情报知识，2001.3.7. 相国鹏，汪良军.知识视角企业核心竞争力.外国经济管理，2001.3.8.本毕业论文由毕业论文网搜集与整理

展开阅读全文