毕业设计(论文)探索社会和谐共存与设计和科技的体现.doc

上传人:文库蛋蛋多 文档编号:4027630 上传时间:2023-04-01 格式:DOC 页数:23 大小:271KB
返回 下载 相关 举报
毕业设计(论文)探索社会和谐共存与设计和科技的体现.doc_第1页
第1页 / 共23页
毕业设计(论文)探索社会和谐共存与设计和科技的体现.doc_第2页
第2页 / 共23页
毕业设计(论文)探索社会和谐共存与设计和科技的体现.doc_第3页
第3页 / 共23页
毕业设计(论文)探索社会和谐共存与设计和科技的体现.doc_第4页
第4页 / 共23页
毕业设计(论文)探索社会和谐共存与设计和科技的体现.doc_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《毕业设计(论文)探索社会和谐共存与设计和科技的体现.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)探索社会和谐共存与设计和科技的体现.doc(23页珍藏版)》请在三一办公上搜索。

1、学号:20091307 年级:2009春忻州职业技术学院毕业论文专题:探索社会和谐共存与 设计和科技的体现院(系)名 称:忻州职院应用美术系专 业 名 称 :艺术设计学习形式:理论与实践并存学 生 姓 名 :宿斐 二一二年六月目 录摘要.41 绪论1.1 引言 . .51.2 本文研究的内容 .51.3 研究的创新点 .61.4 本文篇章结构 .62 国内外研究现状 .62.1 TREC 企业专家检索子任务 . . . .72.2 现有专家检索系统介绍 . . .82.2.1 MITRE Expert Finder . . . .9 2.2.2 People Finder . . .102.2

2、.3 IBM Small Blue . .102.3 专家检索其他相关研究 . .103 组织专家检索系统的分析与设计 .113.1系统总体思路 .123.2 系统体系结构 .123.2.1 Spider模块 .133.2.2 Indexer 模块 . 153.2.3 Searcher 模块 .153.2.4 Assistant 模块 .153.3 专家检索系统的难点及对策 .163.3.1 网页数据噪音剔除163.3.2 专家姓名重叠问题163.3.3 专家社会网络分析164 知识型员工的自我发展4.1知识型员工的重要性174.2知识型员工的特点184.3知识型员工的管理对策194.4知识员

3、工的激励政策205 参考文献与致谢215.1 参考文献215.2 致谢22摘 要 Internet 的快速发展和互联网相关技术的不断成熟,使得企业(组织)相关资源纷纷上网,TREC(文本检索国际会议)也因此提出了企业检索任务,主要目标是帮助用户实现在对企业相关数据进行检索的基础上完成特定任务。企业检索的内容既可以是组织外部的数字资源也可以是组织内部的数字资源,这些数字资源通常以异构的形式存在,如邮件、数据库记录、文档、共享文件等。 组织(企业)专家检索是企业检索的很重要的分支,也是当前垂直信息检索研究的热门领域。本文总结了目前国内外组织专家检索的研究现状,分析了构建组织专家检索系统的需求和挑战

4、,并以此为基础,利用组织内外部的网页和期刊论文数据库等信息,设计了从数据资源采集、规整、索引、检索到可视化等整个 过程的组织专家检索系统模型及以武汉大学为例的专家检索系统平台WHU-ES。该系统通过动态定义组织内外表征专家信息的资源列表,设定资源动态更新周期,可实现资源的动态采集、专家专长的智能识别、专家共现聚类关系图的动态生成和分析、专家个人档案信息自动抽取(包括专家肖像提取、专家简介自动识别等)等功能。此外,本文也分析了构建专家检索系统存在的网页正文抽取、专家姓名重叠、社会网络关系分析等难点,提出了可能的解决方案,最后对WHU-ES专家检索系统做了初步评价。1.1 引言 组织的竞争优势源于

5、其自身知识的集合及学习能力 。根据Delphi Group的调查,组织中最大部分(42%)的知识是存在于员工头脑中的隐性知识 。这使得越来越多的组织意识到对自身知识,尤其是员工头脑中的隐性知识进行有效管理的必要性。然而识别这些知识并加以直接利用却非易事。 随着Internet的发展,企业、科研教学机构等纷纷构建起自己的网站,使得员工的专长信息及员工头脑中的隐性知识可以通过组织的相关网页(如组织官方网页、相关项目网页、员工主页等)、内部交流和共享的邮件记录等一系列相关文档逐渐间接显化。因此如何从这些文档中识别出员工的专长进而辅助发现特定专长的专家,促进组织内外部人员的协作、为项目或团队挑选合适的

6、人选、选择项目评审专家、快速发现和寻找合作者等就成为一个现实需要解决的研究课题。在国际上,该研究属于组织专家检索研究的范畴。与人工智能领域的专家系统不同,本文所谓组织专家的检索(Expert Search 或 Expertise Retrieval),是指利用组织内外能够表征专家专长的各种文档和资源,识别专家在某给定查询主题(领域)的专长(相关性)程度,并按程度高低排序显示专家结果列表等的过程。早期组织内专家检索的方法主要是通过建立描述组织内人员专长信息的数据库 ,然而该方法不仅耗费人力财力,而且由于专家的技能和知识存在着分布性、难以量化、难以分级、不断变化的特点 ,使得专家的描述信息具有很强

7、的动态性和模糊性,从而导致数据库方法明显缺乏灵活性。1.2 本文研究的内容 为了满足日益增加的专家检索需求、了解拥有特定专长专家之间的关联、解决专家专长信息的动态变化问题,本文借鉴TREC(文本检索国际会议)组织专家检索的基本方法,构建了一个通用的组织专家检索系统框架模型。该框架模型可以定义组织内外表征专家信息的资源列表,设定资源动态更新周期,实现信息的动态采集,并结合组织内部专家列表,智能识别组织专家专长。在专家检索的过程中,实现了特定查询主题下专家列表的排序、专家共现聚类关系图的动态生成和分析、专家档案信息(主要包括专家性别、专家所在学院、专家职称、专家个人简介、专家肖像图片等,下同)的自

8、动抽取等功能。基于此框架模型结构,本文以武汉大学为例构建了武汉大学专家检索系统(WHU-ES),重点研究了不同专家数据的采集、专家得分模型的构建、专家档案信息抽取、专家社会网络关系的生成和分析等,并研究了构建专家检索系统存在的网页正文抽取、专家姓名重叠、社会网络关系分析等难点,提出了可能的解决方案,最后对WHU-ES专家检索系统做了初步评价。1.3 研究的创新点 组织专家检索系统的构建过程涉及到数据集的采集、规整、索引、专家专长的检索以及结果的可视化等整个过程,现有的国内外研究(见章节2)尚未考到数据集的构建策略和不同数据集对专家检索结果的影响,TREC实验检索系统预定义了使用的数据集,其余实

9、际应用系统的数据集也只是整合了组织内部数集,尚未考虑到组织外部数据集和不同数据集之间的整合和比较,本文将对其做初步研究。 此外,为了便于用户准确把握专家相关信息和专家之间的的关联,组家检索系统需要快速生成专家的档案信息(包括专家职称、性别、学院、个人简介、专家照片等)和专家之间聚类的社会网络关联图并加以分析。针对专家档案生成过程,本文提出了基于共现的专家院系职称等信息抽取方法、基于规则的专家个人简介等信息的抽取方法及基于PicExtractor(见3.2.3.3)的专家肖像提取方法;针对专家共现社会网络,本文实现了专家聚类关系图的动态生成,专家社会网络分析(包括社会网络密度分析,点度中心性、中

10、间中心性、接近中心性分析,最短路径分析等),并支持用户交互调整关系图呈现效果,寻找关系图中任意专家之间的最短路径,便于用户直观的了解专家的专长和专家之间的关联程度。目前国内外尚未对此做深入研究的论文和系统,本文也将做初步的探索。1.4 本文篇章结构 本文篇章结构如下: 在下文章节二中,将介绍国内外组织专家检索的研究现状,包括TREC专家检索子任务的现状介绍、现有的专家检索系统分析以及专家检索其他相关研究等。 章节三中,将详细介绍通用组织专家检索系统框架模型的设计,包括系统设计的整体思路、功能模块的划分和各模块的详细介绍。在章节四中,将以武汉大学为例构建一个实际的组织专家检索平台WHU-ES,同

11、时也分析了系统构建中存在困难和可能的解决方案,并给出了关于专家识别效果和专家档案信息抽取的初步评价。 章节五中分析了本文研究的不足之处,并对下一步的工作和员工的发展做了简单的介绍和展望。 文章的最后是参考文献和附录。2 国内外研究现状 为了动态挖掘组织内外部的相关资源和专家专长信息,国内外展开了一系列相关研究。TREC企业检索任务中的专家检索(Expert Search)子任务在一定程度上代表了当前组织专家检索研究的进展,包括IBM 研究院、微软研究院(Microsoft Research)、澳大利亚联邦科学与工业研究组织(CSIRO)、伦敦城市大学、伊利诺伊大学、清华大学等机构也纷纷加入了专

12、家专长检索的研究队列中。考虑到专家专长检索的重要意义,SIGIR(Special Interest Group on Information Retrieval)2008 将于7月份在新加坡举行以“Future Challenges in Expertise Retrieval”5为主题的Workshop,总结专家检索已经完成的工作,并讨论未来的研究方向 当然目前也有如People Finder,MITREs Expert Finder,IBM Small Blue等在实际中使用的专家专长检索系统,下文将分别予以介绍。2.1 TREC企业专家检索子任务 6作为Web Track的后继项目,TR

13、EC 于2005年起增加了企业检索(Enterprise 7Search)任务,并设立专家检索(Enterprise Expert Search)子任务 。该任务利用企业内部的网站网页信息、共享文档、电子邮件、数据库文件以及访问日志等作为企业数据集,对于给定的查询主题,参与者构建各自的专家检索模型,并将得到排序后的相关专家列表等结果返回到TREC组办者进行测评。迄今为止,企业专家检索已经举办了三届,在专家实体识别、专家专长表征信息提取、专家排序检索模型构建等方面取得了一系列的研究成果。 TREC专家检索的核心过程主要包括专家实体识别和专家检索排序两个部分。专家实体识别作为实体识别的一种特殊情况

14、,本文尚未考虑,笔者在具体实现时采用手工方式构建组织内的候选专家列表;关于专家检索排序,目前主要有两种8典型方法 ,即:基于专家档案的方法和基于相关文档集归并排序的方法。前者利用组织内的各种信息资源,如网页、报告、邮件信息等,根据专家特征信息(主要是利用专家的姓名和电子邮件)在其中出现的情况,自动构建针对每个专家的个人描述(Profile),然后将这些专家的描述作为文档,利用常用的检索技术对这些个人描述进行索引,进而实现对专家的检索,如图2.1所示 ,Wei Lu等 利用该方法采用窗口技术参加了TREC企业专家检索2006年的年度活动,取得了较好的一步利用专家在文档中的特征信息对文档集合与得分

15、进行归并,最终得到专家相。9 对于查询主题的得分并排序,如图2.2示 ,Wei Lu等 采用该方法利用文档过滤模型参加了TREC企业专家检索2007年的年度活动,取得了良好的效果。关于这两种方法的具体实现思路,可参见企业专家检索实现的比较研究一文 。总体说来,这两种方法各有特点,各有优劣,目前到底该采用何种方法尚无权威的结论。2.2 现有专家检索系统介绍 除了TREC会议参与者所采用的实验系统外,目前也出现了一些实际中获得应用的专家检索系统,典型的如MITRE公司构建的MITREs Expert Finder系统、CSIRO(澳大利亚联邦科学与工业研究组织)构建的People Finder系统

16、等。 图2.2 基于文档归并的专家检索流程2.2.1 MITRE Expert Finder4MITREs Expert Finder 系统的建立主要是为方便用户快速查找所需要的专家。该系统预收集了组织中表征员工基本信息的所有数据,包括员工之间的交流文档、员工的简历、网站网页及其它组织内部相关文档,并与组织员工简历相关信息的数据库加以整合,构建组织专家检索数据集。对于给定的查询主题,通过与该员工紧密相关的关键词和短语在数据集出现的频次等特征,计算员工与该查询主题的相关度并加以排序,同时提供相关的支撑文档。经验性的评价表明该系统平均可达到40的查准率和30的查全率。2.2.2 People Fi

17、nder12 13People Finder 是CSIRO在PNOPTIC Expert 基础上构建的基于Web的组织内专家检索系统,它主要利用发布在组织内部网上的所有文档及部分组织自身的其它数据,自动识别某个领域的专家。该系统的基本形式类似于搜索引擎,所不同之处在于,针对特定查询主题,其返回的不再是相关文档,而是一系列与该主题相关的经过排序后的专家列表,并辅助提供专家的详细联系方式和相关的支撑文档。该系统的效果受包含项目描述信息、企业员工简历及内部交流文档等信息的组织数据集的影响。2.2.3 IBM Small Blue 在寻找组织(或企业)中员工在特定领域的专长知识、解决员工之间的高效信息

18、交流等问题的过程中,员工头脑的隐性知识和员工之间隐性的社会网络关联往往至关重要。IBM公司在充分认识到这些内容的基础上,开发了一款商务智能软14件IBM Small Blue ,实现了人物社会网络关系发现 、专家专长发现、动态档案信息发现、人物社会关联分析等功能,它能够高效的定位拥有特定专长的专家以及寻找专家的最优路径。 除上面介绍的几个系统外,国外还出现了另外一些专家检索系统,如 TACIT Active-Net(TM)、AskMe、Recommind等。国内目前尚无采用类似机制实现的专家检索系统,值得一提的是,重庆维普资讯有限公司利用自身数据库资源(主要是期刊。15论文、学位论文以及学科分

19、类体系)的优势,构建了中国科学家门户 ,为使用者提供了按照作者姓名、作者学科以及作者单位等检索专家的功能,而鉴于学科分类体系尚不完善,该系统缺乏对具体领域或专业查询主题的灵活支持;对自然语言查询的处理方面亦存在明显的不足;再者,检索专家所采用数据集资源的单一性,往往使系统不能全面反映专家在各个层面的专长。此外,Yahoo搜索引擎也。16推出了人物搜索 的功能,它基于网页文本的计算为基础,将人和人之间的关系抽取出来,为专家系统的在网络上的应用提供了新的思路。2.3 专家检索其他相关研究 除了TREC企业检索中专家检索子任务和构建实际专家检索系统之外,相关学者和研究人员也在专家检索的需求分析、专家

20、检索系统的使用现状、专家检索的17社会网络分析、专家检索结果的可视化等领域展开了大量的研究。文献 对目前正在使用专家检索系统(主要是IBM公司开发的Small Blue系统)的75名员工检索行为进行了跟踪,系统的研究了人们使用专家检索系统的实际需求,以及外部因素(如员工职位等)对检索专家的影响,另一方面也发现企业分类目录和个人的14,18社会关系网络往往是专家检索系统的替代工具。文献 认识到员工获取信息的行为在很大程度上依赖于自己熟悉的人,而现有的专家专长检索系统并未考虑到个人社会网络的重要作用,在介绍IBM Small Blue系统(见2.2.3)的功能和使用的基础上,讨论并分析了社会网络在

21、专家检索系统中的应用,以及专家检索系统19的下一步发展的趋势。文献 认识到专家专长信息在企业中的巨大价值,试图通过可视化技术呈现专家专长信息,实现并讨论了两种目前常用的降维可视化技术MDS:多维尺度分析(Multi-Dimensional Scaling)和SOM:自组织地图Self-Organizing Map)在专家专长管理中的重要意义和潜在的应用。 总之,专家专长检索对企业员工高效获取相关信息,对管理者准确把握员工的专长等都有着十分重要的作用,在组织或企业内部的价值不言而喻,但是其相关理论知识和实践方法尚不成熟,还需要相关学者更多的关注和研究。3 组织专家检索系统的分析与设计 综观TRE

22、C专家检索实验系统及上文所述之应用系统,尽管都提供了根据特定查询主题生成经过排序的专家列表的功能,但在专家之间关联特性的挖掘上却都有欠缺。笔者认为,如能根据专家之间的共现规律,利用社会网络分析等方法可视化呈现专家之间的关联和聚类关系,并加以分析,对用户准确把握员工(专家)的专长有着重要意义。同时,专家专长信息动态变化的特性,也要求专家数据集能够动态更新,而以上各个系统对此都未予以重视,不利于组织动态把握员工的专长。再者,专家检索数据集的单一性往往无法反应专家各个层面的专长,而上述系统也未考虑采用不同类型的数据集。此外,专家职称、学院、肖像照片、个人简介等相关“档案”信息的抽取也会为用户快速寻找

23、相关专家的过程提供方便。基于此,笔者认为组织专家检索系统主要应提供以下几个方面的功能:定义表征专家专长数据集类型;动态构建及更新专家数据集;动态识别专家的专长(领域);检索针对特定查询主题的相关专家;可视化呈现专家的共现和聚类关系、专家档案信息的自动抽取、专家社会网络分析等。围绕着这些功能目标,笔者提出并构建了一个通用的组织专家检索系统框架模型,下文将就构建思路、系统体系结构和系统存在的问难点及对策做详细的介绍。3.1 系统总体思路 借鉴TREC专家检索的两种基本方法,笔者认为组织内专家检索系统构建的主要思路是:首先,通过Spider(信息采集蜘蛛程序)采集已定义的表征专家信息的组织内外部数据

24、资源,获取专家数据集,并生成专家数据集索引文件;然后,提取组织内所有专家的姓名列表,利用专家数据集索引文件,根据专家表征信息(如专家姓名、电子邮件等,本文主要采用专家姓名)在数据集文档中的出现情况,生成专家文档映射文件(Expert-Docs,该文档记录了数据集中每个专家对应出现的文档列表);针对特定查询主题,用户检索专家时将首先返回该主题相关文档,然后对于每位专家根据其在相关文档和Expert-Docs中的共现情况, 过滤产生每个专家针对该主题的相关文档,然后归并各文档得分作为专家得分(目前的归并方法是简单的线性相加),最后根据专家得分的高低排序显示,该检索过程的基本思路可用下面算法(JAV

25、A风格)实现,如图3.1所示。 对于每篇文档相关性得分的计算采用的是向量空间模型(VSM),如公式(3.1)所示,其采用的是开源软件Lucene的评分机制,详见3.2 系统体系结构 根据上文所述,本文所构建之专家检索系统主要包括下面四个模块,即Spider模块、Indexer模块、Assistant模块以及Searcher模块,各模块间关系请参见系统整体框架图(图3.2)。具体如下:3.2.1 Spider模块 1 Spider模块即信息采集模块,主要功能是根据系统管理者定义的表征组织专家专长的不同信息资源构建相应的采集策略,并设定资源采集周期,定期采集和更新专家数据集。笔者认为可以参考使用的

26、专家数据集主要有组织内部表征专家专长的网页和文档库(下称专家网页数据集)、利用专家名称和单位构建查询主题从搜索引擎获取的表征专家的信息库(专家搜索引擎数据集)、相关学术数据库中表征专家专长信息数字资源(专家学术数据集)等。不同信息资源需要的采集方法和采集过程也不尽相同,需要为不同数据集构建不同的采集策略。2 专家网页数据集的构建 专家网页数据集的构建是通过网络蜘蛛程序按照特定的策略对互联网进行遍历和采集得到的。一般来说,网络蜘蛛有两种遍历策略,即广度优先遍历和深度优先遍历。广度优先遍历指网络蜘蛛先抓取初始链接集合中的所有网页,然后选择其中的一个链接,继续抓取在此网页链接集合的所有网页,通过不断

27、重复这个过程实现网页的遍历。深度优先遍历是指网络蜘蛛从初始链接集合中的一个链接开始,不断跟踪链接,处理完这条链接线路之后转入下一个初始链接,继续跟踪21,22链接。关于两种策略的区别,可参考文献 中广度优先搜索和深度优先搜索的介绍。由于网络蜘蛛在访问网页的同时,又需要查找下一步要访问的链接,导致链接数量增长很快。而这些链接信息必须加以存储,并判断是否已经访问,这涉及到管理、维护和存储链接队列的问题。对于较小的站点,通过限定链接的域名范围,可以在计算机内存(RAM)中存储队列,而对于大型的Web站点或者全网搜索,必须使用其它更有效的方法来存储链接队列,如使用支持SQL操作的DBMS数据库管理系统

28、等。本实验采用基于内存的队列存储模式。网络蜘蛛在抓取网页信息时,经常会遇到加密数据和网页权限的问题,如有些网页需要会员权限才能访问,有些网页需要分析其HTML代码,通过其中的META23标识,确定网页是否需要被抓取,是否需要被继续跟踪等,详细信息可参见文献 。对于网页访问权限、权衡特定网站的访问频率和访问策略,本实验并未加以考虑。3 专家搜索引擎数据集的构建 搜索引擎拥有强大的蜘蛛程序,能够对不同数据格式网络信息资源加以采集、整合、索引和检索,检索的结果往往能够全面的放映专家各个层面的专长信息。下面介绍以Google为例的专家搜索引擎数据集构建过程。Google服务器对发送请求源和请求频率均加

29、以限定,直接在程序中通过URLConnection(Java)访问Google检索结果页面,返回的结果为空。因此实验中的程序需要模拟浏览器的方式发送HTTP请求,浏览器发送HTTP请求时,包含一些HTTP头信息,程序需要模拟浏览器发送请求的头信息。在程序中(Java)这些头信息可以通过URLConnection的setRequestProperty进行设置。同普通的网页数据采集策略不同,搜索引擎的数据存在于其索引数据库中,用户需要通过其提供的Web接口提交查询主题,动态返回检索结果并呈现给户,因此搜索引擎数据集的构建需要解决查询主题的动态生成和检索结果页面信息的动态抽取等问题。查询主题的构建需

30、要根据特定的系统需求定制,组织专家检索系统中搜索引擎数据集的构建是利用专家的特征信息(通常可利用专家名、专机构等)为不同专家构建特定查询主题,继而调用Google检索接口,并模拟览器读取搜索引擎检索结果页面,提取其中系统关心的数据,生成特定格式的数据文件的过程。4.专家学术数据集的构建专家学术数据集是指在某一个或某几个学术数据库(例如万方数据库,CNKI学术数据库SCI数据库等)中存储的表征专家专长的学术数据信息,主要是期刊论文、会议论文等。同专家搜索引擎数据集类似,专家学术数据集也面临着询主题的动态构建和检索结果页面的解析和相关信息抽取的问题。 学术数据库的访问往往会通过特定的帐户密码或IP

31、地址加以权限限定,通常还会为每位用户动态分配唯一的SessionId(会话Id),程序实现中需要保持24会话不变,本实验采用了Apache的开源项目HttpClient 完成模拟浏览器请求,保持会话连接的功能。此外,鉴于不同学术数据库的检索接口和数据组织形式不尽相同,而目前尚没有通用的数据采集方案,因此需要对系统所定义的每个学术数据库的检索过程加以分析,构建并实现针对于特定学术数据库的采集接口。3.2.2 Indexer模块 该模块为数据集处理和索引模块,其主要功能是对Spider模块采集到的数据进行处理,处理的过程分成两个步骤:数据集文本预处理和索引。不同的专家数据集有着各自数据组织形式,专

32、家网页数据集中包含了大量的导航、修饰等噪音的HTML标签信息,而专家学术数据信息却是格式十分规范元据信息。因此需要对不同数据集进行解析、剔除其中噪音信息,这些均属于信息抽取的范畴。专家搜索引擎数据集和专家学术数据集数据格式相对规范,可以仅做简单的处理,专家网页数据集可采用基于文本密度的网页正文抽取方法(见4.2.1)抽取网页中的正文信息。3.2.3 Searcher模块 该模块是用户接口模块,需要考虑不同层面的用户需求,除了需要提供特定检索式(如 AND OR NOT等布尔检索式)支持功能外,完整的专家系统往往需要实现以下功能模块。针对用户特定的查询请求,专家检索系统将利用传统信息检索的模型和

33、方法得到排序的检索结果,并使用Assistant模块生成的专家文档映射文件和专家列表文件对相关文档加以分析,生成针对该主题的专家得分,继而依据得分高对专家排序,并将结果呈现给用户。3.2.4 Assistant模块 即辅助文档构建模块,该模块的主要功能是构建和维护系统运行所必须的一系列辅助文档,主要包括组织数据源列表文件(该文件是Spider模块采集数资源的依据)、专家列表文件(含专家姓名和机构名称,主要为从搜索引擎和学数据库中检索数据资源构建检索表达式等)、主题词列表文件(为动态智能识别呈现专家专长领域提供主题词)、院系设置列表文件(为专家档案信息中的学院息自动生成提供关键词)、专家职称列表

34、文件(为专家档案信息中的职称信息自生成提供关键词)、专家文档映射文件(见3.1)、专家肖像映射文件(该文件录例如专家名和对应的图片文件,是PicExtractor模型抽取结果)等。3.3 专家检索系统的难点及对策3.3.1 网页数据噪音剔除 专家网页数据集中的网页数据是并由不规范的HTML语言构成的,其中存在大量的噪音信息,对信息检索和专家排序会产生很大的影响。常用的网页信息抽取方案往往是利用DOM树结构对网页的结构和特征信息加以分析,通常的做法是抽取其中的标签、标签下的网页内容获得网页的正文信息 ,Shipeng Yu 等人也提出了基于视觉特征的网页分块算法(VIsion-based Pag

35、e Segmentation:36VIPS)。本文采用的是另外一种较为简单的基于文本密度的网页正文抽取方法 ,通过统计网页HTML源代码中每行文本剔除标签的长度与该行文本总长度的比例(这里称为密度),输出密度较大的文本行,该方法对专家网页数据集的噪音剔除效果在一定程度上已经满足了本文专家检索系统的需求。3.3.2 专家姓名重叠问题 专家姓名重叠问题可以分成两类,一类是专家姓名文字之间的包含关系,如“张三多”和“张三”,包含前者的文档必然也会包含后者,这会导致专家得计算过程中的误差,另一类是就是专家姓名消解的问题。 对于第一类问题,本文采用了如下简单的解决方案,在标准的专家列表文档生成过程中,对

36、存在被包含关系的专家加上被包含标志(可以将标志设置为姓名中包含该专家名的专家位置),用户检索特定主题,返回的专家得分后,存在被包含标志位的专家得分应该是该专家的现有得分剔除标志位中标志的所有专家得分后的得分。第二类问题,也通常被称为人名消解、人名消歧(Personal Name Disambiguation、Personal Name Discrimination、Personal Name Resolution37等),据相关报道,全国有近30万人叫张伟 ,美国统计局的数据表明美国有38100,000,000人中共使用的不同的姓名只有9,0000个 ,专家姓名相同是一种十分39普遍的现象,这

37、也引起了相关研究人员的兴趣。文献 将姓名消解的问题分解为两个层面,Multi-Referent 模糊性,是指多人姓名相同的问题, Multi-Morphic 模糊性,指的是同一个人的姓名书写格式不同导致的人名歧义问题。 目前大部分的工作集中在对Multi-Referent模糊性的解决上,主要的思路是利用不同的聚类40方法对文档或从文档中抽取的人名相关的特征信息进行聚类分析 ,分布在不同子类中的相同人名可能就是两个人重名。鉴于中文人名的Multi-Morphic模糊性问题表现得并不突出,中文专家检索系统应更多的关注Multi-Referent模糊性的解决。WHU-ES中专家重名消解问题主要表现在

38、专家档案信息自动提取的过程,而对于本系统中使用的武汉大学2585个专家姓名中重名问题并不多见,因而尚未处理,实现专家姓名消解过程是系统下一步待解决的问题。3.3.3 专家社会网络分析社会网络指的是社会行动者(Social Actor)极其间的关系的集合。也可以说,一个社会网络是由多个节点(社会行动者)和节点之间的连线(行动者之间的41系)组成的集合 。社会网络分析(Social Network Analysis,SNA)就是要对社会网络中行为者之间的关系进行量化研究。经过多年的发展,社会网络分析法也形成了比较完整的理论和方法体系,可以从不同的角度对社会网络加以分析,包括图的密度分析、中心性分析

39、、凝聚子群分析等。 密度指的是一个图中各个点之间联络的紧密程度,在无向图中,以l表示实际42存在的连线数量,n表示节点的数量,那么密度 = 2l / n (n-1);结合文献 ,本文认为点度中心性反映网络中的节点与其他节点的关联程度,中间中心性是网络节点处于其他联系中间点的程度,也即其作为纽带节点的程度,接近中心性衡量的是网络节点不受他人“控制”的能力。此外,为进一步了解用户的需求,分析用户对专家检索系统的建议和评价,不断提高专家专户反馈(Feedback)模块,这里不再详述长识别的准确度,本系统还设计了简单的关于排序专家列表的用。4 知识型员工的自我发展4.1、研究知识型员工的重要性 “知识

40、型员工”这一概念最早是由世界著名管理大师彼得.德鲁克于1959年在其著作明天的里程碑中最早提出的,他将知识型员工的内涵界定为“那些掌握和运用符号和概念,利用知识或信息工作的人”。2006年4月德鲁克在其出版的21世纪的管理挑战指出,21世纪里管理需要做出的最重要的贡献是提高知识工作和知识工作者的生产率,而组织(包括企业和非营利性组织)最有价值的资产将是知识工作者及其生产率。书中指出了知识型员工的三个特点:(1)知识型员工通过正规教育而获得工作、职业和社会地位;(2)知识型员工以团队的形式工作;(3)知识型员工的工作是组织性的,只有组织才能将知识工作者的专业知识转化为工作绩效。 美国哈佛大学管理

41、学院詹姆斯教授对人力资本的能动性曾做过专题研究,结果表明:如果没有激励,一个人的能力只不过发挥2030 ,如果得到激励一个人的能力则可以发挥到8090。也就是说科学、有效的激励机制能够使员工的能力发挥提高34倍。 国外大量研究结果表明:知识型员工最注重的前四个因素依次为个体成长(34),工作自主(31),业务成就(28)和金钱财富(7) 。最注重的激励因素,分别是:报酬、工作性质、提升、与同事的关系、影响决策。 我国知识型员工的实证研究发现,激励中国企业知识型员工的前四位因素为:工资报酬与奖励(占31.88%)、个人的成长与发展(占23.91%)、有挑战性的工作(占10.15%)、公司前途(占

42、7.98%)。 随着时代的发展和研究的深入,国内学者普遍认为“知识型员工”的定义也已经有所扩展。南京大学的蒋春燕和赵曙明在他们的知识型员工流动的特点、原因与对策中指出:“彼德德鲁克提出知识型员工的概念时,他实际上所指的知识型员工是一个经理或者执行经理。现在这个术语在实际使用中已经被扩展到大多数白领或者职业工作者。”同时,在经验的基础上,国内学者也对知识型员工的特点加以补充。他们认为知识型员工的特点还包括: (1) 知识型员工从他们的工作中获得了大量的内部满足感。 (2) 知识型员工更多地忠实于自己的职业而不是企业,他们有自己的福利最大化函数,自主地选择所加入的企业。并且如果待遇不公或者未达到其

43、期望值,他们可能自谋出路。 (3) 为了和专业的发展状况保持一致,知识型工作者需要经常更新知识,他们对专业的投入意味着他们很少把工作日定义为每天工作58小时,每周工作5天。 (4) 知识型工作者一般有较高的报酬,他们希望在工作中获得更大的自由和决策权,同时也看重支持。 (5) 知识型工作者的劳动过程难以监控,劳动成果难以衡量。 (6) 知识型工作者往往蔑视权威。由于他们具有某种特殊技能,往往可以对其上级、同僚和下属产生影响。知识型员工的工作特点使得他们并不崇尚任何权威。 我国学者在数据调查的基础上,对我国知识型员工流动的现状进行了描述。总体上,我国知识型员工的流失现象表现为在不同地区和不同类型

44、企业间的流动趋势。地区流向为:贫困地区发达地区中小城市大中城市核心城市国际都会,呈现梯形分层次流动。企业流向为:国有企事业民营企业外商合资企业原本土外商独资企业新进入的外商独资企业,最终成为国际通用的人才。 根据国内外的研究结果,2010年股权激励专家张雪奎(欢迎订制张雪奎讲师股权激励课程13602758072)教授,在中小企业知识型股权激励中指出:中小企业提升企业核心竞争力的重要条件,就是要培育和创造出愿景明确、管理完善、领导有效的合作型企业文化,能提高知识型员工的活力和企业的凝聚力,使得企业既能尊重个性,又能团结协作。企业对知识型员工管理应该打破常规,采取灵活办法,对于知识型员工激励应该注意组织目标与个人目标相结合、物质激励与精神激励相结合的激励方式。知识型员工在经济发达地区和大中型企业中占

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号