文本挖掘核心技术及其应用.ppt

上传人:小飞机 文档编号:6365085 上传时间:2023-10-21 格式:PPT 页数:30 大小:2.68MB
返回 下载 相关 举报
文本挖掘核心技术及其应用.ppt_第1页
第1页 / 共30页
文本挖掘核心技术及其应用.ppt_第2页
第2页 / 共30页
文本挖掘核心技术及其应用.ppt_第3页
第3页 / 共30页
文本挖掘核心技术及其应用.ppt_第4页
第4页 / 共30页
文本挖掘核心技术及其应用.ppt_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《文本挖掘核心技术及其应用.ppt》由会员分享,可在线阅读,更多相关《文本挖掘核心技术及其应用.ppt(30页珍藏版)》请在三一办公上搜索。

1、文本挖掘核心技术及其应用,2,目录,文本挖掘步骤文本挖掘功能文本挖掘应用,3,文本挖掘步骤,文本挖掘的一般处理过程,4,文本源,原始数据,预处理,过滤虚词,合并词根,分词,特征表示,计算权值,合并特征,过滤特征,特征提取,权值调整,特征约减,文本挖掘,文本分类,文本聚类,关联分析,模式提取,分类模式,聚类模式,关联规则,结果展示,展示界面,文本挖掘步骤,5,文本挖掘主要功能及应用,文本挖掘,应用,实现功能,自动分词,文档归类,自动分类,自动聚类,信息抽取,文本相似性检索,自动摘要,舆情监控,垃圾邮件过滤,企业竞争情报系统,电子商务,客户自动问答,6,目录,文本挖掘步骤文本挖掘功能文本挖掘应用,

2、7,自动分词,8,自动分类,莫言对话杨振宁:来生学物理,当下梦飞天,时政,社会,军事,评论,文化,国际,历史,9,自动聚类,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成主题词,为用户确定类目名称提供方便。,文本1文本2文本3文本4文本5,类别1:关键词:比赛、赛季、联赛、球队、比分、太阳、NBA、球员队员、领先,类别2:关键词:旅游、黄金、游客、记者、旅行社、中国、国家、假日、北京、线路,类别3:关键词:公司、企业、招聘、面试、求职、专业、职业、学生、大学、人才,10,信息抽取,信息抽取是从文本中抽取指定的一类信息(事件、事实)并将其形成结构化的数据,填入一个数据

3、库中以供用户查询使用。,11,信息抽取,12,文本相似性检索,文本相似性检索式对一篇文档到索引库中查找与其内容重复率高的文档和相似的文档。目前应用最广的是论文查重。,13,自动摘要,对文章中的所有句子进行权值运算,对所有的句子按权值排列,提取出权值大的作为关键句,进而形成摘要。,14,目录,文本挖掘步骤文本挖掘功能文本挖掘应用,15,应用,文档自动归类,文本源,原始数据,预处理,过滤虚词,合并词根,分词,特征表示,计算权值,合并特征,过滤特征,特征提取,权值调整,特征约减,文本挖掘,文本分类,模式提取,分类模式,结果展示,展示界面,16,应用,文档自动归类,17,应用,垃圾邮件过滤,商家利用电

4、子邮件传播大量广告垃圾邮件持续攀升逐一查看邮件浪费时间,面临的问题,对垃圾邮件进行过滤对邮件进行归类邮件自动回复,关键需求,18,应用,网络舆情监控,互联网的普及,网络舆论热点层出不穷;民意表达向网络倾斜;网络舆论一旦被错误控制和引导,影响社会稳定;,面临的挑战,舆情信息的采集与提取话题发现与追踪网络舆情倾向性分析,关键需求,20,论坛,新闻,引擎,垂直页面,采集和提取,博客,应用,网络舆情监控,难点,21,热点分析,应用,网络舆情监控,所采集的网络范围内重复程度最高的话题,22,应用,网络舆情监控,网络舆情摘要,提取出几条最重要的新闻,自动生成摘要,生成简报。,23,倾向性分析,自动聚合网络

5、新闻并自动进行褒贬倾向性的分析。对文章的观点进行倾向性分析和统计,识别正负面信息。,应用,网络舆情监控,24,通过对网络信息中的犯罪信息量的分析计算来反映网民的安全感,并进行分级;,通过对政府工作相关语料的褒贬分析计算来描述公众对政府工作的满意程度,并进行分级。,网络舆情监控,应用,25,应用,企业竞争情报系统,企业情报采集效率低和实时性差信息孤岛,缺少跨部门情报资源共享情报内容存在重复性,资源没有得到有效整合,面临的问题,自动化收集商业信息对情报内容进行统一管理根据情报内容,确定潜在威胁,及时预警,并制定相应策略,关键需求,26,应用,企业竞争情报系统,伊利作为中国乳业巨头之一,面临多方竞争

6、,必须密切关注对手动态,其最大的竞争对手是蒙牛,因此,蒙牛公司的动态对伊利公司有很大的影响。采集2010年6月至11月蒙牛官网的信息,对其进行分析。,激增词频警报,递增词频警报,27,发现共线词关系:君乐宝低温;华北;蒙牛奶源,奶源君乐宝,警情:蒙牛整合君乐宝,实现战略合作,警情分析:整合事件极大程度转变蒙牛低温市场地位,并提升蒙牛竞争力,对伊利构成极大威胁;提升蒙牛在华北地位,威胁伊利华北市场战略地位;极大提升蒙牛奶源优势,对伊利在奶源的竞争造成威胁。,应用,企业竞争情报系统,28,电子商务网站,应用,数据激增,且有大量的非结构化数据如何从大量数据中发现有价值的客户挖掘其内在规律,面临的问题

7、,分析商品之间的内在关联发现有价值客户对用户行为进行预测,关键需求,电子商务网站,应用,网站产品评论挖掘:IT168网站是中国指导IT产品采购的知名媒体品牌,是国内最大、最权威的导购咨询网站之一。从IT168网站下载三种产品的评论,分别是:诺基亚5320XM的206篇评论、诺基亚5800XM的205篇评论和富士S5205EXR的72篇评论。如,以下是诺基亚5320XM的一篇评论:,步骤:,文本源,原始数据,预处理,词性标注,去除停用词,分词,特征识别,特征标注,特征词提取,语义极性分析,句子极性分析,极性词识别和强度确定,分类和结果评价,结果评价,分类,程度副词和极性词,分:褒、中、贬强度:良好、优秀,如功能、价格、屏幕等,30,电子商务网站,应用,挖掘结果及分析:,数字代表特征的极性平均值,帮助消费者作出购买决策;给商家提供客户满意度信息,并获得产品优缺点,帮助商家改进营销策略或者生产决策。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号