情感倾向性分析调研.docx

上传人:李司机 文档编号:1621098 上传时间:2022-12-11 格式:DOCX 页数:4 大小:19.63KB
返回 下载 相关 举报
情感倾向性分析调研.docx_第1页
第1页 / 共4页
情感倾向性分析调研.docx_第2页
第2页 / 共4页
情感倾向性分析调研.docx_第3页
第3页 / 共4页
情感倾向性分析调研.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《情感倾向性分析调研.docx》由会员分享,可在线阅读,更多相关《情感倾向性分析调研.docx(4页珍藏版)》请在三一办公上搜索。

1、意见挖掘讨论的目的目前,互联网上的信息与日剧增,隐藏着巨大的信息量。但是,要想在很短的时间内获得人们对于诸如人物、大事、传媒、产品等有价值的评价信息,往往是特别困难的。例如,对产品的各种评价消失在各大论坛、电子公告板以及门户网站上,厂商需要了解顾客使用其产品的反馈意见,潜在的购买者也需要作出是否购买某个产品的打算。假如采纳人工方式对这浩如烟海的信息进行查询、统计,明显是低效和不切合实际的。面对这样的现实问题,意见挖掘技术应运而生。一方面,它基于数据挖掘(DataMining)和文本挖掘(TextMining)技术,另一方面,它又具有相当的文本理解(TeXtUnderstanding)的力量。所

2、以,它是比文本挖掘技术更接近人工智能目标的一种新技术。它与以往的信息抽取(InformationExtrac2tion).文本分类(TeXtClassification)和文本摘要(TeXtSummarization)技术不同。虽然信息抽取和意见挖掘都需要深层的语义理解,但信息抽取主要是猎取详细的语言表达结构,如命名实体、命名实体关系、大事等,这些成分一般为显式表达结构;而意见挖掘是挖掘意见的元素和它们之间的关系,即主题、意见持有者、陈述、情感和它们之间的关系,这些成分表达形式多样,而且经常不是显式地、独立地表达。文本分类是在预定的用户需求下把文本进行分类,并没有涉及到深层次的语义理解。文本摘

3、要是用简练的语言表达长篇文本的中心思想,但文本中对事物的详细看法和评价则没有被清楚地提取出来。实际上,意见挖掘技术弥补了上述这些技术的不足,是更具有应用价值的一种新技术。意见挖掘涉及各个语言分析层面,不但涉及到词汇层(如分词和词性标注)、句法层(如命名实体识别和语法分析)和语义层(如语义分析),还涉及到篇章层(如跨句的指代消解)。意见挖掘与一些语言技术有关,例如,信息检索、文本分类、信息抽取、自动摘要、数据融合、问答系统、自然语言生成、对话系统、机器翻译等。意见挖掘技术可以应用于现实生活中的很多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。例如,采纳意见挖掘系

4、统从来自网上的产品(如笔记本电脑)评价意见中快速地获得意见分类统计结果,可以供应应厂商以进一步改进产品的质量,可以供应应潜在的顾客作为选择购买什么型号产品的参考,也可以供应应代销商作为进货品种和数量的依据。(文本意见挖掘综述姚天1,程希文2,徐飞玉2,汉思乌思克尔特2,3,王容3中文信息学报第22卷第3期)依据主题的本体概念和语义倾向使用启发式规章选择陈述。在此基础上,使用统一的表示集成具有情感学问的语言特征,然后采纳朴实贝叶斯分类器分类情感极性。此后,Tsou等人在上述讨论工作基础上对中国四地(北京、香港、上海、台北)报刊上有关四位政治人物(克里、布什、小泉纯一郎、陈水扁)褒贬性的新闻报道进

5、行了分类讨论330在讨论中,首先通过标记语料库获得文本中的极性元素(PolarEIementS),然后主要采纳了三个衡量指标,即极性元素的散布(SPread)、极性元素的密度(DenSity)和极性元素的语义强度(Intensity)来对每个文本进行统计,得出文本贬褒分类和强度大小的结果。其中对确定极性元素之间的关系虽有所提及,但没有深化讨论。在BBS文本讨论方面,邱立坤等人提出了一种在BBS环境下进行热门话题挖掘的算法34。这种算法在一般文本聚类算法基础上,应用BBS所特有的点击数、回复数进行热度排序,然后采纳基于特征词提取的话题归并,从而挖掘出最受BBS用户关注的热门话题。【I】文本情感分

6、析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法6基于语料库的评价词语抽取和判别主要是采用大语料库的统计特性,观看一些现象来挖掘语料库中的评价词语并推断极性.,基于语料库的方法最大的优点在于简洁易行,缺点则在于可采用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不简洁归纳.基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语.这里的词典一般是指使用WordNet或HowNet等.词典的方法的优点在于猎取的评价词语的规模特别可观,但是由于很多词存在一

7、词多义现象,构建的情感词典往往含有较多的歧义词,如词语“好”在大多数状况下表现为“优秀”的意思,但在某些状况下扮演修饰成分(如“他跑得好快啊!”).此外,还有一部分学者采纳基于图的方法来识别评价词语的极性6,20.详细来说,该方法将要分类的词语作为图上的点,采用词语之间的联系形成边来构建图,继而采纳各种基于图的迭代算法(ProPagationalgorithm)来完成词语的分类.基于图的方法是一种新奇的方法,它可以敏捷地将词语间的各种联系作为特征融入图中,继而进行迭代计算.然而,查找更为有效的词语间特征以及如何选取图算法是值得深化讨论的问题.文本情感分析的作用:随着互联网上评论文本的爆炸式增长

8、,迫切需要计算机关心用户加工整理这些情感信息,这使得情感分析讨论具有重要的应用.下面,本文就情感分析的应用现状以及应用前景进行概括介绍. 用户评论分析与决策 舆情监控 信息猜测参考文献I文本情感分析赵妍妍秦兵,刘挺.JournalofSoftware,Vol.21,No.8,August2022,pp.1834-18486RaoD,RavichandranD.Semi-Supervisedpolaritylexiconinduction.In:LascaridesA,ed.Proc,oftheEACL2022.Morristown:ACL,2022.675-682.词语情感倾向性识别*闻彬,咸

9、宁学院学报第30卷第6期本文将第一节主要研讨词语倾向性识别的的讨论现状1国内外讨论现状词汇倾向性判别是文本倾向性分析的基础.情感词识的精确性直接影响到要素级,篇章级的倾向性讨论.目前国内外词汇倾向性讨论主要分为两类统计方和语义方法.统计方法主要是基于机器学习,采用文档集中词汇间共现关系来计算词汇的倾向性.2003年,PeterDTumMichaelLLittmanU使用的点互信息(PMlJR)方法利了搜寻引擎供应的“NEAR”操作,来估量词汇与具有剧烈向意义的种子词集合的关联程度,以此作为计算该词倾性的依据.同年,Yu和HatZiVaSSiIogk)U选择出若干极性强的形容词(情感词)构建一个

10、种子词集合,通过计算新和种子集合中的词的共现概率来推断新词的语义倾向.语义方法主要是基于一个现存的本体学问库,如英文WordNet和中文的HOWNet,通过计算待估词与选定的基词的语义距离,进而推断待估词的倾向性.2002年,Kps等正是采用WordNet的同义结构图计算待估词与所选基准词的语义距离来得到其倾向性,在中文方面,复旦高校学的朱嫣岚等在2006年提出的基于HowNet的词汇语义倾向计算方法,采用词语间的相像度来计算词的褒贬程度.2007年北京高校的路彬等采纳中文的同义词词林来计算词汇褒贬,这种方法前两层扩展的精确率特别高.随着Web2.0时代的到来,网络成了反映社会舆情的重要载体之

11、一,越来越多的人们通过博客、论坛以及网站留言板发表自己对热点大事的观点和看法.对于某个热点大事,假如将其有关的网络舆情信息加以汇总并且进行分析,就可以反应出对于这个大事民众所持有的态度和观点的倾向性.这种汇总的网络舆情,可以有效地关心相关政府职能部门了解民意,进而做出准时的反馈.本文应用观点挖掘技术通过对新闻网页的评论进行收集并进行分析,将网民的评论汇总成确定、否定和中性三类,取得了良好的效果.分析评论中文本的情感倾向性是观点挖掘的主要任务之一,目前倾向性的分析主要针对词汇、句子和篇章三个层面进行分析.词汇的情感分析目前主要有三种方法,一种是基于WordNet和HoWNet这样的学问库,首先选

12、择两组具有明显正向和负向极性的词语作为种子词,对于一个情感倾向未知的词,计算这个词与两组种子词的相像度,与正向种子词组相像度高的则判定为正面倾向,反之则判定为负面倾向.词汇倾向性分析的另一种方法是无监督学习方法,这种方法同样需要先确定两组等量具有明显倾向性的种子词,一组是褒义种子词,一组是贬义种子词.对于一个新词,依据它和两组种子词的紧密程度对其倾向性进行推断,紧密程度的推断是依据词语在语料库中的共现频率,称为点态互信息量,将词语与褒义种子词的点态互信息量之和减去与各贬义种子词的互信息量之和,结果的正负即表示词语的倾向性,而且结果的大小还表示了倾向性的强度.这个方法的点态互信息量也可以通过使用

13、搜寻引擎来计算,其概率可以通过搜寻引擎返回的HitS值占搜寻引擎总的索引页面数的比例来计算,因此无需语料库.在英文的应用系统的讨论上,BingLiu等学者讨论并开发了OPiniOnobSerVer,主要针对商品评论做了更深化的分析,突破了仅仅给出篇章总体倾向性的讨论,讨论了从同一类商品的多个评论中抽取子主题的算法,对子主题倾向性分析,综合多个语篇的分析得出总结性的结果,具有比较实际的商用价值.这也是商品评论比较特殊之处,同一类商品的子主题比较简洁确定,比如数码相机的评论一般包含多个主要部件或属性的评论,尺寸大小、照片质量、电池寿命、相机重量等.在汉语的应用系统的讨论上,姚天?等学者讨论并开发了一个用于汉语汽车评论的观点挖掘系统,该系统在电子公告板、门户网站的各大论坛上挖掘并概括顾客们对各种汽车品牌的各种不同性能指标或重要部件的评论和意见,并且推断这些意见的褒贬性以及强度,最终总结并得出可视化的结果.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号