《本科毕业设计微博舆情管理平台:数据分析系统的设计与实现.doc》由会员分享,可在线阅读,更多相关《本科毕业设计微博舆情管理平台:数据分析系统的设计与实现.doc(59页珍藏版)》请在三一办公上搜索。
1、 毕业设计(论文)中文题目:微博舆情管理平台 数据分析系统的设计与实现英文题目: MicroBlog Public Opinion Management Platform: The Design and Implementation of the Data Analysis System中文摘要随着网络技术应用的普及和发展,舆情的传播方式和传播速度都发生了根本性变化, 网络舆情对人类的社会状态产生了全方位的影响,微博舆情则是网络舆情的重要组成部分,它的特点有:直接性,突发性,偏差性,丰富性和互动性。本文以微博消息为研究对象,研究了微博消息传播的特点与模型,通过对抓取数据的分析发现了微博传播的单
2、向性,便捷性,背对脸等特点,还有微博意见领袖在微博传播中的重要作用,微博热点的产生规律。根据对数据分析的结果提出了趋势分析的算法。利用空间向量模型完成对微博内容的结构数据化,利用K-means算法完成对微博消息的聚类分析,找到所要分析的某类微博内容,进而在这类微博中找出微博消息意见领袖,提出微博意见领袖影响力评估算法,WeiboRank算法,并结合算法完成了微博消息预警模块的实现,初步实现了微博舆情管理平台的数据预警分析功能。关键词:微博舆情 文本聚类 趋势分析 AbstractAlong with the universal application and rapid development
3、 of network technology, the approaches that the net-mediated public sentiment spread have been fundamentally changed. The net-mediated public sentiment has exerted huge influence on the way that the society operates. As the one of the most significant parts of the net-mediated public sentiment, the
4、public sentiment which is produced and spread by the microblog has several important characters, such as directness, immediacy, deviation, variability, interactivity.Taking the microblog messages as our investigating subject, this paper aimed to do research on the characteristics and models of deliv
5、ering messages between microblog users, Through the analysis of the capture data found unidirectional, micro-blog communication convenience, back on the face and other characteristics, and raised an effective algorithm to sort these kinds of messages. Using the spatial vector model, the K-means algo
6、rithm did cluster analysis on microblog messages, and found out the opinion leaders among tremendous messages. Then, an influential estimation algorithm of the microblog opinion leaders was raised,WeiboRank algorithm. Together with the estimation algorithm, we also achieved the early warning part an
7、d some basic data warning analysis functions on the whole microblog-mediated public sentiment platform.Key words:microblog-mediated public sentiment, text clustering, trend analysis目 录一、概述11.1 课题背景与研究意义11.1.1课题背景11.1.2研究现状31.1.3研究意义31.2论文结构4二、微博消息传播模型42.1微博消息传播的特点42.2微博用户状态62.3微博意见领袖72.4微博传播模型9三、微博舆
8、情管理平台的设计与实现123.1微博舆情管理平台的总体流程123.2数据分析系统设计流程13四、微博舆情管理平台的实现144.1样本选取与数据来源144.2微博数据转化154.3微博文本聚类174.3.1文本聚类定义174.3.2机器学习184.3.3K-means算法194.4微博意见领袖重要性评估214.4.1 PageRank算法214.4.2 WeiboRank算法224.4.3 算法对比234.5微博舆情预警模块254.5.1微博舆情预警254.5.2趋势分析模块264.6趋势分析结果比较29五、结论与展望315.1系统不足315.2未来展望325.2.1改进预期325.2.2新增功
9、能325.3结束语33参考文献34附录: 翻译原文35Cluster Analysis:Basic Concepts and Algorithms351Overview401.1.1What Is Cluster Analysis?401.1.2 Different Types of Clusterings411.1.3Different Types of Clusters442.Road Map47 K-means47 Agglomerative Hierarchical Clustering48 DBSCAN48附录: 中文翻译48聚类分析:基本概念及算法481概述511.1.1什么是聚类
10、分析?511.1.2不同类型的群集合521.1.3簇的不同类型532.路线图56K-means算法56凝聚层次聚类56DBSCAN56一、 概述1.1 课题背景与研究意义1.1.1课题背景随着时代的进步,技术的发展和web2.0时代的到来,网络舆情也呈现蓬勃发展的势头,截至2012年12月底,我国网民规模达5.64亿,手机网民规模也已达到4.20亿,我国微博用户规模为3.09亿,较2011年底增长了5873万,网民中的微博用户比例较上年底提升了六个百分点,达到54.7%。相当一部分用户访问和发送微博的行为发生在手机终端上,截至2012年底手机微博用户规模达到2.02亿,即高达65.6%的微博用
11、户使用手机终端访问微博。微博,即微博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台,用户可以通过WEB、WAP等各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。美国埃文威廉姆斯推出的twitter是最早的微博平台,也是目前最著名的平台。2007年,中国第一家带有微博色彩的网站“饭否网”开张,到2009年新浪微博的开通,中国第一家推出微博的门户网站,微博正式进入中文上网主流人群视野。2011年10月,中国微博用户总数达到2.498亿,成世界第一大国。微博成为网络舆情的一大组成部分。舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会
12、事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。对于舆情的内涵,国内的研究者们有着不同的认识。有研究者指出:“所谓舆情,实际上就是大众密切关心的热门话题或反映了某些社会心理的观点与看法,其较高层次是思潮,基本层次是情绪。大众传媒对此应该有足够的敏感,并以恰当的方式进行舆论引导,减少社会震荡。”另有研究者认为:“舆情即民意情况,涉及公众对社会生活中各个方面的问题尤其是热点问题的公开意见(外露的部分)或情绪反应(既可能外露又可能不外露的部分)。”更多的学者倾向于如下认
13、识:“舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。如果把中间的一些定语省略掉,舆情就是民众的社会政治态度。”这一定义将舆情界定为民众的社会政治态度,突出了民众与国家管理者之间的关系,抓住了舆情的核心,因此本文在以下的论述中,也采用这一定义。任何一种技术的出现及发展,或多或少会对社会生活造成一定的冲击和影响。网络从诞生的那一天起,就开始深刻地影响人们的生活、学习、思考、交流和娱乐的方式。与此同时,现实生活与虚拟世界交互影响,呈现出一种你中有我、我中有你的局面。以网络为平台,通过新闻、评论、发帖、回复等为载体表现出来的舆情,就是网络舆
14、情。以网络为载体的网络舆情,核心是单个或多个事件,是海量网民感情、态度、建议、观点的表达,互动与传播,以及后续的影响力的集合。 带有广大网民的主观性,未经媒体验证和包装,直接通过多种形式发布于互联网上。舆情管理与监控,就是通过对互联网信息挖掘采集技术的整合,实现自动抓取互联网中的海量信息,可以利用一些算法自动对信息分类,主题分析,倾向分析等功能,形成图表或者简报结论,便于用户掌握。舆情的本质是民众的社会政治态度,而在网络上,某种抽象的社会政治态度是需要以一些具体的形式反映出来的。或者说,舆情在网络上要为人所知、激起网民共鸣、或者在网络上被传播,必然要借助于一定的载体。在网络上,舆情的载体主要有
15、新闻评论,论坛(社区)发帖、跟帖,博客,播客,微博等。与传统舆情相比,网络舆情具有传播快速和实时互动的特点。网络的出现使得地球村的梦想得以实现,一条消息可以在瞬间传遍世界。相应的,某个舆情通过各大网站、论坛的转贴可以在极短时间内为大量人知晓,这在以前是难以想象的;在网络舆情体现最明显的论坛、社区、博客、微博等空间,每一个网民都可以实时地发表自己的观点,大家共同讨论或辩论,不同观点或立场的网民进行交锋,可以通过互动推动舆情的发展或深化,引起更多人的关注。1.1.2研究现状随着网络技术的发展和时代的进步,网络舆情的重要性已经毋庸置疑,有关网络舆情管理与检测的研究也日趋成熟,有关网络舆情管理与监测的
16、系统越来越多,微博舆情的分析平台也有出现,不过多数为政府和企业服务,只监控有可能爆发的负面信息和重大事件,不对普通用户开放,而有关微博消息的分析软件不但费用昂贵而且只是对信息的已传播轨迹进行呈现和分析,缺乏对微博消息未来走向的一个分析预测,也无对微博消息传播范围广度的分级。1.1.3研究意义网络舆情反映了民情民意,在为国家管理者决策提供参考依据的同时也存在引发社会问题的风险,尤其是国内外敌对势力经常利用互联网,别有用心地煽动不良情绪或发动串联,以期影响我国社会稳定。因此,研究如何发现互联网上的舆情、做出预警并在必要时采取合理的预控措施,成为摆在相关部门面前亟待解决的问题。1.2论文结构论文分为
17、4章。第一章概述介绍了我选择这个课题的背景,叙述了目前国内外关于微博舆情管理平台的研究现状,分析了微博舆情管理平台的重要意义。第二章分析了微博消息传播的模型,研究了微博消息传播的特点,建立了微博消息传播的模型。第三章概述了微博舆情管理平台的总体流程,详细讲解了数据分析系统的设计流程,讲述了分词模块,聚类模块及趋势分析模块的算法思想,基本原理。第四章针对数据分析系统的局限性,提出了未来的改进方向。二、微博消息传播模型2.1微博消息传播的特点微博舆情作为网络舆情重要组成部分,有着与网络舆情共同的特点,网络舆情的特点有以下几点:直接性,突发性,偏差性,丰富性和互动性。网民根据现实社会或者网络上发生的
18、新闻可以在各种平台上直接发表自己的见解和意见,根据其他网民的见解进行交换观点,而网络的虚拟性也使虚假不良信息的发布变得容易和更具蛊惑性,容易成为热点。这也对网络舆情的监管提出了要求。而微博也有其自身独特的特点:便捷性,原创性,背对脸。随着智能手机的普及以及各种便捷移动电子设备的出现,各种微博移动终端使得微博消息的发表与接收变得非常便捷,使得网络舆情的直接性和突发性表现的更为突出。而以新浪微博为例,其用户可以选择一个或多个的关注组别,例如娱乐,新闻,经济等,这就让用户可以更加便捷的了解自己需要的某些方面的信息。微博的便捷性让网络舆情的消息爆发更加突然,在前不久的雅安地震中,震后3分钟即有第一条关
19、于震区震后实情的微博消息出现,这与微博的便捷性是分不开的。微博消息是由140字左右的短文本构成的,所以其原创性远大于例如BBS,论坛,博客等平台,可能表达的意思相同,但发出的微博却不一样,同样以雅安地震为例,“为雅安祈福”,“雅安平安”,“支援雅安”等消息出现在微博上,虽然是不同文本,但同样表达了对雅安地震灾情的关注和祝福,这种原创性大大丰富了微博的内容,也直接体现了网络舆情的偏差性与丰富性。但也为微博舆情管理增加了难度,对微博内容的分类提出了更高的要求。背对脸这种特性,则是很生动表明了微博与平常网络平台相比最大的特点,其传播消息的途径是单向的,被关注者发布消息无需理会关注者的反应,关注者关注
20、着被关注者的消息,就类似一个人在玩电脑游戏,而他的粉丝就是站在他背后观看的人,观看者可以看到游戏的进度,但游戏者却不用理会观看者在做什么,这就是微博消息传播背对脸的特性。根据微博典型的这3种特点,我们看出它与其他网络平台舆情传播的显著差别,而想要对微博舆情进行管理,必须很好的利用这三种特点。2.2微博用户状态在调研文献时,病毒在传播的时候会出现三种用户状态,感染态,免疫态,易感染态。由于病毒传播与微博消息的相似性,假设一个用户发布一条消息后,他的粉丝用户都一定会看到这条消息,类比病毒传播的三种状态,将微博用户也分为三种状态,未知状态,转发状态,已知不传播状态。未知状态就是不知道消息的状态,通常
21、就是他所关注的人中没有传播这条消息;转发状态就是这个用户知道这条消息,并且对这条消息很感兴趣,转发了这条状态,就把这条消息通过他的粉丝继续传播了下去;已知不传播状态则是知道了这条消息,但是因为不感兴趣,没有转发这消息或发布相关的消息。如图2-1所示,这是一个用户状态示意图,用户A发布了一条状态,B和C关注了A,所以知道了A发布的消息,B不感兴趣,忽略了这条消息,成为了已知不传播状态,这条消息的传播在B处中断,而C对这条消息很感兴趣,转发了这条消息,则成为转发状态,继续向C自己的粉丝传播这条消息,则D由不知道这条消息的未知状态变为了知道这条消息的已知不传播状态,而E关注了B,虽然被D关注,但根据
22、微博背对脸的特性,E无法知道这条消息,一直处于未知状态。在消息传播过程中,这三种状态是单向转变的,未知状态可以变成已知不传播状态,已知不传播状态可以变成转发状态,但不能反向转变,已知不传播状态可能在多次从不同用户得知同一消息后变得感兴趣从而转变为转发状态。图2-1 微博用户状态图2.3微博意见领袖意见领袖这一说法起源于20世纪40年代初传播学关于媒介传播效果的研究,传播学者拉扎斯菲尔德在1940年美国大选的调查研究中发现,大部分选民的投票不依靠大众传媒,依靠的是身边的亲戚、朋友和团体的影响。从而有了意见领袖这一概念,在人际传播网络中经常为他人提供信息、意见、评论,并对他人施加影响的“活跃分子”
23、,是大众传播效果的形成过程的中介或过滤的环节。而在微博消息传递过程中,人际传播网络化为微博用户传播网络,微博意见领袖在其中发挥着巨大作用【10】。微博意见领袖通常有着数量庞大的粉丝群,通常用户有着几十或几百的粉丝,而微博领袖的粉丝数量则通常为上万甚至几十万上百万,成为微博平台上的明星,通过发布微博消息领导着他们的粉丝意见。通过对收集到的数据的分析,从数据表明,基本上可以认为20%的意见领袖用户领导着80%的用户的意见,如图2-2,从一条转发量为561次的微博消息的前10名的数据可以看出,昵称为“思想焦距”“杜子健”“历史尘封档案”的3位用户是此次消息传播中最重要的3位意见领袖。排名昵称粉丝用户
24、类型时间二次转发1思想焦距1209767个人认证2013-3-9 15:03:003682杜子健324621个人认证2013-3-9 13:07:01513历史尘封档案538570微博达人2013-3-9 15:45:02404煮酒谈史214251微博达人2013-3-9 16:11:35375人性之美丽213917微博达人2013-3-9 15:06:26226长江直播47390微博达人2013-3-9 15:17:05187敌我媒体采访团275145个人认证2013-3-9 15:03:0698彭三金176135个人认证2013-3-9 15:03:0739笑着做教师11370个人认证20
25、13-3-9 16:38:55310王周生7162个人认证2013-3-9 15:23:093图2-2 微博消息影响力前10名不过转发量并不是判断意见领袖影响力的唯一标准,包括粉丝数,转发率以及活跃程度均是评估意见领袖影响程度的重要参考标准,通过对实验数据结果的总结,发现微博意见领袖有以下几个特点:基本上所有的微博意见领袖均是新浪认证用户,图2-2也说明了这一观点,而且认证用户容易获得普通用户认可和接受,发布消息的真实性也比较可靠。认证用户中有部分是在现实社会中有着一定影响力,微博则是其社会影响力在网络中的映射。粉丝数量也不是必然要求,类似消息的二级传播原理,活跃且粉丝质量高的用户也会有相当大
26、的影响力,这也是一些草根用户能够成为影响力大的意见领袖的原因。草根用户积极参与用户间的互动,并且努力发布有价值的消息给粉丝,也可以获得较大的影响力。也有部分用户从来不与粉丝互动,但其绝对粉丝数量较多,也可以获得较大影响力。也有草根用户凭借实时发布极有价值信息发布获得较大影响力,随之而来的则是转发和粉丝数量激增。总结上述特点可以得出评估用户影响力的标准:粉丝数,转发率,历史转发率(该用户的活跃程度),是否认证用户。具体重要性的评估算法将在3.5节具体阐述。2.4微博传播模型由微博背对脸的特点可以知道微博消息传播的单向性,类似病毒的传播,病毒感染一台主机则这台主机进入感染态,而感染一台服务器,则访
27、问这台服务器的所有主机都会了解这个病毒,或感染或免疫,微博中消息传播也是如此,普通用户相当于终端,而微博意见领袖则相当于服务器,区别在于,消息的接受是被动的,只要登录微博就能看到关注者的消息,而不用像用户一样需要登录服务器。通过对抓取的微博数据的分析,发现20%的用户领导着80%的用户意见,而且越是在消息初期,微博意见领袖的作用就越大,意见领袖的加入会使消息有一个爆炸式的增长,而随着加入的意见领袖增加,消息传播增长趋势放缓,意见领袖的作用降低,当消息的传播广度到达一定范围后,意见领袖的影响力就趋近于零了。图2-3是一条有关波士顿爆炸案的微博消息路径图的一部分,通过图2-3可以看出意见领袖在微博
28、消息传播所占的重要作用,是传播路径上的重要节点,与消息传播的广度息息相关。图2-3 微博消息传播路径图通过对数据分析可以发现在消息的传播广度和初始微博意见领袖加入的多少有一定关系,当单位时间内意见领袖的影响力达到了一个阈值M后,可以认为在之后的一段时间内,此消息的传播范围会有一个明显的增长,关于M值会在3.6详细介绍。通过研究发现,消息成为热点中有以下3种规律,每一种都会在热点的成长曲线中出现。对一个范围内的微博意见领袖进行监控,发现意见领袖对一条微博消息的转发比例达到10%时,可以认为此消息会有一个广泛的传播,会成为一个热点话题;通过对已知此消息但未转发的意见领袖的比例与已知此消息并转发的意
29、见领袖所占比例的对比,可实现对未来的微博消息传播范围的判断;在单位时间内(设为1个小时)的消息传播量达到一个阈值M后,可以认为此消息传播进入爆发期,会出现较大增长,通过设置不同M值,可对未来的消息传播范围有一个大致的分级,不同级别表示预测此消息传播的最大广度。从趋势分析角度来说,以上3种规律无论应用哪一种均可以对消息传播趋势做一个分析,采用多种规律对趋势分析精度的提升也是有限的,而对一种规律分析的足够透彻已经可以达到一个接受的趋势分析的准确度了。三、微博舆情管理平台的设计与实现3.1微博舆情管理平台的总体流程微博舆情管理平台的三大模块如图3-1所示,分为微博信息数据获取模块,数据分析模块,分析
30、结果呈现模块,本文主要研究的是数据分析模块。图3-1 微博舆情管理平台三大模块微博舆情管理平台的主要流程如下,首先输入要查询的微博消息的关键词或核心微博,然后利用网络爬虫来收集微博中的消息内容,包括微博内容,转发关系,博主ID,发布时间等。然后进入中文分词模块,将微博内容分词后进入VSM,将微博内容的文本数据转化为计算机可以处理的结构化数据,将所有相关微博内容预处理后,进入K-means算法对微博内容进行分类,找到离关键词最近的那个类,认为这个类中的微博内容表达的是同一意思,并作为数据分析的主类,然后找出类中符合意见领袖标准的微博领袖逐一进行影响力评估,分析出各意见领袖的影响力指标,然后进入趋
31、势分析预警模块,根据微博的走势代入趋势分析算法进行分析,得出结果将数据上传到管理平台,管理平台对数据进行处理将结果输出。3.2数据分析系统设计流程数据分析系统的主要流程如图3-2所示,获得关键词或核心微博后,从数据库中获取微博相关数据,将微博内容与微博ID挂钩,用中文分词系统将微博内容进行分词,然后在数据库中新建一表项,用于存储分词后的文本内容,继续以微博ID为区分,将分词后的文本放入K-means算法中进行迭代聚类,选出关键词或核心微博所在类为相关微博类,删除数据库中其他无关微博,进而筛选出符合微博意见领袖定义的用户,进入微博意见领袖影响力评估算法,分析出每个意见领袖的重要程度。以小时为单位
32、,计算单位时间内的微博内容传播广度,设定不同等级阈值M,存在超过M值的时间段即可分析预测出消息未来走势,进而将意见领袖重要性在前10名的用户数据反馈数据库,将用户按时间顺序进行排序存储到数据库交给管理平台进行结果反馈,这就是整个数据分析系统的主要流程。图3-2 微博舆情管理平台数据分析系统主要流程四、微博舆情管理平台的实现4.1样本选取与数据来源网络爬虫的主要功能是搜集Internet中的各种信息。它利用网页中的超文本链接(Hyperlink)来访问网页,从一个事先制订好的URL列表开始,这个列表中的URL一般是从过去的访问记录里提取出来的,通常是一些比较流行的站点和新闻网页,利用HTTP等标
33、准协议,通过URL从一个页面爬行到另一个页面,直到没有满足条件的新的URL产生为止。4.2微博数据转化向量空间模型(Vector Space Model,简称VSM),其主要思想是以向量空间中的向量运算来处理文本内容,并且使用空间上的相似性来描述语义的相似性,如图4-1 所示。此时,就可以通过计算向量间的相似性来度量文档间的相似性。向量空间模型主要涉及以下两方面的工作:1)构建向量表示文档、查询中的词项2)度量任意文档向量和查询向量的相似性以下则对该三方面的工作进行详细介绍。1)构建向量表示文档中的词项对于文档集中的每一个不同的词项,在向量中只记录一个分量。图4-1 VSM主要思想如果词项出现
34、,则在对应向量的分量处记1;如果词项未出现,则在对应的分量处记0。经过向量化的文档,就可以在坐标系中表示,如图4-2 所示。图4-2 VSM文档向量化表示示例然而,二值表示的方法并没有考虑一个词项在文档中出现的次数。所以,扩展这种表示形式,将词项在文档中出现的频率作为向量中各个分量的值。在图4-2 中,如果文档D2中A出现了两次,则向量表示为。通过使用向量空间模型,文本数据被表示为计算机能够处理的结构化数据。此时,通过比较两个向量的相似性就能解决两个文档之间的相似性问题。2)度量任意文档向量和查询向量的相似性余弦距离经常被用在文本相似性比较中。余弦结果为一个0到1的数,1表示向量一致,0则表示
35、正交,符合相似性百分比的特性。不同文档长度的归一化是通过计算向量内积与文档向量的长度的比值实现的,即前提是忽略文档向量长度的影响。假设文档向量为di=(di1, di2, , dit),查询向量为Q=(wq1,wq2, , wqt)。余弦的计算公式:经过VSM分类的文本文档,可以看做粗略的分类,不过不够精确,所以需要后续的文本聚类的精确分类来确定所需要的微博消息。4.3微博文本聚类4.3.1文本聚类定义所谓聚类,就是一个集群的集合。聚类的目的是找到对象组,进一步目的是通过数据分析确定对数据分析有用的群体。文本聚类就是从很多文档中把一些内容相似的文档聚为一类。文本聚类的基础是著名的聚类假设:聚为
36、一类的文本相似性较大,而聚为不同类的文本相似性较小。文本聚类是一种无监督的机器学习方法,不依赖于训练过程,并且不需要提前手动划分文本类别,因此具有一定的灵活性和较高的自动化处理能力。目前,文本聚类已经成为对文本信息进行摘要、组织和导航的重要手段,受到了越来越多的关注。一个文本表现为一个由文字和标点符号组成的字符串,由字或字符组成词,由词组成短语,进而形成句、段、节、章、篇的结构。要使计算机能够高效地处理文本,就必须找到一种理想的形式化表示方法。下面所介绍的文本聚类算法是在空间向量化模型的基础上实现的。文本聚类算法有划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。本系统使用划分法
37、进行文本聚类。划分法:对于一个有N 个记录的数据集,将构造K个分组,每一个分组属于同一个聚类,KN。K 个分组所要满足的条件:1)至少一个数据纪录属于一个分组2)每一个数据纪录属于且仅属于一个分组对于给定的K,算法首先给出一个初始的分组方法,通过迭代的方法来不断优化分组,每一次优化后的分组方案都会较前一次好。这里提到的好的标准是:对于同一个分组中的记录,越近越好;对于不同分组中的记录,越远越好【9】。目前,常用的使用这个思想的算法有:K-means 算法、K-medoids 算法,系统中使用的是K-means 算法4.3.2机器学习机器学习(Machine Learning)是一门多领域交叉学
38、科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习的研究是根据生理学、认知科学等对人类学习机理的了解,建立人类学习过程的计算模型或认识模型,发展各种学习理论和学习方法,研究通用的学习算法并进行理论上的分析,建立面向任务的具有特定应用的学习系统。机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。这里所说的“机器”,指的就是计算机。机器学习按学习形式分类,可分为监督学习与非监督
39、学习。监督学习,即在机械学习过程中提供对错指示。一般实在是数据组中包含最终结果(0,1)。通过算法让机器自我减少误差。这一类学习主要应用于分类和预测 (regression & classify)。非监督学习又称归纳性学习(clustering)利用K方式(Kmeans),建立中心(centriole),通过循环和递减运算(iteration&descent)来减小误差,达到分类的目的。K-means文本聚类算法就是一种应用非监督的机器学习的划分法文本聚类算法。4.3.3K-means算法K-means算法是属于划分类的聚类方法,它的基本原理如下:1 用户输入想要划分的文本聚类输n。2 随机选
40、择n个文本作为聚类中心。3 对其他文本计算到这n个聚类中心的距离,并把它分到距离 最近的那个聚类里面。4 重新计算聚类中心。5 重复步骤3,4直到达到用户的设定条件为止【9】。图4-3 K-means算法流程图K-means算法的基本思想是:先设置一个聚类数目n,系统随机选择n个文本作为初始的聚类中心,然后挨个比较每个文本与各个类中心的相似度,将它赋予给最相似的那个类中心所在的类。然后重新计算选择每个类的中心。进行不断循环迭代,直到目标函数收敛不再变化。4.4微博意见领袖重要性评估从前文中可以知道,微博意见领袖在微博消息传播中的重要性,而意见领袖本身也存在着影响力不同的问题,所以根据PageR
41、ank算法提出改进的WeiboRank算法来对意见领袖的重要性进行评估。4.4.1 PageRank算法著名的PageRank算法是衡量网络中节点重要程度的经典算法。是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中的排名获得提升,从而提高搜索结果的相关性和质量。基本思想:如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,
42、从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/C(T)其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T的页面重要性得分值的累加。优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。不足:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank有很严重的对新网页的歧视。PageRank的核心思想是每个节点的PR值根据反向链接的数量,均匀“流”向所有的关系节点。每个节点的PR值为所有邻居好友对
43、其贡献PR值的综合4.4.2 WeiboRank算法微博中用户的传播影响力受到很多因素的影响,例如用户的跟随者数量、关注用户量、帐号是否有认证,以及微博本身的质量、新鲜度等。同时与微博用户自身的活跃性、是否经常登录微博、发布和分享信息也有很大的关系。通过借鉴PageRank算法的设计思想,综合考虑用户的传播意愿的互动程度,提出了WeiboRank算法来准确评估每个节点的传播影响力。给定一个权重有向网络G=( V,E,W ),节点为V,边为E,边权为w,其中i和j节点间边权Wij表示节点i对节点j的影响力。本研究中边权Wij采用历史转发比率 Rt(i,j)来表示。历史转发比率是指用户j曾经转发用
44、户i的微博的次数与用户i总转发微博数的比率。定义如下:式中Rtc(i,j))是用户j曾经转载作者i的微博的次数。显然,如果用户j过去经常转发i的微博,今后也很有可能转发。SC(i)为用户i在监测时间段内所转发的所有微博数量。式(1)是将用户历史转发状况进行归一化处理。为了衡量邻居i对J的重要程度,本文提出节点间亲近率的概念。亲近率定义为节点d对i的历史转发率和所有节点J转发过的用户节点的历史转发率之和的比值。其物理上表征在节点j的所有邻居的互动关系中,节点i相对于j的重要程度。亲近率C(i,j)定义如下:从亲近率定义中可以看出,其综合考虑了用户的传播意愿和与其他节点互动的程度。在微博信息传播网
45、络中,我们借鉴PageRank算法的核心思想,提出weiboRank(wR)算法来评估每个节点的信息影响力,定义如下:式中,WR(i )是节点i的WeiboRank值,B 是指向i的节点的集合,其中C(i,j)是节点j的传播影响力分配给i的比例因子,这里采用上文定义的亲近率。d是阻尼系数,可设定在(0,1)之间,本文中选取085。将所有节点的WeiboRank初始值设为01,通过迭代到收敛为止,可以得到所有用户的WR值。4.4.3 算法对比为了对比WeiboRank算法对用户传播影响力的识别准确性,采用以下2种常用评估微博用户影响力的方式 :1)被转发量(Retweets):该数量表示用户发布
46、的信息被其他用户转发的信息量。2)粉丝数量(Followers):该数量表示微博中所有收听该用户的粉丝数量。本文采用信息传播实际影响人次覆盖率P作为用户的传播能力的评测指标。该数据是以用户的微博信息在区域内被真实传播的过程中所能影响到的人次的实测结果为依据,将每个微博用户所发出的所有微博的实测影响人数进行迭加获得的每个微博用户的真实传播影响力。值得注意的是,如果用户i的某条微博在转发过程中多次传播到用户j,这种情况需要进行合并,只计1人次。为了进一步对比和分析算法在真实影响人次这一评价指标下对用户影响力的识别准确程度,通过相关算法获得用户影响力的排名,然后通过对排名的意见领袖用户影响人次覆盖率
47、进行对比,并与真实用户传播影响人次序列进行对比,考察各序列之间的相对关系,结果如图4-4所示。图4-4 3种算法意见领袖累计覆盖率统计通过对图4-4中的数据分析发现,WeiboRank算法意见领袖用户对信息的累计人群覆盖率都高于其他算法,这充分说明该算法通过亲近率引入个体传播意愿和节点互动程度后,能够有效地逼近用户的真实信息传播能力。同时我们发现WeiboRank算法和用户的followers两个序列的传播影响人次覆盖率比较相近,这说明如果在不太要求精确性的情况下,用户粉丝数量基本上能够反映用户的传播影响力。而用户retweets的序列(转发信息量)作为用户的传播影响力的评价指标是效果最差的。转发量大的用户并不一定意味着其影响力也大。从图中可以看出前20%的用户的用户影响力覆盖了80%的用户传播影响人次,符合人们日常认识中的2080分布规律。4.5微博舆情预警模块4.5.1微博舆情预警预警的概念源于对重大自然灾害征兆的研究。目前关于天气、自然状况的预警系统已经在社会生活中发挥着显著的作用。究其原因,自然现象内外部影响因素之间的因果关系相对确定,而且这些现象都经历了长期的观察测量,有了较好的量化基础,因而可以方便地进行预警。预警,究其实质是一种