《互联网舆情监测系统技术白皮书.doc》由会员分享,可在线阅读,更多相关《互联网舆情监测系统技术白皮书.doc(25页珍藏版)》请在三一办公上搜索。
1、互联网舆情监测系统技术白皮书 公司名称: 任子行网络技术股份有限公司公司地址: 深圳市高新区科技中二路软件园2栋6楼邮政编码: 518057公司网址: 联系电话: 0755-86142281传真: 0755-86168355目 录1.研发背景42.系统概述52.1.产品意义52.2.业务模型52.3.业务流程53.系统功能71.1. 整体舆情规划71.2. 全面信息采集71.3. 信息加工81.4. 元搜索功能101.5. 话题追踪101.6. 舆情分析及报告101.6.1 舆情分布图101.6.2 舆情趋势图111.6.3 舆情报告模板111.7. 帖文推荐121.8. 组织架构管理121.
2、9. 用户管理121.10. 关键字管理131.10.1 事件关键字管理131.10.2 领导人关键字管理141.10.3 色彩关键字管理151.11. 手工添加舆情161.12. 主帖及回帖检索171.13. 网名管理181.13.1同名检索181.13.2 同名分析181.13.3 重点关注181.14. 功能列表194.系统特色224.1.引导员管理224.2.高效与全面预警兼备224.3.即时通讯224.4.TOP-N智能展示235.系统应用246.系统配置256.1.网络带宽256.2.运行环境251. 研发背景在互联网快速发展的今天,网络媒体已经成为一种信息的主要传播途径,其开放、
3、虚拟的特性让言论达到了前所未有的活跃程度。在论坛、博客等非受控渠道是目前发表个人观点的主要方式。对于公众关注的事件很快就会形成网上舆论,个别人在其中煽风点火,极易造成网络非理性情绪蔓延,进而产生严重的不良影响,对相关部门造成巨大的舆论压力。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。例如新疆“7.5”事件的煽动者就是通过论坛进行谋划的,此类言论严重危害国家的安定团结。因此对重要的论坛、网站、博客等进行舆情监测分析,及时发现其中的不法分子的反动言论,将不良影响扼杀在造成危害之前。对政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、
4、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。但是由于网上的信息量十分巨大,仅依靠人工的方法不可能应对网上海量信息的收集和处理,这必须要有一个智能系统能自动搜集互联网信息、洞悉最新的舆论导向、找出讨论敏感主题的人群并跟踪、发掘信息的传播趋势等,从而形成一整套自动化的网络舆情分析系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。2. 系统概述互联网舆情监测系统包括爬虫采集服务器、数据库服务器及WEB管理服务器三大部分组成,实现了信息采集、信息处理、信息存储及舆情预警;系统采用B/S架构模式。2.1. 产品意义科学的进步及在科研领域的应用,解决了天气无法预报的难题;技术的发展及
5、信息化工具的诞生使网络舆论提前发现成为可能;2.2. 业务模型2.3. 业务流程任子行开发的网络爬虫可对任何论坛、国内新闻、境外新闻、微博、各大门户网站的敏感数据及热点话题进行爬取;用户结合自己关注话题指定采集源(关注的网站、论坛等),并结合管理需求确定关注话题;根据实际情况,配置事件关键字、领导关键字及辅助定性的色彩关键字,系统将采集到的数据智能分类并由页面进行预警;根据极少数已定性的舆情结合实际情况可重新手动归类,并下达任务到具体分支机构处理,并可根据系统的“引导员管理”考核引导员,增强做事的责任心及处理的速度(与110指挥中心的三警合一、接警、处警流程有异曲同工之妙)。3. 系统功能 舆
6、情监控系统包括舆情规划、舆情采集、信息存储、信息加工、舆情分析及舆情报告。1.1. 整体舆情规划针对省厅及各市局关注的板块不同,对采集范围及关键字进行整体规划,分类管理;能够结合当前热点话题及舆情动态,实时调整舆情采集点;1.2. 全面信息采集信息采集是舆情工作的首要任务,互联网传播特点和网民行为特征要求系统全面获取网络信息,信息时效性要求系统及时采集到网络信息。u 系统内置数千个影响程度大、传播面广、网民参与度高的网站,从广度和深度全面抓取信息;1) 各大门户网站:由资讯性质网站和网络媒体构成,如新浪网、雅虎网、网易、搜狐网2) 各大行业网站:由行业性质网站构成,如行业资讯网站、政府门户网站
7、、行业企业网站3) 交互性质网站:有各种形式的论坛、贴吧、BBS、留言板构成,如水木清华BBS、天涯、新浪BBS4) 各大搜索引擎网站:同步百度和Google的搜索结果。5) 各种微博:网易、天涯、腾讯、新浪、凤凰网6) 境外网站:星岛环球网、星岛日报、联合早报、韩国联合通讯社 u 优先级信息采集,对不同影响力的网站配置不同优先等级,优先级高的网站优先采集信息,从信息源影响力角度确保重要舆情及时传递;u 信息采集形式全面,不同舆情源采用不同采集方式保障采集实时性;1.3. 信息加工系统按照各信息源表现出的网页形式呈现采集信息,网页上包含大量的广告、图片、链接,这些不是舆情关注的价值信息,还给系
8、统的高效运行、检索增加负担。同时数据呈现按照各自信息源排列规则出现,需要系统分别去识别标题、来源、作者、发布时间、正文等,要求对信息预处理形成统一格式供后续的决策分析。预处理包含超链分析、编码识别、URL去重、锚文本处理、垃圾信息过滤、关键字抽取、关键信息提取、正文抽取、自动摘要;u 双重过滤机制第一重过滤:自动过滤出与“我”有关的舆情;第二重过滤:自动排除与“我”有关舆情中不具有舆情价值的信息;双重过滤系统将重要舆情过滤出来,将不具备舆情价值的信息排除掉,更有利于舆情影响和舆情价值的分析,舆情工作变得有的放矢。u 自动分类基于内容对经过双重过滤处理后的重要舆情自动分类,无需人工干预,准确率达
9、到85%以上。先设置分类关键词,每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析,分别对标题和内容进行匹配,统计匹配的次数,然后根据设定好的关键字匹配模型对每个关键字进行分值计算。分值超过一定分值的都将自动处理所对应的处理,匹配分值最高的关键字就自动分类。u 相似性排重采用“文章相似性技术”根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键字比较计算,得出文章相似度,相似度高于0.7以上的文章系统默认处理为“已处理”,无需再进行任何操作,相似度位于 0.5-0.7 之间的相似转载文章需要用户在页面
10、进行再次确认,确保文章无漏处理。u 热度分析通过对文章转载量、点击数、回复数来分析热度。相关数据存入数据库,并自动检查链接是否存活。1.4. 元搜索功能系统不仅支持准确及智能分类的关键字设置匹配,而且集成了基于百度、GOOGLE等关键字的搜索引擎,搜索更灵活。1.5. 话题追踪针对聚类话题在网站、发布者、贴文直接形成直观的关联分析,有利于根据话题的传播路径和趋势。1.6. 舆情分析及报告以文字和图表等直观的形式,统计论坛相关数据自动生成相关统计报表,并可导出EXCEL表格。如每日主要论坛点击报告、每日主要论坛热帖排名、每日博文排名。可生成舆情趋势图及舆情分布图。1.6.1 舆情分布图舆情分布图
11、展示了舆情在各大论坛中的分布,为管理员后续的思路提供了决策依据,对于舆情分布多的论坛,管理员需要重点关注,见下图所示:1.6.2 舆情趋势图舆情趋势图用来预测舆情的未来走势,可及时发现并制止重要舆情的快速蔓延,见下图所示:1.6.3 舆情报告模板根据近期对舆情关注的程度并结合监测平台统计的相关数据,半自动化快速生成舆情分析报告,供相关领导及相关部门提供决策依据。模版包含内容见下图:1.7. 帖文推荐敏感度,关注度高,需要大家关注的贴文,可以推荐到首页,实现信息共享。1.8. 组织架构管理结合实际组织架构与舆情监测任务,灵活定制及维护舆情监测组织架构,方便实现层次分明的用户管理,支持建立多级组织
12、架构,考虑到大型组织架构维护的复杂度,支持批量导入、导出功能,多级组织架构部署具体见下图:1.9. 用户管理系统按照组织架构将管理员分为“省级管理员”、“市级管理员”、“分局管理员”及“普通用户”四个级别。每一级管理员可定制自己及下属机构用户关注的信息(设置关键字、选择关注论坛、虚拟帐号的维护等),确保任务的总体分发及舆情的分而治之;与此同时,支持用户的批量导入、导出功能,针对组织架构庞大的机构,无需逐个输入用户,提高用户管理效率;批量导入足够多的用户后,又可查询到具体的管理员或用户,如下图所示:1.10. 关键字管理为了将舆情分类及定性,系统支持分别设置“事件关键字”、“领导人关键字”及“色
13、彩关键字”;1.10.1 事件关键字管理不同用户关注的舆情有所不同,系统支持配置关注的关键字,根据关键字自动匹配相关帖文并智能展现给对应用户,代替手工逐条筛选的现状,不仅提高工作效率且获取的信息更全面;1.10.2 领导人关键字管理在地方性突发事件中,通过网络的转载及个别心怀叵测人员的推波助澜,其地方最高领导人往往无辜的推上舆论的“制高点”,为保护领导及地方政府的声誉,将地方相关领导设置为舆情监测对象,在某些居心叵测的人员策划事件升级前,及早发现并预警舆情,才能将这些非正当事件扼杀在萌芽状态;领导人舆情设置及领导人舆情预警见下图:1.10.3 色彩关键字管理在舆情发生后,需要对舆情进行定性。对
14、于正面的舆情可通过回帖、转载的方式进行正向宣传,对于中性舆情要加以正面引导,以防心怀叵测之人乘虚而入、歪曲事实;对于定性为负面的舆情需要重点关注,如通过删帖等方式阻止事件进一步升级,对于触及法律底线的人员要依法追究其刑事责任;设置为负面关键词后,系统将智能匹配并预警包含负面关键词的帖子;色彩关键字配置及展示如下:1.11. 手工添加舆情可通过手工添加舆情添加并集中关注上级机构推荐的帖子,并通过其它配套功能,实现相近关键词的帖文统一分析及全面跟踪;1.12. 主帖及回帖检索根据用户设定条件对系统采集的帖子的主贴进行检索和展示,同时支持对主帖的回帖内容进行检索及展示,主帖内容检索见下图:1.13.
15、 网名管理1.13.1同名检索对所有的网名信息进行检索和展示;根据最近发帖时间降序显示网名及相关信息,关注最新发贴网名动态。1.13.2 同名分析针对指定网名的用户,搜索其在不同论坛中的发帖情况,避免监控不全面,让非法分子有机可乘;1.13.3 重点关注将可疑网名设置为重点关注对象,对系统用户手动置为重点的网名进行检索和展示,同时可修改网名的相关信息。1.14. 功能列表序号模块功能功能描述1rzxIM即时通讯工具u 基于web的聊天工具,可以随时与指定人员沟通也可以进入聊天室一起讨论,易于操作。2综合信息模块首页提示u 提示当前用户待处理任务,当日新增预警信息数及新增信息总数;u 红色部分设
16、有热点,点击跳转到相关页面处理。舆情简报模板u 提供事件报告的框架信息,提高报告编写效率。首页通知u 重大事件行动的信息发布。推荐贴文u 敏感度,关注度高,需要大家关注的贴文,可以推荐到首页,实现信息共享。热帖u 展示关注度较高的贴文。境外新闻u 境外网站的预警新闻展示。快速通道u 用户常用功能的汇集。特殊关键字舆情u 展示涉警,维稳,维权,民生相关的舆情。领导人舆情u 命中领导人关键字的信息展示。国内新闻u 用户关注的国内新闻网站的新闻展示。发帖排行u 可根据论坛或发帖人来进行排名。3预警舆情模块关键字舆情u 通过事件关键字匹配,展示命中的预警信息。领导信息舆情u 通过领导人关键字匹配,把命
17、中的预警信息进行展示。负面信息舆情u 通过色彩关键字匹配,把命中的预警信息进行展示。手工添加舆情u 在爬取板块之外发现的舆情,可以通过手工添加的方式维护到系统中。主帖检索u 将系统爬取的全部主贴汇总,并可以进行二次检索。回帖检索u 将系统爬取的全部回贴汇总,并可以进行二次检索。4引导员管理模块按时间考核u 可以指定时间段,按省、地市、分局、引导个人进行统计发帖统计汇总;可以查看某个引导员的各虚拟账户的发帖情况,以及具体某个帖子的详细信息,同时提供导出到Excel功能。按事件考核u 可以指定某个事件,按省、地市、分局、引导人进行统计发帖统计汇总;可以查看某个引导员的各虚拟账户的发帖情况,以及具体
18、某个帖子的详细信息,同时提供导出到Excel功能;同时提供对事件的维护功能。在线率考核u 按各单位在线率,使用情况考核,可导出Excel表。发帖查询u 对引导员发帖信息进行列表展示,可以通过论坛名、版块名、时间段对引导员发帖信息进行查询,从而对引导员发帖工作进行验证考核。回帖查询u 对引导员回帖信息进行列表展示,可以通过论坛名、版块名、时间段对引导员回帖信息进行查询,从而对引导员回帖工作进行验证考核。任务转发u 可将任务转发给其他引导员,并支持添加2M以内的附件。任务查询根据紧急程度查询指定时间段内引导员任务处理情况。5话题追踪模块今日话题u 针对24小时的贴文进行聚类,形成话题列表,可查看关
19、联图分析。预警话题u 根据系统设置的关系字,对命中同一组关键字的帖子进行归类聚集,可查看关联图分析。6统计分析模块分布图显示u 直观展示各论坛发帖情况,负面贴文的分布情况及预警信息的分布情况并可以导出图表。趋势图显示u 直观展示话题的走势,领导人舆情的趋势等并可以导出图表。7网名管理模块网名检索u 可选择指定网站,列出从该网站上爬取的网名,以及该网名发帖、浏览帖子、回复帖子情况。可指定具体的网名,进行模糊或精确匹配。列出该网名的发帖回帖情况。同名分析u 系统自动检索出所有论坛中相同的网名,并列出所属论坛板块。重点网名u 列出所有设置为重点网名的网民列表并可更新网名的性别、置为重点、实名及地址。
20、8元搜索模块基于搜索引擎的搜索u 可设置搜索条数,显示条数。输入关键字,按照发帖时间来检索。9系统管理事件关键字管理u 再此设置需要关注的预警关键字。领导人关键字管理u 在此设置需要关注的领导人信息。单位维护u 使用单位的信息维护。监控论坛列表u 展示监控的全部板块信息。用户管理u 维护使用系统的用户信息。通知列表u 发布通知,查看历史通知记录。系统参数配置u 可设置非关键字帖子在数据库保留天数和关键字帖子在数据库中的保留天数。热点定义u 设置热度计算公式。色彩关键字管理u 正面,负面,中性关键字的设置。关键词过滤管理u 排重信息的设置。爬虫任务查看u 查看爬虫运行情况。4. 系统特色4.1.
21、 引导员管理当网络舆论被居心叵测之人或非法组织煽动时,公安机关等政府智能部门需要快速介入并有效率引导,而人的惰性决定了对引导员考核的重要性及必要性;本系统可通过按时间考核、按事件考核及按在线率考核的“组合拳”全角度衡量引导员过去一段时间的表现,可通过“查询发帖”和“查询回帖”来具体衡量其工作的认真度;在管理员同时处理多个并发任务时可分配任务给其他管理员处理。4.2. 高效与全面预警兼备一方面,根据事件关键字和领导人关键字智能分类且快速的定位到当前需要关注的人和事,通过色彩关键字对舆情进行定性,第一时间处理负面影响,避免事态升级;另一方面,根据元搜索及指定主帖、回帖的检索,可进一步拓展某些可疑舆
22、情;在分类智能度及快速处理重大舆情的同时,全面检索重要关键字可将潜在的舆情进一步全面挖掘,从根源上解决了“小而精”和“大而全”的矛盾;4.3. 即时通讯系统附带即时通讯工具,支持单独通讯或分组讨论,在重大舆情发现的第一时间,即可通过分组讨论功能提供快速决策的平台。4.4. TOP-N智能展示系统支持按领导人舆情、论坛发帖量及网名发帖量进行TOP-N排名,让管理员直观的判断出当前最应关注的人和事;5. 系统应用u 政府机关:公安厅(局)、宣传部、检察院、新闻办、法院、海关 u 教育机构:教育厅、高校 u 其它:房地产、企业6. 系统配置6.1. 网络带宽根据采集板块的数量不同,要求的网络带宽也有
23、所不同;300个板块以内建议至少5M,300-5000个板块建议在10M-15M;5000-10000个板块建议在15M-20M之间;另外,带宽与多线程访问有关系,如果带宽大则可以调整线程个数,支持信息的更新快,如果带宽小则调小线程数据量,信息更新相对较慢;6.2. 运行环境6.2.1网络爬虫服务器推荐配置一台网络爬虫服务器支持采集500个板块的信息,因此爬虫服务器配置的数量应根据需要采集板块的数量来定,如采集2800个板块需要6台服务器(不能采用一台超高性能的服务器来代理,否则采集周期会加长),爬虫服务器的配置要求如下表所示:配置项描述500个板块CPU双核至强2.13GHZ以上内存4G硬盘
24、146GB操作系统Microsoft Windows 2003 Server Microsoft Windows Server 2008 R26.2.2 WEB管理服务器推荐配置 系统采用一台服务器进行WEB管理,配置由用户数量来定,具体配置如下:访问人数配置项描述300人以内CPU双核至强2.13GHz以上内存4G硬盘250GB 300-3000CPU双核至强2.5GHz以上内存8G硬盘500GB 3000-10000CPU四核至强2.13GHz以上内存8G硬盘1TB 10000-20000CPU四核二路至强2.13GHz以上内存16G硬盘1TB20000以上CPU根据具体情况配置内存根据具
25、体情况配置操作系统Microsoft Windows Server 2003Microsoft Windows Server 2008 R26.2.3 数据库服务器推荐配置系统需一台数据库服务器,其配置根据采集板块的数量来定,建议采用磁盘阵列动态扩充容量,具体配置如下:采集板块数量配置项描述200以内CPU双核至强2.13GHz以上内存4G硬盘1TB 200-1000CPU双核至强2.5GHz以上内存8G硬盘2TB 1000-5000CPU四核至强2.13GHz以上内存8G硬盘3TB 5000-10000CPU四核二路至强2.13GHz以上内存16G硬盘6TB10000以上CPU根据具体情况配置内存根据具体情况配置操作系统Microsoft Windows Server 2003Microsoft Windows Server 2008 R2