《ROST动态数据抓取和分析工具.ppt》由会员分享,可在线阅读,更多相关《ROST动态数据抓取和分析工具.ppt(11页珍藏版)》请在三一办公上搜索。
1、ROST 微博动态抓取与分析工具,武汉大学互联网科学研究中心2012.3.27,微博数据挖掘分析,数据挖掘,数据分析,自动采集,任务设置,规则配置,获取源码,微博设置,数据导出,数据操作,设置需要自动采集的网站,自动抓取配置,采集配置,保存配置,规则配置,测试配置,根据模式的不同获取源码,实时监控的关键词,突发关键词的添加,根据设置导出数据,设置+情感分析,添加关键词,添加情感词,24,规则配置主界面设置需要自动采集的网站自动采集时间(设置是每天开启自动抓取)是否开始自动采集,25,这个界面的配置都保存在XMLbinDebugTagRules采集模式:模式一(Web Browser);模式二(
2、Response.getHtml);模式三(I Frame)注:采集地址的链接模式:1.开启下一页+设置地址 2.设置地址+”(*)”3.导入URL,26,可选中规则应用规则存放路径:binDebugTagRules,27,这个所做的所有操作都在内存中如果要保存点”保存按钮”起始位置和结束位置(过滤body以外的字符串),28,29,根据选平台、关键词、采集页数生成需要采集的链接 突发关键词设置和添加 关键词添加在“临时关键词”,30,用于登录的(获取Cookie)在没有登录的状态微博平台只给出一页的数据,31,第一种数据导出(没加情感分析)【平台】【时间段】【转发量】【评论量】【关键词】导出数据初步筛选 第二种数据导出(第一种+情感分析),32,没有加情感分析的数据,33,