基于web的可视化定向信息采集系统用户手册.doc

资源描述

《基于web的可视化定向信息采集系统用户手册.doc》由会员分享，可在线阅读，更多相关《基于web的可视化定向信息采集系统用户手册.doc（15页珍藏版）》请在三一办公上搜索。

1、基于web的可视化定向信息采集系统用户手册1引言21.1编写目的21.2背景21.3定义21.4参考资料21.5系统介绍21.6系统应用领域：31.7软件特点31.8系统配置要求32用途42.1功能42.2性能52.3安全保密63运行环境63.1硬设备63.2支持软件63.3数据结构64.使用说明64.1登录与注册64.2主界面74.2.1任务定制84.2.2采集104.2.3频道管理104.2.4自动采集124.2.5错误处理131引言1.1编写目的本用户手册描述了基于WEB的可视化定向信息采集系统的详细使用说明，包括主要的操作概述和指南，为帮助首次使用这个系统的操作者能迅速掌握并使用这个系

2、统。1.2背景互联网上信息种类繁多，瞬间万变，给人们扩大获取信息来源的同时，也带来了利用互联网上的信息麻烦。我们需不断地手工刷新目标网站的信息，而且对于一些网站信息变化速度快的网站，我们经常得不到我们感兴趣的信息，就需要通过目标网站提供的站内搜索或互联网搜索引擎去获取。而且在需要将多个目标网站的信息每天自动整合到自己的网站，或用于内部人员使用时，就需要投入大量的人力与物力用于信息采集。而基于WEB的可视化定向信息采集系统可以满足这些需要。信息采集是指利用计算机软件技术，针对定制的目标数据源，实时进行信息监测、挖掘、处理，从而为各种信息服务系统提供数据输入的整个过程。该系统即基于web的可视化

3、定向信息采集系统就是针对当前大多数C/S架构的信息采集软件在安装和采集设置方面参数过于复杂，无法面向大多数非专业用户的缺点而开发的一款B/S架构的可视化的信息采集系统，这是可视化定向采集技术在B/S方向的首次应用。1.3定义Htmlparser: 网页抓取与解析的辅助java开源工具包Informationcollection: 信息采集1.4参考资料技术文档：Java 2 核心技术，Java API，Htmlparser API需求和设计文档：科研信息采集系统需求说明执行文档：科研信息采集开发计划开发手册：科研信息采集系统开发手册1.5系统介绍基于WEB的可视化定向信息采集系统是一款B/S架

4、构的数据定向数据采集软件，定向采集于搜索引擎相比，使得采集对象可以直接面向区域，突破了一般搜索引擎只能根据内容进行搜索的限制，使得用户可以及时获取相关网站特定的数据服务于自己的工作和生活。该系统于当前定向数据采集系统比较，特点在于无需下载就可使用，自动采集，实时跟踪。可视化定向采集技术首次应用使得采集过程可见方便，只需经过输入网址、定位、确认三个步骤后就享受方便及时准确的信息服务。1.6系统应用领域1、搜索引擎与垂直搜索2、综合门户与行业门户3、电子政务与电子商务4、知识管理与知识共享5、企业竞争情报系统6、BI商业智能系统7、信息咨询与信息增值8、信息安全和信息监控1.7软件特点可视化的数

5、据采集方案，该方案建立在可视化信息采集技术的基础上。重要的特点在于方案能够对网络环境进行良好的解析，并且完成可视化封装工作，使得用户可以任意地定位自己的采集目标和内容。并且此方案使得采集参数设置极为简单，使得该系统可以直接面对大众，让非专业人士享受到定向数据采集带来高效及时的信息服务的好处。1.8系统配置要求需要Windows NT4/ Windows 2003 Server 或更新的操作系统。需要 Microsoft SQL Server 7/ 2000或其它JDBC接口硬件平台：intel xeon 1G 以上CPU，1000M 以上RAM，硬盘空间40GM 以上2用途2.1功能该系

6、统的整个采集过程可观，可控，步骤简洁。用户无需下载，无需配置过多的网络参数便可轻松完成定向数据采集、入库、浏览等工作。同时系统可以实时监测目标网站，在一次采集成功后，实现自动跟踪采集。可视化定向采集技术在网络参数自动优化获取，数据环境解析，数据定位方面现出色，这是因为这点，使得网络数据采集系统面向大众群体成为可能。用户无需了解专业的参数也可以轻松跟踪获取自己想要的内容。该系统将为大众群体的工作，生活提供及时，高效，方便的信息数据采集服务。1) 配置简单，支持关键字采集在对网站新闻内容进行采集时，用户只需输入正确的网址，系统即会对网页相关内容进行分块，用户通过自己的点击选择即可采集自己想要的内容

7、。同时支持关键字采集，在提交参数时如果输入关键字则系统会提取出只含有关键字信息的新闻信息。分块定位后示意图如图2-1-1所示：图2-1-1 分块定位示意图2) 所采即所得，所采即可见在用户输入一确定的网站后，系统即可根据网站的栏目对该网站进行智能的分块，一般而言，分块后所见的泛黄区域都是可采集的区域，采集后即可存入服务器数据库，使用户得到想要的信息。如图2-1-2所示：图2-1-2 采集示意图3) 增量采集与自动更新增加采集：对于初次采集目标网站，软件支持完全采集；而对于已采集过的站点支持增量采集。支持自动更新：自动检测站点是否发生更新，并不会遗漏任何一个重要的信息。4) 支持多种编码支持多

8、种网站的信息的编码，GBK、BIG5、UNICODE、UTF8等等，并且无需用户手动填写，系统可以自己识别出网站的编码格式。5) 支持阅读模板对采集到的科研新闻信息，系统将提供一款阅读模板以方便用户的阅读。6) 支持附件采集包括图片附件采集、文档附件采集等，附件与正文自动映射与关联。文档中出现的附近可由用户自行选择是否下载。阅读的模板和附件的采集如图所示：图2-1-3 阅读模板和附件示意图7) 多线程、多任务2.2性能l 支持多线程采集。l 单机在数据采集在G级以上。l 数据与数据源同步更新小于10秒级。2.3安全保密设置了用户登录的模式使用系统，从而他人无法轻易获取用户采集到的信息。该系统将

9、检测当前数据访问者是否是该数据的拥有者，如果不是，系统将提示用户还未登录。 3运行环境3.1硬设备处理机型号：Intel(R) Xeon(TM) CPU 3.20GHz内存：3GBI/O设备：联机状态3.2支持软件1) 服务器操作系统：Window server 20032) 开发语言：java 3) 开发平台：MyEclipse4) 开发使用数据库：MySQL3.3数据结构数据库：MySQLJava开源工具jar包：htmlparser4.使用说明4.1登录与注册系统访问的网址为：http:/222.192.79.218/inf_test/index.jsp 用户在浏览器中输入网址后即可进入

10、登陆界面，登陆页面如图4-1-1所示：图4-1-1 用户输入正确的用户名后即可使用本系统，首次使用本系统的用户需要进行注册，单击右侧的“立即注册”即可进入注册界面。在注册页面中红色*号为必填选项，如图4-1-2所示：图4-1-2 注册页面注册成功后，系统会自动分配一个ID号给用户登陆系统，请记住此ID号，如图4-1-3所示：图4-1-3在登陆界面输入正确的ID号和密码即可进入系统主界面。4.2主界面首次登陆系统时，显示给用户的界面如图4-2-1所示：图4-2-1左边一栏是用户自定义的所有频道的名称，这将在以后用户使用过程中由用户自行添加。右上角是采集、任务定制、频道管理和退出，这几项的功能是用

11、于信息的采集、相应的任务定制、频道的管理及系统退出。用户界面的中间是采集到的信息，包含的内容有：标题（新闻题目）、时间（新闻更新时间或采集时间）、原文（原文的链接）及所属频道。4.2.1任务定制根据所采即所得，所采即可见的原则，在首次信息采集时，用户需要到目标网站上采集信息，步骤如下所示：单击任务定制，进入信息采集面板，如图4-2-2所示：图4-2-2自定义频道分类：将用户频道进行分类，方便用户进行管理。您自定义的频道：将采集的新闻放入自定义的频道，该频道将在主界面中所有频道一栏中显示您想锁定的网址：采集的目标网站（网址要写完整）您想锁定的栏目：采集网站中的某一块栏目，如通知公告，如果不填，系

12、统在采集时将对整个网页进行解析。您想采集的主题：就是采集新闻的关键字，以“-”作为分隔符，如：“新闻-项目”，“*”为任意主题，系统默认的关键字为“基金-项目-申请-标书-科研-立项-招标-专项-申报-启动-评奖-公告-公式-通知-评审-选题-课题-专题-公布”采集条数：采集目标栏目的前N条新闻，注意不是采集多少条新闻，可不填，不填默认是前10 条新闻频道自动采集：选择“是”则该频道在进入系统后自动进行信息采集。举例：自定义频道分类：通知您自定义的频道：江苏教育您想锁定的网址：您想锁定的栏目：通知公告您想采集的主题：通知采集条数：10频道自动采集：是然后点击“提交采集参数”按钮，进入目标页面，

13、如图4-2-3所示：图4-2-3单击想采集的栏目，进入“确认”页面，如图4-2-4所示：图4-2-4在“确认”页面中列出了所有关键字为通知的新闻，选“否”则不采集；选“是”则进行采集，进入主界面。此时主界面如图4-2-5所示：图4-2-5标题排序：在所有频道中标题的排序是根据新闻入库的顺序进行倒序排序，即最新采集到的信息是排在最上面；而在同一频道中，标题的排序是根据时间逆序来排序，即最新的新闻是排在最上面的。4.2.2采集为了提高采集的效率，减少用户的等待时间，在开发时采取了标题采集和正文采集分开的方法。用户采集信息时，首先采集到新闻的标题，点击某一标题时，进行该标题的正文采集。点击某一标题后

14、，进入阅读模板如图4-2-6所示：图4-2-6新闻右上角和右下角分别有“返回主界面”、“返回”字样，单击可返回到“信息面板”主界面。征正文下方还有原文链接，点击可进入源网页。另有附件个数提醒，用户要查看附件，可进入源网页查看。4.2.3频道管理首次登陆系统进入频道管理界面，如图4-2-7所示：图4-2-7其中单击“添加采集来源信息”，可以进入信息采集面板进行任务的定制。单击“返回采集面板”，可以返回到“信息面板”主界面，如图4-2-8所示：图4-2-8在用户已经进行存有频道时，进入频道管理界面就如图4-2-9所示：图4-2-9如上图所示，在左侧居中显示的是顶级频道，居右侧或泛黄显示的是顶级频

15、道下相应的子频道，提出顶级频道和子频道是为了方便用户对自己输入的信息进行方便的管理；图片右侧是对频道和采集来源信息进行管理（修改、删除等）。一、频道的修改如图4-2-10所示：图4-2-10频道名称对应的是子频道，频道的分类对应的是顶级频道的名称，位于顶级频道后面的单选框如果不选，意味着在修改顶级频道名时仅修改顶级频道的名称，若选中了此单选框则表示将现有的子频道放入另一顶级频道中，而原有的顶级频道依然存在。二、采集来源信息的修改选择频道管理界面右侧“修改”字样，界面跳转回任务定制时的界面，但在文本框内保持现有采集来源的信息，这样即可对用户原先采集的信息来源的信息进行修改，用户可根据自己的需要重

16、新填写参数按照采集的步骤重新进行采集，系统如果检测到用户修改的仅仅是网站的名称，采集的关键字而非采集的栏目、网址等则无需对原网址进行重新解析，可立即采集用户所需新内容或不采集。界面如图4-2-11所示：图4-2-11用户在单击“修改”后即可出现上图所示界面进行修改。4.2.4自动采集自动采集，是系统频道去目标网站自动进行采集的功能。用户在登录自己的主界面后，系统就会对频道进行自动采集，使得呈现在用户面前的数据信息是最新的，这样即可保持采集信息的及时性，有效的避免了漏采现象的发生。任务定制时，用户可以选择是否设置频道为“自动采集”，如果频道设置为自动采集，当用户进入系统后，相应频道就会自动到目标

17、网站采集信息。用户可以到“频道管理”界面修改频道的自动采集属性。如果自动采集到新的新闻信息，则将在主界面的频道栏目中显示有几条新增信息。如图4-2-12所示：图4-2-12新的新闻信息将在标题后面标注“new”，以提醒用户。在用户产看某一信息后，“new”消失。如图4-2-13所示：图4-2-134.2.5错误处理当用户进行任务定制时，如果网站采集过程中产生错误，系统将默认跳转到错误界面，如图4-2-14所示：图4-2-14此时将显示如下错误信息，如图4-2-15所示：图4-2-14针对网站采集过程中产生的错误，我们推荐您使用自定义标签采集功能（此时点击点此返回定制页面，将在定制页面默认显示自定义标签采集功能），如图4-2-15，4-2-16所示：图4-2-14图4-2-15自定义标签采集功能是我们为您提供的专业采集过滤器，可以允许您输入一种或两种Html标签进行针对性采集，若为两种请用-隔开，例如输入“table-div”，可采集到目标网站解析后的与标签及其内容的集合；输入“img”，可解析得到目标网站所有的图片内容，如图4-2-17所示：因此可有助于您避免网站采集过程中的系统错误。

展开阅读全文