《抓站工具用户手册.doc》由会员分享,可在线阅读,更多相关《抓站工具用户手册.doc(70页珍藏版)》请在三一办公上搜索。
1、益众网站信息抓取工具用户手册 目 录1.概述41.1.关于网站抓取工具41.2.特点52.软件安装52.1.安装环境52.1.1.硬件环境52.1.2.软件环境52.2.安装步骤62.2.1.安装JDK 1.5.x62.2.2.安装数据库62.2.3.导入系统数据62.2.4.安装本系统72.2.5.Tomcat启动和停止93.术语104.使用说明114.1.辅助功能124.1.1.登录124.1.2.修改管理员信息124.1.3.系统参数配置124.1.4.入库数据表配置134.1.5.抓取统计144.1.6.查看网页源码144.1.7.软件注册144.2.页面配置144.2.1.增加页面基
2、本信息154.2.2.修改页面基本信息164.2.3.删除页面基本信息164.2.4.URL配置174.2.5.增加正文页URL及定位配置信息174.2.6.修改正文页URL及定位配置信息194.2.7.增加列表页URL配置信息194.2.8.修改列表页URL配置信息214.2.9.URL参数配置214.2.10.增加URL参数214.2.11.修改URL参数224.2.12.删除URL参数234.2.13.设置URL参数值234.2.14.增加URL参数值234.2.15.修改URL参数值244.2.16.删除URL参数值244.2.17.定位信息设置244.2.18.增加列表页定位配置信息
3、254.2.19.修改列表页定位配置信息264.2.20.下级页面配置264.2.21.增加子页面274.2.22.修改子页面284.2.23.删除子页面284.2.24.设置抓取时间284.2.25.抓取304.3.页面解析304.3.1.增加页面解析配置信息304.3.2.修改页面解析配置信息344.3.3.删除页面解析配置信息344.3.4.值替换配置信息344.3.5.增加值替换配置信息354.3.6.修改值替换配置信息354.3.7.删除值替换配置信息354.4.页面入库364.4.1.增加页面入库数据表信息364.4.2.修改页面入库数据表信息374.4.3.删除页面入库数据表信息
4、374.4.4.字段对照值配置信息374.4.5.增加字段对照值384.4.6.修改字段对照值394.4.7.删除字段对照值395.配置样例395.1.登录405.2.入库数据表配置405.3.页面配置405.3.1.页面基本信息配置:415.3.2.URL配置:425.3.3.定位信息配置:435.4.页面解析445.5.下级页面配置465.6.下级页面解析:485.7.入库配置:515.7.1.选定入库数据表515.7.2.字段对照值配置535.8.抓取:556.参考内容566.1.规则表达式566.2.JDBC URL587.服务支持601. 概述1.1. 关于网站抓取工具本工具可以抓取
5、互联网上的任何网页,包括需要登录后才能访问的页面。对抓取到页面内容进行解析,得到结构化的信息,比如:新闻标题、作者、来源、正文等。支持列表页的自动翻页抓取,支持正文页多页合并,支持图片、文件的抓取,可以抓取静态网页,也可以抓取带参数的动态网页,功能极其强大。用户指定要抓取的网站、抓取的网页类型(固定页面、分页显示的页面等等),并配置如何解析数据项(如新闻标题、作者、来源、正文等),系统可以根据配置信息自动实时抓取数据,启动抓取的时间也可以通过配置设定,真正做到“按需抓取,一次配置,永久抓取”。抓来的数据可以保存到数据库中。支持当前主流数据库,包括:Oracle、SQL Server、MySQL
6、等。本工具完全可以替代传统的编辑手工处理信息的模式,能够实时、准确、一天24*60不间断为企业提供最新资讯,真正能为企业降低成本,提高竞争力。系统功能结构图如下图所示:1.2. 特点l 适用范围广,可以抓取任何网页(包括登录后才能访问的网页)l 处理速度快,如果网络畅通,1小时可以抓取、解析10000个网页l 采用独特的重复数据过滤技术,支持增量式数据抓取,可以抓取实时数据,如:股票交易信息、天气预报等l 抓取信息的准确性高,系统提供了强大的数据校验功能,保证了数据的正确性l 支持断点续抓,在当机或出现异常情况后可以恢复抓取,继续后续的抓取工作,提高了系统的抓取效率l 对于列表页,支持翻页,可
7、以抓取到所有列表页中的数据。对于正文页,可以对分页显示的内容自动进行合并;l 支持页面深度抓取,页面间可以一级一级地抓下去。比如,通过列表页抓取到正文页URL,然后再抓取正文页。各级页面可以分别入库;l WEB操作界面,一处安装,随处使用l 分步解析,分步入库l 一次配置,永久抓取,一劳永逸2. 软件安装2.1. 安装环境2.1.1. 硬件环境 机型要求:PC、PC Serve、服务器 最小内存:256MB 最小硬盘空间:1GB2.1.2. 软件环境 操作系统:Windows 2K/XP,Linux、Solaris等Unix系统 数据库:MySQL、SQL Server、Oracle之一 JA
8、VA JDK:1.5及以上版本 Web Server:Tomcat5.0及以上版本 2.2. 安装步骤2.2.1. 安装JDK 1.5.x如果机器上没有JDK 1.5.x的环境,需要安装JDK 1.5.x,推荐安装的版本为1.5.0。JDK为SUN公司推出的JAVA开发包,您可以去网站下载,也可以在我们的网站下载JDK 1.5.0,下载链接:Windows:Linux:安装完毕后,设置环境变量JAVA_HOME,需要设置为JDK的安装目录。例如:Windows下为C:jdk1.5.0,Unix下为/usr/java/jdk1.5.0。2.2.2. 安装数据库如果机器上没有安装数据库,请安装My
9、SQL数据库。您可以去mysql官方网站 4.0.x:Windows:Linux:2.2.3. 导入系统数据数据库脚本文件存放在目录dbscript下。如果使用的数据库为MySQL,需要使用如下两个命令行导入数据:mysql u【用户名】 -p【密码】 db_mysql.sqlmysql u【用户名】 -p【密码】 db_wis help.sql例如:mysql uroot db_mysql.sqlmysql uroot db_wis help.sql即可完成数据库的创建及数据导入工作。2.2.4. 安装本系统把安装包解压到指定目录。Windows系统中,需要把本系统安装在C:webspide
10、r目录下,请确认文件webspider.war存放在C:webspider目录下;Unix系统中,需要把本系统安装在/usr/local/webspider目录下,请请确认文件webspider.war存放在/usr/local/webspider目录下。1)如果已经安装了tomcat5.0及以上版本,可以把本抓站系统集成到已有tomcat中。为了保证程序能正常运行,需要修改tomcat的启动脚本。Windows下修改文件catalina.bat,在文件的前面设置变量JAVA_OPTS,如下所示:set JAVA_OPTS=-agentlib:C:webspiderclassloaderUni
11、x系统下,修改文件catalina.sh,在文件的前面设置变量JAVA_OPTS,如下所示:JAVA_OPTS=-agentpath:/usr/local/webspider/libclassloader.so需要在tomcat的配置文件server.xml中增加一个Context(子项目),需要增加的配置代码如下(样例): driverClassName org.gjt.mm.mysql.Driver url jdbc:mysql:/192.168.0.2:3306/db_wis?autoReconnect=true&useUnicode=true&characterEnco
12、ding=gbk username root password maxIdle 5 maxActive 100 maxWait 5000 2)如果机器上没有安装tomcat,直接使用安装目录下的tomcat。Windows系统下需要修改C:webspidertomcat-5.0.28confserver.xml中的Context配置,Unix系统下需要修改/usr/local/webspider/tomcat-5.0.28/conf/server.xml中的Context配置。如果本系统没有安装在缺省目录下,需要修改中的属性docBase,把其中的路径设置为系统安装到的路径。并且要修改tomc
13、at的启动脚本,在Windows下修改文件catalina.bat,在unix下修改catalina.sh,把变量JAVA_OPTS中的-agentlib设置为正确值。参见本节的1)。和之间为数据库连接池配置。需要修改数据库连接池配置中的driverClassName、url、username和password等参数值,以保证能正常连接数据库。启动tomcat后,在浏览器中键入网址:http:/【目标服务器】/webspider/,例如:http:/locahost:8080/webspider/,进入本抓站系统的登录界面。2.2.5. Tomcat启动和停止1)Windows系统:启动命令:
14、startup.bat停止命令:shutdown.bat为了实现tomcat在开机时自动启动,需要把tomcat加到系统服务中。进入tomcat的bin目录,修改tomcat的service.bat,在语句echo The service %SERVICE_NAME% has been installed.前加上:%EXECUTABLE% /US/%SERVICE_NAME% +JvmOptions -agentlib:C:webspiderclassloader然后执行如下两行命令:service removeservice install重新安装tomcat服务2)Unix系统:启动命令:
15、startup.sh停止命令:shutdown.sh为了实现tomcat在开机时自动启动,需要把tomcat加到操作系统的启动脚本中,例如:Linux的启动脚本文件为/etc/rc.local。在启动脚本中增加一个命令行:【tomcat所在目录】/bin/startup.sh &例如:/usr/local/webspider/tomcat-5.0.28/bin/startup.sh &3. 术语本工具使用的术语如下:l 正文页:只有一条记录的页面,如新闻页、职位信息页面等l 列表页:有多条记录的页面,如新闻列表页,职位列表页等l 页面配置:对于要抓取的页面进行分析配置,找到要获得的数据项的定位
16、l 页面解析:对于页面上的数据项进行解析,得到该数据项l 页面入库:针对解析出的数据项,存放到数据库里l 下级页面:页面URL来自上级页面的网页,也叫做子页面。一个页面得到很多链接,针对每一个链接进行配置得到的页面l 定位信息:能够定位到页面中所需的数据的起始和终止位置(定位字符串)l 规则表达式:处理字符串匹配的一种简便方法,参见“规则表达式”l URL配置:用来配置如何获得要抓取页面的网页地址l URL参数配置:有的页面URL中含有参数,需要进行配置l 网页调用方式:页面请求的方式,包括POST和GET,通常为GET方式。判断一个页面的调用方式可以在页面代码中的“”处查到l 其它页URL获
17、得方式:获得其他页网页地址的方式,有两种方式: 固定模式:遵循某种固定模式,网页地址中可以带参数 动态解析:没有固定的模式,需要分析页面,通过解析获得其他页地址l 参数取值类型:URL参数中参数取值方式,有两种方式: 有序值:遵循某种顺序,包括起始值、循环步长和终止值。例如:顺序递增的信息ID值 离散值:分散的值序列,例如:城市区号、信息分类编码等l 列表页记录:列表页中要获取的每一项被称为一条记录,通常一行数据为一条记录l 规则表达式转义:规则表达式中对于一些特殊字符(如.、?、*等)需要进行转义,因规则表达式配置容易出错,本系统提供自动转义功能l 规则表达式检测:对于写好的规则表达式,进行
18、检测,因规则表达式配置容易出错,本系统提供检测功能4. 使用说明首先介绍一下本软件的使用流程,以下的具体功能说明均按照使用流程一步一步展开。l 登录:进入系统l 入库数据表配置:设置本系统将要使用的数据库和数据表信息l 页面配置页面基本信息配置:要抓取一个网站,首先要配置该网站的基本信息,作为入口URL配置:配置要抓取页面的URL定位信息配置:配置要抓取页面内容的具体定位信息下级页面配置:对于任何页面,都可以根据该页面解析出来的URL,增加子页面,可以深度挖掘想要的信息。l 页面解析页面解析配置:配置要抓取页面内容的具体解析信息值替换:对需要替换的页面数据项信息进行替换设置l 页面入库设定入库
19、数据表:设定该页面要入库的数据表入库字段对照值:设定该页面数据项和数据表字段的对照关系系统使用流程图如下:4.1. 辅助功能辅助功能主要包括登录、修改管理员信息、系统参数配置、入库数据表配置、抓取统计、查看网页源码、软件注册等。4.1.1. 登录进入系统,必须先登录,在浏览器里输入:http:/【服务器IP:端口】/webspider/,例如:http:/localhost:8080/webspider/,显示登录页面,输入管理员用户名、密码后,按“登录”按钮进行登录,登录成功后,进入系统。系统初始密码为:11。进入系统后,请及时在菜单“修改管理员信息”中修改登录密码。4.1.2. 修改管理员
20、信息修改管理员信息包括修改管理员的密码、中文名。4.1.3. 系统参数配置用于修改系统中预设的系统参数,包括同时抓取的网页数、信息抓取日志文件存放路径、网络连接超时等。参数说明如下:参数名称参数说明缺省值spider_count同时抓取的网页数(任务数)。取决于主机性能及网络速度,取值应在1到10之间4spider_log_file_path信息抓取日志文件存放路径。Windows下通常为:C:webspiderlogsLinux下通常为:/usr/local/webspider/logsC:webspiderlogsnetwork_timeout网络连接超时,单位:秒。0表示永不超时。强烈建
21、议不要设置为0,否则可能会导致网页抓取堵塞。60page_charset页面字符集,取值GBK或UTF-8。对于只抓取简体中文的网页,建议设置为GBK;如果抓取的网页中既有中文网页,还有德文网页等其他语种的网页,应设置为UTF-8。GBKhttp_default_charset抓取到的页面的缺省字符集。如果页面配置信息中的页面字符集设置为自动识别且不能自动获得页面字符集时,该页面采用本参数值。GBKhttp_request_header向服务器发送请求时发送的头部信息,格式为:参数名=参数值。一个控制参数一行。accept=*/*accept-language=zh-cncontent-typ
22、e=application/x-www-form-urlencodeduser-agent=Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)cache-control=no-cachehttp_mime_mappingContent-Type和文件后缀名对照信息,格式为:Content-Type=文件后缀名列表,多个文件后缀名之间用西文逗号分隔。一个对照一行。image/gif=gifimage/jpeg=jpg,jpegimage/png=pngapplication/vnd.ms-powerpoint=pptapplication/vnd
23、.ms-excel=xlsapplication/msword=docapplication/x-shockwave-flash=swftext/html=html,htmtext/plain=txtvisual_parse_exclude_tag可视化解析时,定位字符串中不应出现的HTML标记,多个标记之间用西文逗号分隔。A,IFRAMEhttp_proxy_ipaddr代理服务器地址,如果不使用代理服务器,不需要设置。http_proxy_port代理服务器端口,小于等于0表示不使用代理服务器8080http_proxy_username代理服务器用户名http_proxy_passwor
24、d代理服务器用户密码4.1.4. 入库数据表配置入库数据表配置用于配置系统要使用的数据库、数据表信息。包括增加入库数据表、修改入库数据表、删除入库数据表功能。增加入库数据表,包括如下几个输入框:JDBC driver:jdbc驱动类名,例如:com.mysql.jdbc.DriverJDBC url:jdbc连接url,例如:jdbc:mysql:/localhost:3306/test?useUnicode=true&characterEncoding=gbk。JDBC Driver和JDBC Url如何配置,参见“6.2 JDBC配置参考”。用户名:连接数据库使用的用户名密码:数据库用户密
25、码数据表名:指定入库数据表,将抓取到的数据保存到该数据表中。该数据表必须在数据库中存在(事先建立)。入库方式:获取的数据保存到数据库的方式,本系统提供三种方式: insert:插入方式,如果关键字字段值已存在,入库失败 update:只对数据库中已经存在的记录进行更新 replace:对于存在的记录进行更新,不存在的记录进行插入定位记录的字段列表:当入库方式为“update”和“replace”时,必须设定用于定位记录的字段列表,多个字段间使用西文逗号分隔。JDBC Driver、JDBC Url、用户名和密码这四项可以不输入,如果不输入,将使用系统缺省的数据库连接。点击数据表名输入框右侧的“
26、选择数据表”按钮,在新弹出的页面内会列出需要进行入库的数据表名,选中后该数据表名会添加到输入框内,接下来选取入库方式。当入库方式为“update”和“replace”时,必须设定用于定位记录的字段列表,可以点击右侧“选择字段”按钮进行选择,点击“新增”按钮,系统会增加一条入库数据表信息。修改入库数据表,修改已经配置好的入库数据表信息,操作步骤同“增加入库数据表”。删除入库数据表,在入库数据表列表内,选中要删除的入库数据表,点击“删除”按钮即可删除。4.1.5. 抓取统计抓取统计用于查看系统对网站抓取情况的日志、统计信息等。在统计信息列表的“操作”栏中有三项操作:查看日志、查看详细统计信息、抓取
27、。查看日志:可以查看该网站的抓取日志。查看详细统计信息:可以查看该网站及其所有下级页面的详细抓取信息,可以查看最新一次及累计的抓取页面数、成功抓取页面数、成功解析页面数、成功入库页面数。抓取:可以启动该网站的抓取,实时观察抓取情况。4.1.6. 查看网页源码查看网页源码用于查看网站的页面代码,在进行抓取页面配置的过程中,需要打开页面的代码进行分析配置,但是有些网站出于安全考虑,对页面进行安全保护,导致无法获得页面代码,针对这些网站,可以使用本功能获得页面代码。在“网址”项输入要获得代码的URL,例如。点击右侧的“确定”按钮,系统会将整个页面代码写入下方的文本框内,这样就可以进行页面配置了。点击
28、“察看”按钮,可以进入到该页面,进行浏览。4.1.7. 软件注册该工具未注册时,只能使用有限的试用功能,要想正式使用本系统,获得更多的使用功能的话,必须进行软件注册,点击页面上方菜单栏中的“软件注册”链接(如果已经注册了,不会显示该链接),会进入“软件注册”页面,该页面会显示您的机器码,在序列号输入框内正确输入我方提供的序列号后,点击确定后即可进行注册,如果您输入的序列号正确的话,您就可以畅通无阻地使用该工具的强大功能了。4.2. 页面配置“页面配置”用于对要抓取网站的页面进行分析配置,这是进行抓取配置的第一步,主要功能包括增加页面基本信息配置、修改页面基本信息配置,删除页面基本信息配置、页面
29、定位信息配置、URL配置、URL参数配置、页面解析、页面入库、下级页面配置、设置抓取时间、启动抓取、复制页面配置等功能。进入“页面配置”页面有两种方式:l 在任何页面下,点击页面最上方的菜单项中的“页面配置”链接l 在进行页面操作时,如果上方有导航条,点击导航条中“页面配置”链接页面配置页面中,上方的“网站ID”、“网页名称”等输入框中的为查询条件,如果不输入,表示不按该字段检索。各个字段之间是“且”的关系,即:如果指定了多个字段值,只有当这几个条件同时满足时才符合查询条件。可以按“网站ID”、“网页名称”、“网页类型”等字段排序,在排序字段列表中选择一个排序字段即可。排序方式包括:升序和降序
30、。升序表示从小到大的排列顺序,反之则是降序。“是否使用模糊查询方式”只对按“网页名称”查询有效。如果使用模糊查询方式,只要网页名称中包含了输入的关键字,就满足查询条件。不使用模糊查询方式,只有当输入的关键字和网页名称完全相同时才满足查询条件。例如网页名称为“最终页”,输入的查询关键字为“最终”,当使用模糊查询方式时,因为“最终页”中包含“最终”两个字,所以网页名称满足查询条件;如果不使用模糊查询方式,因为“最终页”和“最终”不相等,所以网页名称不满足查询条件。4.2.1. 增加页面基本信息增加页面基本信息是整个页面配置的第一步,是增加一个网站抓取的入口页。点击页面上方的“页面配置”菜单,页面会
31、显示系统已经配置好的网站列表,在列表的上方和下方各有一排按钮,点击其中“新增”按钮,即进入增加页面基本信息页面,这是配置信息抓取的入口页。根据页面提示设定好各输入项,具体输入项设定说明如下:网页名称:该项必须输入,根据需要设定名称,比如:“益众网”。是否登录:如果要抓取的网站需要登录,选择“是”,否则选择“否”,当选取“是”时,下面会出现登录设置输入框,包括登录URL、登录方式、登录成功标志三项,其中“登录URL”项必须设置,设置为登录页面的URL,通常应包含用户名及用户密码,例如:网页类型:有两个选项:正文页和列表页,正文页和列表页解释说明参见“术语”。休眠时间:每抓一个网页休眠的毫秒数,0
32、表示不休眠。该项必须输入。设置休眠时间主要是为了降低服务器的负载,保证其他关键业务的正常运行。输入方式:有两个选项:html和text,表示被解析页面的输入方式,一般情况下都是html输入方式。如果为text(文本)输入方式,将把页面内容转换为纯文本后,再进行页面解析。页面字符集:表示页面文本使用的字符集。有5个选项:简体中文、繁体中文、UTF-8、iso8859_1和自动识别。对于英文网站或国内的网站,通常应设置为简体中文;对于德语网站,通常应设置为iso8859_1。对于UTF-8编码的网页,最好设置为自动识别,其他情况请不要轻易设置为自动识别。是否循环抓取:表示所有页面抓取结束后,是否从
33、头开始抓取,“是”表示重新抓取,“否”表示不重新抓取。只有当入口页的URL设置了1个或多个参数时,本设置才有效。URL保存周期:抓取到的页面URL的保存周期,单位为天。保存网页的URL是为了保证不会重复抓取网页。如果抓取的网页数很多,日积月累,会使保存的URL信息过多而降低系统的处理速度。为了提高系统的性能,应根据实际情况尽可能把URL保存周期设置得小一些。需要注意的是,0表示不保存已处理过的网页URL。不保存已处理过的网页URL,意味着下次抓取时,系统无法判断该URL是否抓取过,因此系统就会尝试抓取。该项必须输入。可接受的网页连续抓取失败次数:抓取网页失败时,继续尝试抓取的页面数。假设其取值
34、为N,如果实际的连续失败次数大于N,则不再继续抓取。一旦成功抓取了一个网页,实际的连续失败次数从零开始重新计数。0表示不尝试抓取,该项必须输入。调试信息显示方式:有四个选项:显示页面解析过程、显示详细调试信息、显示简单调试信息和不显示调试信息。是用来设定系统在抓取该网站时,采用何种方式显示调试信息的。显示调试信息的详细程度按简单到详细排序如下:l 不显示调试信息l 显示简单调试信息:显示正在处理的网页URLl 显示详细调试信息:显示数据项的取值l 显示页面解析过程:显示数据项解析时的输入文本调试信息详细程度高的输出的调试信息包括上级需要输出的所有调试信息。例如,显示详细调试信息包括简单调试信息
35、,显示页面解析过程包括详细调试信息。在抓取设置或调试阶段,应使用“显示详细调试信息”或“显示页面解析过程”或“显示简单调试信息”以便查看抓取结果,在出现问题的情况下,可以准确地定位出问题所在。注意:抓取正常后,为了减少日志文件中的冗余信息,应设置为“不显示调试信息”。是否有效:设定该网页是否生效。“有效”表示系统可以在后台中抓取该网页;“无效”表示系统在后台不抓取该网页。该选项可以随时进行修改,这样可以随时控制某个配置好的网站是否进行抓取。设置好页面各项以后,点击“新增”按钮,如果设置无误,会显示“页面基本信息增加成功”页面,该页面会显示设定的各项内容。点击“完成”按钮,会返回“网站列表”,在
36、列表中会显示出刚才新增加的网站信息,这样完成了抓取一个网站的入口配置。4.2.2. 修改页面基本信息在“网站列表”中右侧“操作”栏中,点击“修改基本信息”链接,会进入“修改页面基本信息”页面,根据需要设置好要修改的项,具体设置方式可参照“增加页面基本信息”,点击“保存”按钮,如果设置正确无误,会进入“修改页面基本信息成功”页面,显示页面设置的内容,点击“完成”按钮,会返回“网站列表”。4.2.3. 删除页面基本信息在“网站列表”中,选中一条记录,点击列表页上方或下方的“删除”按钮,系统会提示确认信息,确定后删除该条页面基本信息记录,如果未选中记录,系统会提示选中要删除的记录。4.2.4. UR
37、L配置完成“增加基本页面信息”后,页面会显示系统已经配置好的网站列表,或者点击页面上方的“页面配置”菜单,进入页面配置网站列表页面,进行URL配置,选中要进行配置的网站,点击列表页上方或下方的“URL配置”按钮,如果未选中要进行配置的网站,系统会提示“请选择要配置URL的页面”,选中后,系统会根据所选中网站的网页类型、是否已经有URL配置信息,进入不同的操作页面:l 网页类型是正文页,未进行URL配置的,进入“增加正文页URL及定位配置信息”页面;已经进行过URL配置的,进入“修改正文页URL及定位配置信息”页面;l 网页类型是列表页,未进行URL配置的,进入“增加列表页URL配置信息”页面;
38、已经进行过URL配置的,进入“修改列表页URL配置信息”页面;4.2.5. 增加正文页URL及定位配置信息当选中网站的网页类型是正文页,且未进行URL配置的,点击“URL配置”按钮进入“增加正文页URL及定位配置信息”页面;按页面提示设置好各项,各项具体说明如下:页面URL:该项必须输入,设定要抓取的正文页的URL地址,比如:页面调用方式:用来设定页面请求的处理方式,有两个选项:POST和GET,通常为GET方式。是否重新抓取:用来设定对于抓取过的页面是否重新抓取。“是”表示重新抓取,“否”表示不重新抓取。是否需要unescape解码:如果页面内容使用javascript escape编码,需
39、要进行unescape解码。这种情况下页面调用javascript的函数unescape解码,为了获得解码后的内容,需要把本项设置为“是”。可接受的页面URL连续重复次数:抓取页面过程中,URL连续重复时,继续尝试的抓取次数。假设其取值为N,如果实际的连续URL重复次数大于N,则不再继续抓取。一旦一个网页的URL不重复,实际的URL连续重复次数从零开始重新计数。本项的缺省值为0,表示碰到已抓取过的网页,就停止抓取。该项必须输入且不小于零。可接受的入库连续失败次数:抓取网页过程中,入库连续失败时,继续尝试的抓取次数。假设其取值为N,如果实际的入库连续失败次数大于N,则不再继续抓取。一旦一个网页成
40、功入库,实际的入库连续失败次数从零开始重新计数。本项的缺省值为0,表示入库一旦失败,就停止抓取。该项必须输入且不小于零。定位到数据项开始的字符串:用于设置能够唯一定位到要抓取的数据项开始的字符串,这样可以保证解析出的页面数据项的准确性,也可以提高抓取效率。可以不设置,表示从页面的起始处开始。格式为:定位字符串,后面的“”为可选项。当没有本可选项时,表示跳过的匹配次数为0。例如:表示跳过2次匹配,第3次匹配到的为起始位置。定位到数据项结束的字符串:用于设置能够唯一定位到要抓取的数据项结束的字符串,这样可以保证解析出的页面数据项的准确性,也可以提高抓取效率。可以不设置,表示数据项一直到页面结束。格
41、式为:定位字符串,后面的“”为可选项。当没有本可选项时,表示跳过的匹配次数为0。例如:表示跳过1次匹配,第2次匹配到的为数据项结束位置。是否分页显示:用于设定该正文页是否有多页。“是”表示分页显示,“否”表示不分页显示。当选择“是”时,页面会显示如何获得下一页URL的配置项,包括以下四项:定位下一页URL开始的字符串:用于设置能够唯一定位到下一页URL开始的字符串,这样可以保证定位到下一页URL的准确性,也可以提高抓取效率。可以不设置,表示从头开始定位。定位下一页URL结束的字符串:用于设置能够唯一定位到下一页URL结束的字符串,这样可以保证定位到下一页URL的准确性,也可以提高抓取效率。可以不设置,表示定位到整个页面结束。定位下一页URL的外围规则表达式:用于设置缩小定位下一页URL范围的规则表达式。关于本处及本手册以下各处的“规则表达式”,参见“术语”说明。该项系统缺省设置为“.*?”,一般情况下都可以解析,如发现特殊情况下一页定位方式不同的话,需调整或重新设定。该项右侧有“转义”和“检测”两个按钮,关于本处及本手册以下各处的“转义”和“检测”,参见“术语”说明。当把页面内的代码拷贝到该输入项时,点击“转义”按钮,系统会自动对输入项进行转义。注意当写好规则表达式后,不要进行转义操作,否则会将规则表达式的内容转义;对于设置完的规则表达式,可以点击“检