《如何采集各大招网站的招投信息.docx》由会员分享,可在线阅读,更多相关《如何采集各大招网站的招投信息.docx(6页珍藏版)》请在三一办公上搜索。
1、如何采集各大招网站的招投信息如何监控并采集各大招标网站的招标信息 在网上听很多做招投标网站的朋友说,每天都是有大量的招标信息需要整理,工作量大到惊人,而且最重要效率还是不高,在这里,笔者准备做一个关于采集招投标网站信息的一个教程,此教程里面的方法可以采集目前网络上大部分招投标网站。 此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容易,不需要专业基础,新手首选。且功能特别强悍复杂,只要是浏览器能看到的内容,都可以用熊猫批量的采集下来。如各种电话号码邮箱,各种网站信息搬家,网络信息监控、网络舆情监测、股票资讯实时监控等等。 熊猫采集器是唯一拥有正文自动解析功能功能的采集软
2、件,对于本案例涉及到的招投标的信息获取,利用这个功能,会节省很大一部分的时间,从而我们的工作效率就会变的更高。这里我们首先以一个get翻页的招投标网站作为例子,后面再讲一个针对post翻页的招投网站的例子,基本上所有网站所使用的方式都是这两种之一了,第一个例子用的是江苏招标网,第二例子用的是四川省公共资源交易服务中心的里面的招标信息。 有需要的看官可以去百度收索一个熊猫采集软件下载即可。熊猫的免费版就包含实现本演示示例的所需要的全部功能。 好了,下面进入我们的采集环节吧! 首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目 这个时候是进入我们的基础设置,在这里,我们可以给我们
3、创建的项目命名一个名称已方便我们以后好区分我们之前设置过的项目,当然,我们不设置也是可以的,因为我这里是采集招投标的信息,我就去了一个招标采集的名称。 点击下一步设置,进入标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。我们采集江苏招标网的时候进入招标信息,里面就是我们要的标题列表页。 下面我们将这个标题列表页的网址拷贝到我们的软件中来 点击开始进行预分析的按钮,会出现下图的提示 如果我们需要翻页采集,那么选择是即可,不要则选择否即可。我这里并不是说只采集一页,所以我选择的是,这个主要根据你们的
4、实际情况来决定。下面post的翻页的案例,我们会通过选择否去进行操作 点击下一步设置,进入选择内容页的设置,随便选择一个我们要采集的链接,会发现右边我们要采集的链接全部被红框框选起来了。那么这里我们就不要进行调整,直接再次下一步设置 来到内容页面模板管理,这里我会用到我刚刚说的熊猫正文自动解析功能,也就是方式2,由系统为我们自动自动分离出标题和正文,如图所示: 这样,一个普通的get翻页的招标网站就设置完成了。如果看官我们想通过方式1设置内容的采集,那也是很简单的,这里我就不详细说了,下面的另一个例子我就用方式一来设置内容的采集。这里我们点击保存,确认出来查看结果就可以了。 通过结果可以看出,
5、改网站上面的招标信息已经被我们采集下来了。以后对改网站实行招标监控只需要将我们的软件定个时间运行即可,是不是感觉很好用而且设置还很简单? 好了,下面笔者再演示一个post翻页的招标信息网站,希望可以帮助到大家 前面的两步我们直接跳过,直接进入到标题列表及翻页设置的环节。普通的标题列表页我们在翻页的时候,网址是有会有翻页参数在变化的,而我们的以post提交的翻页网址是不会有任何变化,如下图的我们要演示招标网站: 可以发现,第二页和第三页网址是一模一样的,后面的的页数网址其实都是一样的,这种情况,在网站中实现这种效果可能有两种可能,一直是框架页面,它把真实的翻页网址给隐藏了,只要我们找到真实的网址
6、,利用真实网址采集即可。还有一种就是post翻页了,这个时候我们就需要用抓包工具来分析一下是post的还是框架了,当然,这里我们讲的肯定是post翻页了,所以在进入我们标题列表的设置时候,需要进行一个抓包工作,现在的浏览器大部分都是自带一个抓包工作的,你可以在你的浏览器空白处右击一下,会出来一个小界面,点击里面的审查元素,如下图: 点击一下: 到这里,我们就来看看我们的列表页是如何翻页了,先点击第二页,发现如下图所示: 我们看到一个post,说明了这个网页是post的翻页的,我们点击打开看看里面的参数 将我们的响应网址拷贝到熊猫中去,由于是post的翻页,所以我们在分析的时候要用post的方式
7、: 点击开始分析: 如果选择的是,系统会将post提交的参数默认提供给我们,但是有时候未必会准备,所以我们以抓包的参数以及参数值为准,只需将参数值粘贴复制到熊猫中即可,选择否的话那么所有的参数我们就复制粘贴进去即可 仔细将上面的参数和你抓包的参数进行对比,最好和抓包的一样,不多不少。否则可能出现我们不想要的结果。下面我们在post翻页里面进行翻页处理。 在我们上图翻页参数框填写一个3,点击post参数验证,看右侧是什么效果,如下图: 可以看出,这样就变成第三页了,所以我们这个参数是翻页的参数,下面就将这个参数设置为动态的就可以进行我们的翻页采集了:如下图 如果你想采集更多的页数,只需要把目标值
8、调的更大一些即可,到这里,我们就可以点击下一步设置了,进入到我们选择内容的页的设置,这里的内容页和上面的内容页一样,不需要进行任何微调,我们自己绕过就可以了。 直接来到我们的内容页面模板管理,系统默认会把我们在上一步选中的链接作为模板,这地方也可以自己选择一个链接作为模板,然后把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板即可 点击添加新模板之后会弹出一个设置模板的新窗口。点击软件右上方的开始分析,稍等片刻之后软件会询问你是否需要软件自动提取标题正文,一般情况下我们在这里都会选择否,如果你是采集新闻类的内容,这个地方你也可以选择是,也可以选择否,如图 之后我们会发现左边款里面会出现很
9、多我们在网页中能看见的内容,这个时候我们需要什么就勾选上采集该项即可。 采集到这里的时候,也行我们会发现,正文内容不是一行就可以选中的,正文分成了很多行,这个时候就需要用到熊猫的复合语句了,选择正文的开始,用一个字段保存起来。在找到正文的结束,用和保存正文开始相同的字段保存起来 在找到正文的结束: 到此,我们的采集就已经完成了,下面我们要做的就是保存我们的设置后,运行就可以得到我们想要的结果啦。 当然我们这里也可以直接用熊猫独有的正文自动解析功能,也就是方式2进行采集,那样会更加简单。这个读者可以根据自己的实际情况来进行选择, 下面我们点击确认来到我们的运行界面,测试我们的设置是否成功 可以看
10、出,招标信息已经被我们采集下来。 通过熊猫采集软件,我们可以做到信息的大批量获取,极大的简化了我们网站管理人员的工作,而且效率还极高,有兴趣的看官们可以去官网下载该软件进行使用。 补充: 对过滤有兴趣的看官们可以看看。 有些朋友会说道,信息采集了很多,但是部分信息我们并不想要,这个时候我们通过熊猫该怎么讲不需要的信息不采集呢?就比如说某个时间段意外的信息我们不想要了,怎么设置不采集呢?这个其实也很简单,只要通过熊猫的很简单一个功能就可以实现! 首先,右击我们已经设置好的项目,点击项目高级设置,如图 进入项目高级设置之后,点击过滤 然后新增一个过滤规则,设置我们想要设置的时间段,如图: 这样,我们就可以轻松的控制时间了,当然,有些朋友会说某些信息有这个关键词才是我们需要的,那么我们的过滤放假选择字词匹配即可.