《网络数据采集技术概述.ppt》由会员分享,可在线阅读,更多相关《网络数据采集技术概述.ppt(12页珍藏版)》请在三一办公上搜索。
1、网络爬虫简介,爬虫与反爬技术,目录,前言,robots.txt:Robots协议被称为爬虫协议,或机器人协议。是国际互联网界通行的道德规范。User-agent:用于描述搜索引擎robot的名字;Disallow:禁止robot访问该网站的目录或文件;Allow:允许robot访问该网站的目录或文件;sitemap.xml/txt/html/.:Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址。自动生成:更方便地了解一个网站的内容、布局、架构。主动提交:向百度、Google、雅虎、和微软等提交,被搜索引擎收录。,数据采集流程,需求分析:业务类型/方向决定抓取策略和抓取频率。(干什
2、么用)抓取内容:具体需要什么数据/字段。(怎么用)数据来源:数据来源于具体网站或其他。抓取方式:获取数据的方式、网页结构分析、API等。代码实现:自定义或开源爬虫框架。数据清洗:根据业务具体情况转换数据格式、类型,进行数据计算等。数据清洗分为入库前点清洗和入库后点清洗。数据存储:写文件或入库方式,远程数据入库,数据加密等。爬虫任务分发:分布式爬虫、多线程爬虫。反爬策略、日志管理、监控报警等。,网页分析,数据抓取方式网页移动网页移动客户端API网页解析正则XpathBeautiful SoupJson格式解析网页编码,动态页面抓取,JS渲染页面Web kitRender类Ajax请求Iframe
3、Selenium库重定向Status_codeHtml meta 的refreshjs,可视化爬虫,Import.ioPortia八爪鱼集搜客造数BBD,爬虫框架,Scrapy框架:,案例1:58同城-简历中心,url:E7%AE%80%E5%8E%86%E4%B8%AD%E5%BF%83,案例2:阿里巴巴-搜索,url:httpcee4baeec7f8.htmlSet-Cookie_csrf,反爬技术,User_agent判断来源根据IP访问频率判断,封锁IP或者账号验证码识别Pillow库Tesseract库Numpy机器学习根据实际成本制定策略频繁变更网页结构非正常请求提供虚假信息(隐含输入字段或缺失参数),谢谢!,