300字范文 > 使用scrapy +selenium爬取动态渲染的页面

使用scrapy +selenium爬取动态渲染的页面

时间：2022-11-01 08:16:47

背景

在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据，则必须使用selenium创建浏览器对象，然后通过该浏览器对象进行请求发送，获取动态加载的数据值. 本文分享scrapy的介绍和如何配合selenium实现动态网页的爬取.

Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

Scrapy 安装并运行

安装通过pip install Scrapy安装即可, Ubuntu安装需要安装依赖sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zliblg-dev libffi-dev libssl-dev创建项目:scrapy startproject project_name创建爬虫: 进入项目根目录scrapy genspider spider_name sprder_domian目录介绍

project_folder -- 项目文件夹名称||──project_name -- 该项目的python模块，一般和项目文件夹名称相同| || |──spider -- 放置spider代码的包，以后所有的爬虫，都存放在这个里面| || |──items.py -- 用来存放爬虫怕写来的数据的模型| || |──middlewares.py -- 用来存放各种中间件的文件| || |──pipelines.py -- 用来对items里面提取的数据做进一步处理，如保存到本地磁盘等| || |──settings.py -- 本爬虫的一些配置信息(如请求头、多久发送一次请求、ip代理池等)||──scrapy.cfg -- 项目的配置文件

Scrapy 框架模块

Scrapy Engine： Scrapy框架的核心，负责在Spider和Item Pipeline、Downloader、Scheduler中间通信、传输数据等。Spider：发送需要爬取的链接给引擎，最后引擎把其他模块请求回来的数据再发给爬虫，爬虫就去解析想要的数据。这部分是我们开发者自己写的，因为要爬取哪些链接，页面中的哪些数据是我们需要的，都是由程序员自己决定。Scheduler: 复制接收引擎发送过来的请求，并按照一定的方式进行排列和整理，负责调度请求的顺序等。Downloader: 负责接收引擎传过来的下载请求，然后去网络上下载对应的数据在交还给引擎。tem Pipeline: 负责将Spider(爬虫)传递过来的数据进行保存，具体保存在哪里，因该看开发者自己的需求。dwnloader Middlewares: 可以扩展下载器和引擎之间通信功能的中间件。spider Middlewares: 可以扩展引擎和爬虫之间通信功能的中间件。

Scrapy执行流程

Scrapy中的数据流由执行引擎控制，其过程如下：

引擎从Spiders中获取到最初的要爬取的请求（Requests）；引擎安排请求（Requests）到调度器中，并向调度器请求下一个要爬取的请求（Requests）；调度器返回下一个要爬取的请求（Requests）给引擎；引擎将上步中得到的请求（Requests）通过下载器中间件（Downloader Middlewares）发送给下载器（Downloader ）,这个过程中下载器中间件（Downloader Middlewares）中的process_request()函数会被调用到；一旦页面下载完毕,下载器生成一个该页面的Response，并将其通过下载中间件（Downloader Middlewares）发送给引擎，这个过程中下载器中间件（Downloader Middlewares）中的process_response()函数会被调用到；引擎从下载器中得到上步中的Response并通过Spider中间件(Spider Middlewares)发送给Spider处理,这个过程中Spider中间件(Spider Middlewares)中的process_spider_input()函数会被调用到；Spider处理Response并通过Spider中间件(Spider Middlewares)返回爬取到的Item及(跟进的)新的Request给引擎，这个过程中Spider中间件(Spider Middlewares)的process_spider_output()函数会被调用到；引擎将上步中Spider处理的其爬取到的Item给Item 管道（Pipeline），将Spider处理的Request发送给调度器，并向调度器请求可能存在的下一个要爬取的请求（Requests）；(从第二步)重复直到调度器中没有更多的请求（Requests）。

Scrapy架构图

中间件架构

selenium

Selenium有很多东西，但从本质上讲，它是一个 Web 浏览器自动化工具集，它使用可用的最佳技术远程控制浏览器实例并模拟用户与浏览器的交互。它允许用户模拟最终用户执行的常见活动；在字段中输入文本，选择下拉值和复选框，并单击文档中的链接。它还提供了许多其他控件，例如鼠标移动、任意 JavaScript 执行等等。