300字范文 > 《Python3 网络爬虫开发实战》：parsel 的使用

《Python3 网络爬虫开发实战》：parsel 的使用

时间：2022-06-02 17:05:09

前文我们了解了lxml使用 XPath 和pyquery使用 CSS Selector 来提取页面内容的方法，不论是 XPath 还是 CSS Selector，对于绝大多数的内容提取都足够了，大家可以选择适合自己的库来做内容提取。

不过这时候有人可能会问：我能不能二者穿插使用呀？有时候做内容提取的时候觉得XPath写起来比较方便，有时候觉得 CSS Selector 写起来比较方便，能不能二者结合起来使用呢？答案是可以的。

这里我们就介绍另一个解析库，叫做parsel。

注意：如果你用过Scrapy框架（后文会介绍）的话，你会发现 parsel 的 API 和 Scrapy 选择器的 API 极其相似，这是因为Scrapy的选择器就是基于parsel做了二次封装，因此学会了这个库的用法，后文 Scrapy 选择器的用法就融会贯通了。

1. 介绍

parsel 这个库可以对 HTML 和 XML 进行解析，并支持使用 XPath 和 CSS Selector 对内容进行提取和修改，同时它还融合了正则表达式提取的功能。功能灵活而又强大，同时它也是 Python 最流行爬虫框架 Scrapy 的底层支持。

2. 准备工作

在本节开始之前，请确保已经安装好了 parsel 库，如尚未安装，可以使用 pip3 进行安装即可：

3. 初始化

首先我们还是用上一节的示例 HTML，声明 html 变量如下：

接着，一般我们会用 parsel 的 Selector 这个类来声明一个 Selector 对象，写法如下：

这里我们创建了一个 Selector 对象，传入了 text 参数，内容就是刚才声明的 HTML 字符串，赋值为 selector 变量。

有了 Selector 对象之后，我们可以使用 css 和 xpath 方法分别传入 CSS Selector 和 XPath 进行内容的提取，比如这里我们提取 class 包含 item-0 的节点，写法如下

我们先用 css 方法进行了节点提取，输出了提取结果的长度和内容，xpath 方法也是一样的写法，运行结果如下：

可以看到两个结果都是SelectorList对象，它其实是一个可迭代对象。另外可以用 len 方法获取它的长度，都是 3，提取结果代表的节点其实也是一样的，都是第 1、3、5 个 li 节点，每个节点还是以 Selector 对象的形式返回了，其中每个 Selector 对象的data 属性里面包含了提取节点的 HTML 代码。

不过这里可能大家有个疑问，第一次我们不是用css方法来提取的节点吗？为什么结果中的 Selector 对象还输出了xpath属性而不是css属性呢？这是因为css方法背后，我们传入的 CSS Selector 首先被转成了XPath，XPath才真正被用作节点提取。其中 CSS Selector 转换为 XPath 这个过程是在底层用cssselect这个库实现的，比如.item-0这个 CSS Selector 转换为 XPath 的结果就是 descendant-or-self:😗[@class and contains(concat(’ ', normalize-space(@class), ’ '), ’ item-0 ')]，因此输出的 Selector 对象有了 xpath 属性了。不过这个大家不用担心，这个对提取结果是没有影响的，仅仅是换了一个表示方法而已。

4. 提取文本

好，既然刚才提取的结果是一个可迭代对象SelectorList，那么要获取提取到的所有 li 节点的文本内容就要对结果进行遍历了，写法如下：

这里我们遍历了items 变量，赋值为item，那么这里item又变成了一个 Selector 对象，那么此时我们又可以调用其css或xpath方法进行内容提取了，比如这里我们就用.//text()这个XPath写法提取了当前节点的所有内容，此时如果不再调用其他方法，其返回结果应该依然为 Selector 构成的可迭代对象 SelectorList。SelectorList 有一个 get 方法，get 方法可以将 SelectorList 包含的 Selector 对象中的内容提取出来。

这里 get 方法的作用是从 SelectorList 里面提取第一个 Selector 对象，然后输出其中的结果。

我们再看一个实例：

其实这里我们使用 //li[contains(@class, “item-0”)]//text() 选取了所有 class 包含 item-0 的 li 节点的文本内容。应该来说，返回结果 SelectorList 应该对应三个 li 对象，而这里 get 方法仅仅返回了第一个 li 对象的文本内容，因为其实它会只提取第一个 Selector 对象的结果。

那有没有能提取所有 Selector 的对应内容的方法呢？有，那就是 getall 方法。

所以如果要提取所有对应的 li 节点的文本内容的话，写法可以改写为如下内容：

这时候，我们就能得到列表类型结果了，和 Selector 对象是一一对应的。

因此，如果要提取 SelectorList 里面对应的结果，可以使用 get 或 getall 方法，前者会获取第一个 Selector 对象里面的内容，后者会依次获取每个 Selector 对象对应的结果。

另外上述案例中，xpath 方法改写成 css 方法，可以这么实现：

这里 ***** 用来提取所有子节点（包括纯文本节点），提取文本需要再加上**::text**，最终的运行结果是一样的。

到这里我们就简单了解了文本提取的方法。

5. 提取属性

刚才我们演示了 HTML 中文本的提取，直接在 XPath 中加入 //text() 即可，那提取属性怎么做呢？类似的方式，也直接在 XPath 或者 CSS Selector 中表示出来就好了。

比如我们提取第三个 li 节点内部的 a 节点的 href 属性，写法如下：

这里我们实现了两种写法，分别用css和xpath方法实现。我们根据同时包含 item-0 和 active 这两个 class 为依据来选取第三个 li 节点，然后进一步选取了里面的 a 节点，对于 CSS Selector，选取属性需要加::attr()并传入对应的属性名称来选取，对于 XPath，直接用/@再加属性名称即可选取。最后统一用get 方法提取结果即可。

结果就出来了