300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > [爬虫]requests+正则表达式爬取猫眼电影TOP100

[爬虫]requests+正则表达式爬取猫眼电影TOP100

时间:2022-03-30 13:30:24

相关推荐

[爬虫]requests+正则表达式爬取猫眼电影TOP100

你不一定要点蓝字关注我的

前言

本文主要讲述使用python爬取猫眼TOP100榜的电影名称,评分,以及电影图片等,爬取的URL是:/bard/4。

安装类库

pip install requests

分析目标URL

打开/bard/4,观察页面规律。

可以看到页面上链接已经变为/board/4?offset=10,可以看的出来第二页链接新增了offset=10这个参数,这时可以看到排名20到30的电影信息,我们手动更改这个参数,就可以看到TOP100的全部电影信息了。

抓取单个页面

将url=/board/4,传入get_one_page()函数,可以获取目标地址的源代码。

正则解析

打开浏览器调试页面可以发现我们要抓取的所有信息被<dd></dd>标签包含,所以我们只要把<dd></dd>中所有要抓取的信息都用正则表达式匹配出来就可以了。

表达式如下:

排名:<dd>.*?board-index.*?>(.*?)</i>

图片:<dd>.*?board-index.*?>(.*?)</i>.*?src="(.*?)"

电影名称:

<dd>.*?board-index.*?>(.*?)</i>.*?src="(.*?)".*?name.*?a.*?>(.*?)</a>

最后解析全部字段解析如下,同时我们还要对解析出来的数据进行结构化处理:

写入文件

写入文件,我们在上面结构化处理后的文件是构建的字典格式,我们可以通过JSON库,序列化输出到本地文件中。

构建分页链接

因为猫眼的偏移量是10,20,,,100,所以在构建的时候可以构建一个生成式传入到mian()函数当中。代码块如下:

全文代码可以点击原文查看

脚下留心

请求的时候带上header,减小被服务器识别为爬虫的概率,算是反反爬的一种。

写在最后

1、之前写爬虫的时候往往一个函数涵盖全部的功能,之后维护起来自己都想抽自己,之后看了几个大佬的代码之后也学习到函数式编程的好处,把功能写成一个个函数方便之后维护,别人也能看的懂你在写什么。

2、还有就是多加注释,实习的时候实习的师傅告诉我最好在写代码的时候注释的量能占到总的百分20%,虽然并没有写到那么多,但是还是养成写注释的习惯,方便自己方便他人。

扫码关注公众号回复关键词获取相应资料:

回复数字【0】获取价值千元的爬虫学习资料

回复数字【0】获取万元学习资料汇总

回复数字【0】干货满满的python爬虫实战课程

公众号的资料库还在不断更新,关注我们获取更多更新~

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。