使用正则表达式爬取图片
网站 https://yande.re/post?page=63&tags=feet
步骤
1 获取url
2 使用正则表达式获取匹配结果的列表
3 命名下载
html.text返回的是Unicode型的数据。
html.content返回的是二进制的数据。
也就是说如果想要提取文本则使用text
但是如果想要提取图片、文件,就要用到 content
第一步打开网站并以uft-8的方式编码
import requestshtml = requests.get(url)html.encoding='utf-8'
第二步使用正则表达式获取返回的匹配列表
import rereg = r'正则表达式'compile = pile(reg)#实例化匹配对象list = compile.findall(html.text)#获取匹配结果
第三步指定文件夹下载
import osnum = 0for url in list:num = num+1name = str(num)+'.png'path = os.path.abspath('.')+'//文件夹'#(绝对路径)#下载with open(path+'//'+name,'wb') as f:f.write(html.content)``