300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > Python 网络爬虫与信息获取(二)—— 页面内容提取

Python 网络爬虫与信息获取(二)—— 页面内容提取

时间:2019-02-28 15:19:30

相关推荐

Python 网络爬虫与信息获取(二)—— 页面内容提取

1. 获取超链接

python获取指定网页上所有超链接的方法

links = re.findall(b’”((http|ftp)s?://.*?)”’, html)links = re.findall(b’href=”(.*?)”’)

html 为 url 返回的 html 内容,可通过以下方式获取

html = urllib.request.urlopen(url).read()html = requests.get().text

2. 下载指定文件到指定路径

比如我们要爬取http://courses.cs.vt.edu/~cs2704/fall01/Notes/链接下的所有 pdf 文件:

#coding: UTF-8import requestsfrom urllib import requestimport reimport osurl = 'http://courses.cs.vt.edu/~cs2704/fall01/Notes/'r = requests.get(url)files = re.findall('href="(.*?)"', r.text)for file in files[1:]:request.urlretrieve(os.path.join(url, file), os.path.join('D:/data/', file))

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。