推荐专题：

300字范文 > Python 网络爬虫与信息获取（二）—— 页面内容提取

Python 网络爬虫与信息获取（二）—— 页面内容提取

时间：2019-02-28 15:19:30

相关推荐

Python 网络爬虫与信息获取（二）—— 页面内容提取

1. 获取超链接

python获取指定网页上所有超链接的方法

links = re.findall(b’”((http|ftp)s?://.*?)”’, html)links = re.findall(b’href=”(.*?)”’)

html 为 url 返回的 html 内容，可通过以下方式获取

html = urllib.request.urlopen(url).read()html = requests.get().text

2. 下载指定文件到指定路径

比如我们要爬取http://courses.cs.vt.edu/~cs2704/fall01/Notes/链接下的所有 pdf 文件：

#coding: UTF-8import requestsfrom urllib import requestimport reimport osurl = 'http://courses.cs.vt.edu/~cs2704/fall01/Notes/'r = requests.get(url)files = re.findall('href="(.*?)"', r.text)for file in files[1:]:request.urlretrieve(os.path.join(url, file), os.path.join('D:/data/', file))

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

python网络爬虫与信息提取北京理工大学_Python网络爬虫与信息提取（一）

2020-05-25

python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取（一）

2022-04-09

python网络信息提取_python网络爬虫与信息提取I

2024-05-20

python网络信息提取_Python网络爬虫与信息提取入门13

2021-10-31

扩展阅读

: Python网络爬虫：一步步指导获取小说的方法

: 学习如何使用网络爬虫技术获取汽车数据的方法

: 如何提取PDF中某几页内容？手把手教你提取PDF页面

: 使用Python+百度OCR文字识别提取图片内容

: Excel文件另类操作如何用Python中xlrd模块获取电子表格的信息

: PDF怎么提取页面？PDF页面提取的简易方法

最近发布

乡村黄昏的宁静与美丽

2024-09-07

写动物的作文300字公鸡

2024-09-07

卡通人物作文300字

2024-09-07

研学作文300字：汇总17篇研究学习经验分享

2024-09-07

颖儿的春天300字作文素材大全

2024-09-07

【推荐】春节小学生作文300字集锦五篇

2024-09-07

推荐专题

童话作文300个字生命300字作文书信范文300字左右守株待兔的故事300字林汉达读后感300字难忘的一件事300字礼物作文300字左右感恩演讲稿300字采蘑菇作文300字有关中秋节作文300字金鱼作文300字关于朋友的作文300字爱国文章300字推荐一本书300字我的兴趣爱好300字