Python爬虫获取某个网页所有的a标签中的超链接网址
安装BeautifulSoup
管理员身份运行命令行,然后命令行中输入以下命令:
pip install beautifulsoup4
爬虫核心代码如下:
# -*- coding:utf-8 -*-
# python 3.7
#引入系统类库
import sys
# 使用文档解析类库
from bs4 import BeautifulSoup
# 使用网络请求类库
import urllib.request
# 输入网址
html_doc = "/"
if len(sys.argv)>1:
website=sys.argv[1]
if(website is not None):
html_doc= sys.argv[1]
# 获取请求
req = urllib.request.Request(html_doc)
# 打开页面
webpage = urllib.request.urlopen(req)
# 读取页面内容
html = webpage.read()
# 解析成文档对象
soup = BeautifulSoup(html, html.parser) #文档对象
# 非法URL 1
invalidLink1=#
# 非法URL 2
invalidLink2=javascript:void(0)
# 集合