300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > python3爬取网易云歌单数据清洗_网页抓取网易云音乐及评论数据分析

python3爬取网易云歌单数据清洗_网页抓取网易云音乐及评论数据分析

时间:2019-10-11 17:03:39

相关推荐

python3爬取网易云歌单数据清洗_网页抓取网易云音乐及评论数据分析

网页抓取网易云音乐及评论数据分析

游贤

成都理工大学信息科学与技术学院

【摘

要】

摘要:为了分析网易云音乐中哪些歌曲是热门歌曲,哪些歌曲的评论

最多,从而了解到人们对于不同音乐类型的喜爱程度,采用成熟的

scrapy

爬虫

框架,从歌手信息开始,抓取每个歌手的所有演唱曲目和对应评论信息,最后

对数据进行清洗处理,得出结论。

【期刊名称】

数码世界

【年

(

),

期】

(000)009

【总页数】

1

【关键词】

网页采集

对称加密

1.

思路分析

抓取全站信息一般选择有规律的网页采用广度优先方法,考虑到如果从歌单页

面开始的话,会有很多歌曲重复,因为相同的歌曲可以划分到不同的歌单。因

此最终决定从歌手页面开始,作为种子页面,这样歌曲的重复量会小很多(如

果有多个歌手合唱,那么这首歌会出现在每个歌手的歌曲页面当中,他们的访

问地址是不一样的)

方法一:

http

///discover/artist

页面出发,可以找到所

有的音乐人,

url

http

///discover/artist/cat

id=xxx

1001

1002

1003

2001

2002

6001

6002

6003

7001

7002

7003

4001

4002

4003

。然后我没随便进入其中其一个页面

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。