推荐专题：

300字范文 > python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理

python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理

时间：2024-03-18 11:21:12

相关推荐

python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理

前言

对于爬虫很不陌生，而爬虫最为经典的案例就是爬取豆瓣上面的电影数据了，今天小编就介绍一下如果爬取豆瓣上面电影影评，以《我不是药神》为例。

基本环境配置

版本：Python3.6

相关模块：

（1）requests：用来简单数据请求。

（2）lxml：比BeautiSoup更快更强的解析库。

（3）pandas：数据处理神器。

（4）time：设置爬虫访问间隔。

（5）random：生成随机数，配合time使用。

（6）tqdm：显示程序运行进度。

以上模块如果你没有安装可以在cmd命令提示符里进行pip install + 模块名进行安装。

主要思路步骤

1、打开豆瓣电影《我不是药神》的短评网页，右键检查或者按F12，然后选择用户名和评论就会显示出对应的代码部分

正在上传...取消

2、通过requests模块发送一个get请求，并以utf-8重新编码；

3、添加一个交互，判断是否成功获取到资源（状态码为200），输出获取状态。

对于爬取下来《我不是药神》的短评内容，我们用lxml来进行解析。在步骤1中找到对应部分的代码，然后右键选择Copy，再选择Copy XPath，就能获取其路径了。

注意：

爬取下来的短评首尾可能有多余的空格，我们就需要使用字符串中的strip()方法来去掉这些多余的空格。

4、获取到数据之后，我们通过list构造dictionary，然后通过dictionary构造dataframe，并通过pandas模块将数据输出为csv文件

实现代码

运行结果

正在上传...取消

当然了，如果你想要用这些数据做成词云图，进行数据展示也是可以的。

词云实现代码

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

python爬取豆瓣电影并分析_爬取豆瓣电影top250提取电影分类进行数据分析

2022-08-09

Python：豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣数据处理过程数据分析

2018-08-23

python爬取豆瓣影评生成词云的课程设计报告_简单爬取《小丑》电影豆瓣短评生成词云...

2019-02-24

python爬虫-爬取爱情公寓电影()豆瓣短评并数据分析

2020-03-27

扩展阅读

: 一次简单完整的Python数据分析让我们不再害怕Python!

: 数学不好英语不好非本专业想学Python数据分析能安排吗？

: Python大数据分析疫情：如何实现实时数据爬取及Matplotlib可视化

: 数据处理与分析求职简历表格

: 数据处理与分析相关空白表格

: 自动气象站故障应急措施及异常数据分析处理论文

最近发布

乡村黄昏的宁静与美丽

2024-09-07

写动物的作文300字公鸡

2024-09-07

卡通人物作文300字

2024-09-07

研学作文300字：汇总17篇研究学习经验分享

2024-09-07

颖儿的春天300字作文素材大全

2024-09-07

【推荐】春节小学生作文300字集锦五篇

2024-09-07

推荐专题

共青团心得体会300字我的新老师作文300字励志作文300字开心的作文300字坚强的我作文300字唐山大地震观后感300字星期天的日记300字记人作文300字燕园树寻读后感300字观察苹果作文300字写小动物作文300字爱迪生作文300字左右续写孔乙己300字长妈妈买山海经的过程300字 20年后回母校300字