300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > python爬取京东商品数据要先登录_京东商品评论情感分析|文本数据预处理

python爬取京东商品数据要先登录_京东商品评论情感分析|文本数据预处理

时间:2023-01-18 10:04:43

相关推荐

python爬取京东商品数据要先登录_京东商品评论情感分析|文本数据预处理

本文爬取了十款热销手机的文本评论数据后,首先对文本评论数据做文本预处理,文本评论数据中存在大量的无价值信息,引入无用的文本数据,对其作情感分析,显然没有价值,得出的文本挖掘结果也不尽人意。所以对于文本评论数据先进行文本预处理是必不可少的一步,把大量的、冗余的、无价值的信息去除,可以极大提高文本数据的质量,精确文本分析结果。

1文本去重

1.1文本去重的原因

文本数据预处理时,首先应去除文本评论数据中反复出现的语句部分,当消费者长时间无评论时,系统会默认好评,分析这类重复内容无意义,且大量重复出现这种无价值的评论,应该去除。在商品评论中,有时还会出现人为的复制粘贴别人的评论,显然,这种复制粘贴的评论信息会对于我们的文本处理产生影响,若不处理,会对于评论结果产生影响,影响结果的准确性。

1.2文本去重算法的缺陷

Simhash算法、编辑距离去重算法等常用于文本去重中,通过计算文本相似度来文本去重存在问题。比如,编辑距离算法就存在着很大缺陷,计算两条语句编辑距离的阈值,当阈值小于某个范围则去重,这种方法对于文本数据不能完全去重,而只是去除接近重复语句段落的评论数据。

1.3文本去重选用的方法及原因

编辑距离算法会去除有用的评论数据,此时需要提出一些其他的文本去重方法,用来改进该算法。语料相近也会存在一些有价值的信息,不能完全去除这部分信息,所以,处理完全重复的语料以保留更多有用的信息。比较删除法通过比较两两重复的语句来去除完全重复的语句,实现文本去重,保留更多有用信息的目的。 本文使用比较删除法对文本评论数据做去除重复文本的处理,比较删除法可以有效的对于文本重复部分进行处理,这种方法的文本去重效果明显,并且,在实际应用中,操作简单,常用于自然语言处理过程中,针对两种完全相同的文本评论数据,通过比较删除法,可以保留更多相似的文本数据,去重效果鲜明,通过比较删除法,处理无效的文本评论数据如下表所示:

2 机械压缩去词

2.1机械压缩去词思想

比较删除法去除了完全重复、无意义的文本数据。但是不同品牌的手机有不同的评价内容,很多评论信息都是冗余的、无实际意义的,文本去重的初步处理不能完全去重,评论数据中有些语句显得重复、啰嗦,例如:“挺好挺好挺好挺好挺好挺好挺好”这是一类重复、连续毫无意义的文本评论数据,虽然这一类语料无语料重复,但是需要用机械压缩去词的方法处理这类评论数据,例如:把“挺好挺好挺好挺好挺好挺好挺好”缩成“挺好”

2.2机械压缩去词处理

机械压缩去词处理以建立两个列表存放国际字符为前提,制定出严格的压缩规则,判断两个列表中的语料是否重复、连续,首先,放置第一个列表,再放置第二个列表,按照不同情况依次读取国际字符,将其放入到第一个或者第二个列表来,触发压缩判断是否重复、连续,如果得出重复的规则,那么考虑用压缩去除的办法,需要提前设置压缩规则,以及放置的判断。在设置压缩规则,以及放置判断的时候,需要考虑词法结构所带来的影响。本文依据机械压缩去词原理处理文本前后数据对比如下表所示。

3 短句删除

3.1短句删除的原因

根据语言的特点,如果一条语料所包含的字数越少,那么这条语料所表达的含义越少,内容越不丰富,如果在文本评论中要表达更多的含义和内容,需要增加更多的语料词数,过少文本评论字数,没有实际的表达含义,常见的短句有三个字或者两个字,比如“还不错”“都挺好”“很好”“不错”等等。为了提高文本处理结果的精度,删除短句,可以提高文本数据质量。

3.2文本评论字数确定

保持文本数据中评论字数的下限是确定删除短句的关键步骤。通常认为4~8个国际字符是一个合理的字数下限。根据具体的语料库情况和文本语料库的特征,设置适当的文本字数下限。 本文首先统计每一条文本评论数据的长度,通过计算每一条文本评论数据的长度,筛选长度大于4的文本评论数据,实现短文本评论数据的删除,短句删除无效的评论数据如下表所示:

4 中文文本评论分词

在中文的语料结构中,“词”与“词组”无严格的分界符将他们两进行划分。在挖掘和分析中文文本数据时,应根据特定的规则重新组合中文分词序列。良好的分词结果可以使得文本挖掘结果更加精确,若分词结果模糊,将直接影响到词语在文本处理中的带来的效果,影响到主题的提取,不同的分词结果,会呈现出不同的特征选取效果。

4.1中文分词方法

最大概率法和最大匹配法在中文分词处理中最常用。衍生出双向匹配方法、逆向最大匹配方法、最佳匹配方法,这三种方法同样适用于中文分词处理中,其中,逆向最大匹配方法有着与正向最大匹配方方法方向不同的特征,在中文分词处理过程中,与正向最大匹配法的中文分词处理相比,很明显,逆向最大匹配法更适合中文分词处理。而双向匹配法比较了正向和逆向两者的中文分词结果,从而确定最优的中文分词结果;最佳匹配法可以有效的提高匹配效率,这种匹配方法按照顺序将词典中频度高的单词排在前,频度低的单词排在后。

4.2文本评论分词方法

在文本评论分词处理中,常用Python中文分词库和snownlp文本处理库对于文本数据进行文本分词处理。jieba(结巴)分词包是Python中一个强大的分词库,用于语料分词处理,可以实现高效的扫描词图,根据前缀字典生成不同的中文分词结果。通过搜索最大概率路径,可以对有向无环图进行动态规划。对于未登录的语料库,基于维特比算法模型和HMM模型,中文分词会处理未登录的语料库。 Snownlp库可以做文本分析,例如文本分类,中文分词,情感分析和文本关键字的提取。受TextBlob的启发,Snownlp是Python编程语言中的类库。它可以简单地处理中文文本内容,对于中文的自然语言处理问题,编写一个类库来处理中文语料库,并且自带一些受过训练的词典来方便分词。 本文借助Python的jieba分词包,对小米手机商品评论数据做中文分词处理。研究表明,使用Python的jieba分词包,其分词精度达到97%以上,分词效果明显,本文文本分词前后对比如下表所示。 PS:由于本例编写的python代码过长,将本专辑所有的代码封装在后台保存,附加爬取的京东商品评论数据。

公众号后台回复

京东商品评论

获取封装代码和文本数据

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。