300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > csv 文件读写乱码问题的一个简单解决方法

csv 文件读写乱码问题的一个简单解决方法

时间:2022-12-10 22:40:17

相关推荐

csv 文件读写乱码问题的一个简单解决方法

公众号后台回复“图书“,了解更多号主新书内容

作者:zhenguo

来源:Python与算法社区

你好,我是 zhenguo

今天扼要总结一个处理csv文件乱码问题,可能你有类似经历,用excel打开一个csv文件,中文全部显示乱码。然后,手动用notepad++打开,修改编码为utf-8并保存后,再用excel打开显示正常。

今天使用Python,很少代码就能将上面过程自动化。首先,导入3个模块:

#coding:utf-8#@author:zhenguo#@date:-12-16#@describe:functionsaboutautomaticfileprocessingimportpandasaspdimportosimportchardet

chardet 模块用于得到文件的编码格式,pandas 按照这个格式读取,然后保存为xlsx格式。

获取filename文件的编码格式:

defget_encoding(filename):"""返回文件编码格式"""withopen(filename,'rb')asf:returnchardet.detect(f.read())['encoding']

保存为utf-8编码xlsx格式文件,支持csv, xls, xlsx 格式的文件乱码处理。需要注意,如果读入文件为csv格式,保存时要使用xlsx格式:

defto_utf8(filename):"""保存为to_utf-8"""encoding=get_encoding(filename)ext=os.path.splitext(filename)ifext[1]=='.csv':if'gb'inencodingor'GB'inencoding:df=pd.read_csv(filename,engine='python',encoding='GBK')else:df=pd.read_csv(filename,engine='python',encoding='utf-8')df.to_excel(ext[0]+'.xlsx')elifext[1]=='.xls'orext[1]=='.xlsx':if'gb'inencodingor'GB'inencoding:df=pd.read_excel(filename,encoding='GBK')else:df=pd.read_excel(filename,encoding='utf-8')df.to_excel(filename)else:print('onlysupportcsv,xls,xlsxformat')

上面函数实现单个文件转化,下面batch_to_utf8 实现目录 path 下所有后缀为ext_name文件的批量乱码转化:

defbatch_to_utf8(path,ext_name='csv'):"""path下,后缀为ext_name的乱码文件,批量转化为可读文件"""forfileinos.listdir(path):ifos.path.splitext(file)[1]=='.'+ext_name:to_utf8(os.path.join(path,file))

调用:

if__name__=='__main__':batch_to_utf8('.')#对当前目录下的所有csv文件保存为xlsx格式,utf-8编码的文件

文件读写时乱码问题,经常会遇到,相信今天这篇文章里的to_utf8,batch_to_utf8函数会解决这个问题,你如果后面遇到,不妨直接引用这两个函数尝试下。

◆◆◆ ◆◆麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:

数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。管理员二维码:猜你喜欢●卧槽!原来爬取B站弹幕这么简单●厉害了!麟哥新书登顶京东销量排行榜!●笑死人不偿命的知乎沙雕问题排行榜●用Python扒出B站那些“惊为天人”的阿婆主!●你相信逛B站也能学编程吗

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。