300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > Python实现批量按顺序读取txt文本并保存到新文本txt中

Python实现批量按顺序读取txt文本并保存到新文本txt中

时间:2024-04-01 06:36:38

相关推荐

Python实现批量按顺序读取txt文本并保存到新文本txt中

目录

问题引入:

常见问题:

①文本顺序错误

解决方案:在os.lisdir()运行后的文件排序方法:

①文件名只由数字构成的排序方法:

②文件名中有数字以及其他符号的排序方法

问题引入:

在下载一本小说或者代码说明时,往往是一章一章分开的,导致阅读繁琐,这时我们可以通过python来批量获取txt文本,然后再汇总保存到一个新的文本之中,方便后续查看。

读取所有文本时,可能由于某些文本是'utf-8'的编码规则,某些文本是‘ANSI’编码规则,导致通过with open(path,'r',encoding='utf-8')的方法来读取时报错。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x96 in position 4: invalid start byte

这时我们可以借助chardet库来获得其编码方式,从而解码,如果没有可以先进行安装

pip install chardet

运行以下代码获得对应方式并进行相应的解码decode

import chardetf = open(path,'rb') #path为要打开的文本路径r = f.read()#获取文本的编码方式f_charInfo = chardet.detect(r)print(f_charInfo) #输出文本格式信息print(f_charInfo['encoding']) #取得文本格式print(r.decode(f_charInfo['encoding'])) #通过取得的文本格式读取txt

返回一个字典参数如下:{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

encoding:表示字符编码方式。

confidence:表示可信度,也可以理解为检测的概率。

language:语言。

常见问题:

①文本顺序错误

在获取全文的过程中,需要先获取文件夹下的所有文件,但单纯通过os.listdir()来获取所有文件后,会发现顺序出现了问题,导致后续所有文本的顺序出错

错误如下图所示:

解决方案:在os.lisdir()运行后的文件排序方法:

①文件名只由数字构成的排序方法:

如图所示:

files.sort(key=lambda x:int(x.split(".")[0]))

通过lambda表达式,获取.txt后缀名之前的数字,然后以此来排序,从而获得正确的文件顺序

②文件名中有数字以及其他符号的排序方法

如图所示:

可以看到我这里有“-”符号作为标识符,通过使用find()函数来获取其后面的数字,然后进行排序

files.sort(key=lambda x:int(x.split(".")[0][x.find('-')+1:]))

上面一行代码不懂的话,看这里代码拆分详解:

t1='Listing 1-71.txt' t2=t1.split(".")[0] #获取.前面的字符串t3=t2[t1.find('-')+1:] #获取之后通过find('-')获得其后面的数字t3=int(t3) #最后转化为int类型进行排序

排序后的结果:

最后将文本保存到新的文本中

with open(itspath+'//'+itsname+'.txt','w') as f2:f2.write(txts)

End~附上我的代码:

def read_all_txt(itspath,itsname):import osimport chardetfiles= os.listdir(itspath) #得到文件夹下的所有文件名称files.sort(key=lambda x:int(x.split(".")[0][x.find('-')+1:]))txts = []for file in files: #遍历文件夹position = itspath+'\\'+ file #构造绝对路径,"\\",其中一个'\'为转义符print (position)file[file.find('-')+1:]try:f = open(position,'rb')r = f.read()#获取文本的编码方式f_charInfo = chardet.detect(r)print(f_charInfo) #输出文本格式信息print(f_charInfo['encoding']) #取得文本格式print(r.decode(f_charInfo['encoding'])) #通过取得的文本格式读取txttxts.append(r.decode(f_charInfo['encoding']))f.close()except:if f:f.close()print('err')# txts.append(data)txts = ','.join(txts) #将列表变成字符串#最后保存到文本中with open(itspath+'//'+itsname+'.txt','w') as f2:f2.write(txts)print('获取全文并保存成功')if __name__ == "__main__":itspath=r"E:\各类比赛\数学建模\Python机器学习5个数据科学家案例解析配套数据-python-ml-case-studies-master\Book\Chapter 1 files\Listings" #文件夹目录itsname='alltext'#保存的文本名称read_all_txt(itspath, itsname)

以上是本人的个人总结,如有错误请各位大佬批评指正!!~

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。