300字范文 > python利用read_table和read_csv和open读取dat文件

python利用read_table和read_csv和open读取dat文件

时间：2019-08-23 11:24:28

1. 案例1.1 案例1 read_table1.2 案例2 read_csv 2. pandas.read_table() 详解2.1 sep介绍参数列表：适用于read_csv()和read_table() 3. read_csv()读取dat数据、写入dat3.1 案例3.2 error_bad_lines参数 4. with + open()方法4.2 with + open() 获取最后一行 5. 特殊案例参考链接

1. 案例

1.1 案例1 read_table

df = pd.read_table(r'E:\data\_08_10.dat', sep=',', skiprows=1)

首先，用记事本打开 dat 信息，查看内容。发现第一行为无用信息，跳过第一行， skiprows=1，第二行和第三行看似杂乱，值得数量却和下面的行是一致的，需要保留。内容都是由逗号隔开，所以 sep=‘,’ 。

1.2 案例2 read_csv

error_bad_lines=False # 跳过出错的行，超出header字段的行（默认情况下，字段过多的行（例如，逗号过多的 csv 行）会引发异常，并且不会返回任何 DataFrame。如果为 False，那么这些“坏行”将从返回的 DataFrame 中删除，然后返回正常的这部分数据。）skiprows 如果不加参数skiprows的话会报错，可以看出这是16*2的数据，如果想要去除多几行，如下图，在列表里添加你想要删除的哪几行，不支持切片[0:2]或者[0,1,3:6]parse_dates：默认是False，将该列解析为datetime格式parse_dates：将数据解析为datetimes格式，即datetime64[ns]，可以将多个列合成为一个时间列，或者只解析一列。skipfooter：该参数只能是部分取消读入，且只能从后向前地设定取消读入部分，取消末尾的多少行。names：对列名进行命名。header：header关键字的主要功能有两个：第一是将指定行的数据作为读取数据各列的列名，由最初读取数据显示出的信息表明，edu文件文件中第一排的“姓名”“居住地”“年级”“年龄”“是否住校”依次成为了各列的列名，这是因为header默认参数为0，即将edu文件中第一排作为列名的缘故。第二个功能，那就是确定数据开始行，在将“阴晓彤”同学的数据变为新列名的同时，原本的列名“姓名”“居住地”“年级”“年龄”“是否住校”这一行却因为将第一排（实际的第二排）作为列名而消失了，这是因为同时本行也成为了读取数据的开始行。

data = pd.read_csv('F:\\0008_S.dat', error_bad_lines=False, skiprows=[0, 2, 3], nrows=10)data['TIMESTAMP'] = pd.to_datetime(data['TIMESTAMP'], errors='coerce')data1 = data.dropna(axis=0, subset=['TIMESTAMP'])data2 = data1[(data1['TIMESTAMP'] >= pd.to_datetime('-12-31 00:00:01')) & (data1['TIMESTAMP'] < pd.to_datetime('-01-02 00:00:00'))]

当我修改参数 skiprows=3后，列名变得很奇怪

data = pd.read_csv('F:\\0008_S.dat', error_bad_lines=False, skiprows=3, nrows=10)

说明只跳过了[0, 1, 2]三行，3这一行为当前的列名[‘Unnamed: 0’, ‘Unnamed: 1’, ‘Avg’, ……]，这一行(3)应该被跳过，而第1行应该保留。故应该skiprows=[0, 2, 3]

2. pandas.read_table() 详解

2.1 sep介绍

当字段是以多种不同数量的空格分开时，可以向read_table传入一个正则表达式作为分隔符。正则表达式为 \s+，因此我们可以得到：

In [21]: result = pd.read_table('examples/ex3.txt', sep='\s+')In [22]: resultOut[22]: A B Caaa -0.264438 -1.026059 -0.619500bbb 0.927272 0.302904 -0.032399ccc -0.264273 -0.386314 -0.217601ddd -0.871858 -0.348382 1.100491

参数列表：适用于read_csv()和read_table()

3. read_csv()读取dat数据、写入dat

3.1 案例

import pandas as pd#1：读取指定行print("----读取指定的单行，数据会存在列表里面----")df=pd.read_csv('测试.dat')#data=df.loc[0].values#0表示第一行这里读取数据并不包含表头，要注意哦！print("读取指定行的数据：\n{0}".format(data))

写入

#写入dat文件#index=0:索引不写入#sep='|'：写入具有分隔符的数据df.to_csv('xxx.dat',header=None,encoding='utf-8',sep='|',quoting=3,index=0)

3.2 error_bad_lines参数

# 跳过超出header字段的行，如4个字段，579行出现了 5个pd.read_table(, error_bad_lines=False) # 显示的跳过信息 b'Skipping line 579: expected 4 fields, saw 5\n'

4. with + open()方法

文件中既包含表头又有数据字段，分隔符包括数量不等的空格、逗号以及空格+逗号，使用read_csv方法无法准确的获取数据。

解决办法就是直接使用open()方法对文件进行按行读取，再根据文件结构解析数据。如下：

import numpy as np import pandas as pd from pandas import DataFrameimport chardetdatalist = []columnlist = []with open('e:\data\StoneFlakes.dat','r') as f_write:# 获取第一行表头数据 firstline = f_write.readline() # 删除字符串头尾的特定字符 firstline = firstline.strip('\n') # 将字符串按照空格进行分割 columnlist = firstline.split()for line in f_write: encoding_type = chardet.detect(line)['encoding'] # 获取该行的编码方式line = eval(line.strip().decode(encoding_type)) # eval()将''TOA5', '瓜州'' 变为('TOA5', '瓜州')f_write.close() df = DataFrame(datalist, columns=columnlist)

附录：

for line in tqdm(f_write):encoding_type = chardet.detect(line)['encoding']if encoding_type == 'utf-8':line = eval(line.strip().decode(encoding_type))# line = line.split(',')# ans.append(line)# print('utf8', len(line), line)elif encoding_type == 'ascii':line = eval(line.strip().decode(encoding_type))# line = line.split(',')# ans.append(line)# print('ascii', len(line), line)else:continueif len(line) == 10:ans.append(line)else:print(len(line), line)f_write.close()# ans_df = pd.DataFrame(ans[3:], columns=ans[0])

4.2 with + open() 获取最后一行

步骤：

open打开日志文件。移动文件读取指针到文件末尾。从后往前移动指针直到合适的位置。读取文件，提取指定行的数据。

优点：时间相对固定，适合处理大文件容贴出来：

fname = 'test.html'with open(fname, 'r', encoding='utf-8') as f: # 打开文件lines = f.readlines() # 读取所有行first_line = lines[0] # 取第一行last_line = lines[-1] # 取最后一行print('文件' + fname + '第一行为：'+ first_line)print('文件' + fname + '最后一行为：' + last_line) with open(fname, 'rb') as f: # 打开文件# 在文本文件中，没有使用b模式选项打开的文件，只允许从文件头开始,只能seek(offset,0)first_line = f.readline() # 取第一行offset = -50 # 设置偏移量while True:"""file.seek(off, whence=0)：从文件中移动off个操作标记（文件指针），正往结束方向移动，负往开始方向移动。如果设定了whence参数，就以whence设定的起始位为准，0代表从头开始，1代表当前位置，2代表文件最末尾位置。 """f.seek(offset, 2) # seek(offset, 2)表示文件指针：从文件末尾(2)开始向前50个字符(-50)lines = f.readlines() # 读取文件指针范围内所有行if len(lines) >= 2: # 判断是否最后至少有两行，这样保证了最后一行是完整的last_line = lines[-1] # 取最后一行break# 如果off为50时得到的readlines只有一行内容，那么不能保证最后一行是完整的# 所以off翻倍重新运行，直到readlines不止一行offset *= 2print('文件' + fname + '第一行为：' + first_line.decode())print('文件' + fname + '最后一行为：' + last_line.decode())