300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > python利用read_table和read_csv和open读取dat文件

python利用read_table和read_csv和open读取dat文件

时间:2019-08-23 11:24:28

相关推荐

python利用read_table和read_csv和open读取dat文件

目录

1. 案例1.1 案例1 read_table1.2 案例2 read_csv 2. pandas.read_table() 详解2.1 sep介绍参数列表:适用于read_csv()和read_table() 3. read_csv()读取dat数据、写入dat3.1 案例3.2 error_bad_lines参数 4. with + open()方法4.2 with + open() 获取最后一行 5. 特殊案例参考链接

1. 案例

1.1 案例1 read_table

df = pd.read_table(r'E:\data\_08_10.dat', sep=',', skiprows=1)

首先,用记事本打开 dat 信息,查看内容。发现第一行为无用信息,跳过第一行, skiprows=1,第二行和第三行看似杂乱,值得数量却和下面的行是一致的,需要保留。内容都是由 逗号 隔开,所以 sep=‘,’ 。

1.2 案例2 read_csv

error_bad_lines=False # 跳过出错的行,超出header字段的行(默认情况下,字段过多的行(例如,逗号过多的 csv 行)会引发异常,并且不会返回任何 DataFrame。 如果为 False,那么这些“坏行”将从返回的 DataFrame 中删除,然后返回正常的这部分数据。)skiprows 如果不加参数skiprows的话会报错,可以看出这是16*2的数据,如果想要去除多几行,如下图,在列表里添加你想要删除的哪几行,不支持切片[0:2]或者[0,1,3:6]parse_dates:默认是False,将该列解析为datetime格式parse_dates:将数据解析为datetimes格式,即datetime64[ns],可以将多个列合成为一个时间列,或者只解析一列。skipfooter:该参数只能是部分取消读入,且只能从后向前地设定取消读入部分,取消末尾的多少行。names:对列名进行命名。header:header关键字的主要功能有两个: 第一是将指定行的数据作为读取数据各列的列名,由最初读取数据显示出的信息表明,edu文件文件中第一排的“姓名”“居住地”“年级”“年龄”“是否住校”依次成为了各列的列名,这是因为header默认参数为0,即将edu文件中第一排作为列名的缘故。第二个功能,那就是确定数据开始行,在将“阴晓彤”同学的数据变为新列名的同时,原本的列名“姓名”“居住地”“年级”“年龄”“是否住校”这一行却因为将第一排(实际的第二排)作为列名而消失了,这是因为同时本行也成为了读取数据的开始行。

data = pd.read_csv('F:\\0008_S.dat', error_bad_lines=False, skiprows=[0, 2, 3], nrows=10)data['TIMESTAMP'] = pd.to_datetime(data['TIMESTAMP'], errors='coerce')data1 = data.dropna(axis=0, subset=['TIMESTAMP'])data2 = data1[(data1['TIMESTAMP'] >= pd.to_datetime('-12-31 00:00:01')) & (data1['TIMESTAMP'] < pd.to_datetime('-01-02 00:00:00'))]

当我修改参数 skiprows=3后,列名变得很奇怪

data = pd.read_csv('F:\\0008_S.dat', error_bad_lines=False, skiprows=3, nrows=10)

说明只跳过了[0, 1, 2]三行,3这一行为当前的列名[‘Unnamed: 0’, ‘Unnamed: 1’, ‘Avg’, ……],这一行(3)应该被跳过,而第1行应该保留。故应该skiprows=[0, 2, 3]

2. pandas.read_table() 详解

2.1 sep介绍

当字段是以多种不同数量的空格分开时,可以向read_table传入一个正则表达式作为分隔符。正则表达式为 \s+,因此我们可以得到:

In [21]: result = pd.read_table('examples/ex3.txt', sep='\s+')In [22]: resultOut[22]: A B Caaa -0.264438 -1.026059 -0.619500bbb 0.927272 0.302904 -0.032399ccc -0.264273 -0.386314 -0.217601ddd -0.871858 -0.348382 1.100491

参数列表:适用于read_csv()和read_table()

3. read_csv()读取dat数据、写入dat

3.1 案例

import pandas as pd#1:读取指定行print("----读取指定的单行,数据会存在列表里面----")df=pd.read_csv('测试.dat')#data=df.loc[0].values#0表示第一行 这里读取数据并不包含表头,要注意哦!print("读取指定行的数据:\n{0}".format(data))

写入

#写入dat文件#index=0:索引不写入#sep='|':写入具有分隔符的数据df.to_csv('xxx.dat',header=None,encoding='utf-8',sep='|',quoting=3,index=0)

3.2 error_bad_lines参数

# 跳过超出header字段的行,如4个字段,579行出现了 5个pd.read_table(, error_bad_lines=False) # 显示的跳过信息 b'Skipping line 579: expected 4 fields, saw 5\n'

4. with + open()方法

文件中既包含表头又有数据字段分隔符包括数量不等的空格逗号以及空格+逗号,使用read_csv方法无法准确的获取数据。

解决办法就是直接使用open()方法对文件进行按行读取,再根据文件结构解析数据。如下:

import numpy as np import pandas as pd from pandas import DataFrameimport chardetdatalist = []columnlist = []with open('e:\data\StoneFlakes.dat','r') as f_write:# 获取第一行表头数据 firstline = f_write.readline() # 删除字符串头尾的特定字符 firstline = firstline.strip('\n') # 将字符串按照空格进行分割 columnlist = firstline.split()for line in f_write: encoding_type = chardet.detect(line)['encoding'] # 获取该行的编码方式line = eval(line.strip().decode(encoding_type)) # eval()将''TOA5', '瓜州'' 变为('TOA5', '瓜州')f_write.close() df = DataFrame(datalist, columns=columnlist)

附录:

for line in tqdm(f_write):encoding_type = chardet.detect(line)['encoding']if encoding_type == 'utf-8':line = eval(line.strip().decode(encoding_type))# line = line.split(',')# ans.append(line)# print('utf8', len(line), line)elif encoding_type == 'ascii':line = eval(line.strip().decode(encoding_type))# line = line.split(',')# ans.append(line)# print('ascii', len(line), line)else:continueif len(line) == 10:ans.append(line)else:print(len(line), line)f_write.close()# ans_df = pd.DataFrame(ans[3:], columns=ans[0])

4.2 with + open() 获取最后一行

步骤

open打开日志文件。移动文件读取指针到文件末尾。从后往前移动指针直到合适的位置。读取文件,提取指定行的数据。

优点:时间相对固定,适合处理大文件容贴出来:

fname = 'test.html'with open(fname, 'r', encoding='utf-8') as f: # 打开文件lines = f.readlines() # 读取所有行first_line = lines[0] # 取第一行last_line = lines[-1] # 取最后一行print('文件' + fname + '第一行为:'+ first_line)print('文件' + fname + '最后一行为:' + last_line) with open(fname, 'rb') as f: # 打开文件# 在文本文件中,没有使用b模式选项打开的文件,只允许从文件头开始,只能seek(offset,0)first_line = f.readline() # 取第一行offset = -50 # 设置偏移量while True:"""file.seek(off, whence=0):从文件中移动off个操作标记(文件指针),正往结束方向移动,负往开始方向移动。如果设定了whence参数,就以whence设定的起始位为准,0代表从头开始,1代表当前位置,2代表文件最末尾位置。 """f.seek(offset, 2) # seek(offset, 2)表示文件指针:从文件末尾(2)开始向前50个字符(-50)lines = f.readlines() # 读取文件指针范围内所有行if len(lines) >= 2: # 判断是否最后至少有两行,这样保证了最后一行是完整的last_line = lines[-1] # 取最后一行break# 如果off为50时得到的readlines只有一行内容,那么不能保证最后一行是完整的# 所以off翻倍重新运行,直到readlines不止一行offset *= 2print('文件' + fname + '第一行为:' + first_line.decode())print('文件' + fname + '最后一行为:' + last_line.decode())

5. 特殊案例

这里sep用的\t+

data = pd.read_table(f, encoding='gbk', parse_dates={'time': ['年月日', '时间戳']}, error_bad_lines=False, sep='\t+',skiprows=10)

filepath_or_buffer---->CSV文件的路径或URL地址。

sep---->CSV文件中字段分隔符,默认为逗号。

delimiter---->CSV文件中字段分隔符,默认为None。

header---->指定哪一行作为列名,默认为0,即第一行。

names---->自定义列名,如果header=None,则可以使用该参数

index_col---->用作行索引的列编号或列名。

usecols---->读取指定的列,可以是列名或列编号。

dtype---->指定每列的数据类型,可以是字典或者函数。

na_values---->用于替换缺失值的值。

skiprows---->跳过指定的行数。

skipfooter---->跳过文件末尾的指定行数。

nrows---->读取指定的行数。

parse_dates---->指定哪些列需要转换为日期类型。

infer_datetime_format---->尝试解析日期时间格式(提高效率)。

dayfirst---->将日期解析为“日-月-年”而不是“月-日-年”的格式。

encoding---->CSV文件的编码方式,默认为None,使用系统默认编码。

squeeze---->如果文件只包含一列,则返回Series对象而不是DataFrame对象。

thousands---->千位分隔符。

decimal---->小数点分隔符。

参考链接

[1] panda.read_table .6

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。