300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > pandas —— pd.read_csv 与df.to_csv

pandas —— pd.read_csv 与df.to_csv

时间:2021-11-01 10:13:16

相关推荐

pandas   —— pd.read_csv 与df.to_csv

对 DataFrame 对象迭代得到的是其各个属性列的列名,自然为 list 类型;

0. read_csv 与 df.to_csv

df.to_csv na_rep=‘NA’:缺失值替换为NAheader=1/0:是否保存表头;index=1/0:是否保存行的索引;

1. 从文件读取数据返回 data frame

<a href=“/datablog/p/6127000.html”, target="_blank">pandas.read_csv参数详解

read_csvread_excel

df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/''breast-cancer-wisconsin/wdbc.data', header=None)# df: data frame# type(df): <class 'pandas.core.frame.DataFrame'>

header:表头,默认不为空(为 0,也即将第一行视为表头)。如果我们要读取的文件,直接就是数据,没有所谓的表头。就需指定 header=None,否则将以文件的第一行作为 df.columns。指定 header=None,df.columns 返回的是列索引,如一个三列的数据:

Int64Index([0, 1, 2], dtype='int64')

index_col:认定原始 csv 文件的第几列(从0开始计数)为索引列(也即从1开始编号,表示每一行样本的编号)

一般会指定 index_col=0,表示第0列为索引列index_col 指定的列将不会作为 DataFrame 的一列进行返回;

parse_datas:指明日期列,为字符串构成的 list;

thousands : str, default None,千分位分割符,如“,”或者“."

2. pandas 基本数据结构:Series 与 DataFrame

from pandas import Series, DataFrame

Series 最重要的一个功能在于:它在算术运算中会自动对齐不同索引的数据;

X, y = df.values[:, 2:], df.values[:, 1]# df.values 的类型为 numpy.ndarray# 也可以X, y = df.loc[:, 2:].values, df.loc[:, 1].values

3. dataframe 与 numpy 下的多维数组的转换

dataframe ⇒ numpy.ndarray

df.ax_matrix()df.values

4. 基本成员函数

df.dtypes:会按列给出各个列的数据类型;

df.columns,获取列名,可直接通过.的形式进行索引

比如一个 df.columns 的返回值为:

Index([u'dt', u'kind', u'value'], dtype='object')

可直接索引的含义在于,使用df.dt或者df.kind或者df.value进行索引,获取某列的全部值( 注,pandas 的特点,以列进行索引和修改)。同时索引多个列以构成一个新的表格,

df[['dt', 'value']] # 这样得到的仍然是 dataframe

支持[]的索引方式,但关键字必须是 list 的形式(['dt', 'value']),而不可以是 tuple

df.assign():指定新的列(如果列名已存在,则替换;如果不存在,在添加该列),返回一个新的 DataFrame,不对原始的 DataFrame 进行修改;

当然其也可以接收一个 lambda 型的函数对象,该函数对象接收的参数则是原始的 dataframe;

# 接收 lambda 型函数对象,>> df = DataFrame({'A':range(1, 6), 'B':np.random.randn(5)})>> df.assign(ln_A=lambda x: np.log(x.A))A Bln_A0 1 0.456539 0.0000001 2 1.022736 0.6931472 3 -0.158207 1.0986123 4 0.951304 1.3862944 5 -1.024661 1.609438# 此时 df 本身并未发生任何改变;>> df.assign(A = range(21, 26))A B0 21 0.4565391 22 1.0227362 23 -0.1582073 24 0.9513044 25 -1.024661

<a href=“/pandas-docs/stable/generated/pandas.DataFrame.assign.html”, target="_blank">pandas.DataFrame.assign

set_index():将某列设置为索引列;

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。