300字范文 > matlab 使用textscan读取带文本的csv文件

matlab 使用textscan读取带文本的csv文件

时间：2019-07-31 10:18:38

纯数值csv文件使用 csvread 直接读取

csv文件就是comma-separated value (CSV) file。数据使以逗号相隔的形式保存在.csv文件中。

最新版的官方文档不在推荐使用csvread读取csv文档，而是推荐使用readmatrix但是目前还是兼容。

三种方式读取：

(1) M = csvread(filename), 文件的内容只能是数值。

(2) M = csvread(filename,R1,C1)，指定从R1+1行与C1+1列开始读其后的所有内容。

(3) M = csvread(filename,R1,C1,[R1 C1 R2 C2])，通过指定左上角开始的行列和右下角的行列读取的范围。

使用带文本的csv文件使用textscan读取

最简单的方法是右键选择matlab打开csv文件，然后拖动选择需要的行列，点击导入所选内容。

想要代码的话，选中内容后，在下图划红线处点击下三角即可生成脚本。

导出的代码栗子：

csv文本如下：

（1）读取所有内容

%% 初始化变量。filename = 'C:\Users\siucaan\Documents\MATLAB\test.csv';delimiter = ',';# 不包括列的变量名startRow = 2;# 包括列名设为1，或者在下面textscan()中不加HeaderLines这个参数 # startRow = 1;%% 将数据列作为文本读取:formatSpec = '%s%s%s%s%s%s%[^\n\r]';%% 打开文本文件。fileID = fopen(filename,'r');%% 根据格式读取数据列。dataArray = textscan(fileID, formatSpec, 'Delimiter', delimiter, 'TextType', 'string', 'HeaderLines' ,startRow-1, 'ReturnOnError', false, 'EndOfLine', '\r\n');%% 关闭文本文件。fclose(fileID);%% 将包含数值文本的列内容转换为数值。% 将非数值文本替换为 NaN。raw = repmat({''},length(dataArray{1}),length(dataArray)-1);for col=1:length(dataArray)-1raw(1:length(dataArray{col}),col) = mat2cell(dataArray{col}, ones(length(dataArray{col}), 1));endnumericData = NaN(size(dataArray{1},1),size(dataArray,2));for col=[1,5]% 将输入元胞数组中的文本转换为数值。已将非数值文本替换为 NaN。rawData = dataArray{col};for row=1:size(rawData, 1)% 创建正则表达式以检测并删除非数值前缀和后缀。regexstr = '(?<prefix>.*?)(?<numbers>([-]*(\d+[\,]*)+[\.]{0,1}\d*[eEdD]{0,1}[-+]*\d*[i]{0,1})|([-]*(\d+[\,]*)*[\.]{1,1}\d+[eEdD]{0,1}[-+]*\d*[i]{0,1}))(?<suffix>.*)';tryresult = regexp(rawData(row), regexstr, 'names');numbers = result.numbers;% 在非千位位置中检测到逗号。invalidThousandsSeparator = false;if numbers.contains(',')thousandsRegExp = '^[-/+]*\d+?(\,\d{3})*\.{0,1}\d*$';if isempty(regexp(numbers, thousandsRegExp, 'once'))numbers = NaN;invalidThousandsSeparator = true;endend% 将数值文本转换为数值。if ~invalidThousandsSeparatornumbers = textscan(char(strrep(numbers, ',', '')), '%f');numericData(row, col) = numbers{1};raw{row, col} = numbers{1};endcatchraw{row, col} = rawData{row};endendend%% 将数据拆分为数值和字符串列。rawNumericColumns = raw(:, [1,5]);rawStringColumns = string(raw(:, [2,3,4,6]));%% 确保包含 <undefined> 的任何文本都已正确转换为 <undefined> 分类值for catIdx = [1,3]idx = (rawStringColumns(:, catIdx) == "<undefined>");rawStringColumns(idx, catIdx) = "";end%% 创建输出变量test1 = table;test1.Challengerecordname = cell2mat(rawNumericColumns(:, 1));test1.Database = categorical(rawStringColumns(:, 1));test1.Originalrecordname = rawStringColumns(:, 2);test1.Diagnosis = categorical(rawStringColumns(:, 3));test1.Class = cell2mat(rawNumericColumns(:, 2));test1.VarName6 = rawStringColumns(:, 4);%% 清除临时变量clearvars filename delimiter startRow formatSpec fileID dataArray ans raw col numericData rawData row regexstr result numbers invalidThousandsSeparator thousandsRegExp rawNumericColumns rawStringColumns catIdx idx;

（2）指定读取指定列

我这里指定第一列和五列

只要修改 formatSpec = ‘%s%*s%*s%*s%s%[^\n\r]’;

完整代码如下：

%% 初始化变量。filename = 'F:\matlab_workspace\test.csv';delimiter = ',';%% 将数据列作为文本读取:% 有关详细信息，请参阅 TEXTSCAN 文档。formatSpec = '%s%*s%*s%*s%s%[^\n\r]';%% 打开文本文件。fileID = fopen(filename,'r');%% 根据格式读取数据列。% 该调用基于生成此代码所用的文件的结构。如果其他文件出现错误，请尝试通过导入工具重新生成代码。dataArray = textscan(fileID, formatSpec, 'Delimiter', delimiter, 'TextType', 'string', 'ReturnOnError', false);%% 关闭文本文件。fclose(fileID);%% 将包含数值文本的列内容转换为数值。% 将非数值文本替换为 NaN。raw = repmat({''},length(dataArray{1}),length(dataArray)-1);for col=1:length(dataArray)-1raw(1:length(dataArray{col}),col) = mat2cell(dataArray{col}, ones(length(dataArray{col}), 1));endnumericData = NaN(size(dataArray{1},1),size(dataArray,2));% 将输入元胞数组中的文本转换为数值。已将非数值文本替换为 NaN。rawData = dataArray{2};for row=1:size(rawData, 1)% 创建正则表达式以检测并删除非数值前缀和后缀。regexstr = '(?<prefix>.*?)(?<numbers>([-]*(\d+[\,]*)+[\.]{0,1}\d*[eEdD]{0,1}[-+]*\d*[i]{0,1})|([-]*(\d+[\,]*)*[\.]{1,1}\d+[eEdD]{0,1}[-+]*\d*[i]{0,1}))(?<suffix>.*)';tryresult = regexp(rawData(row), regexstr, 'names');numbers = result.numbers;% 在非千位位置中检测到逗号。invalidThousandsSeparator = false;if numbers.contains(',')thousandsRegExp = '^[-/+]*\d+?(\,\d{3})*\.{0,1}\d*$';if isempty(regexp(numbers, thousandsRegExp, 'once'))numbers = NaN;invalidThousandsSeparator = true;endend% 将数值文本转换为数值。if ~invalidThousandsSeparatornumbers = textscan(char(strrep(numbers, ',', '')), '%f');numericData(row, 2) = numbers{1};raw{row, 2} = numbers{1};endcatchraw{row, 2} = rawData{row};endend%% 将数据拆分为数值和字符串列。rawNumericColumns = raw(:, 2);rawStringColumns = string(raw(:, 1));%% 将非数值元胞替换为 NaNR = cellfun(@(x) ~isnumeric(x) && ~islogical(x),rawNumericColumns); % 查找非数值元胞rawNumericColumns(R) = {NaN}; % 替换非数值元胞%% 创建输出变量test1 = table;test1.Challengerecordname = rawStringColumns(:, 1);test1.Class = cell2mat(rawNumericColumns(:, 1));

（3）读取指定行

读取6-12行，只要修改

startRow = 6;endRow = 11;dataArray = textscan(fileID, formatSpec, endRow-startRow+1, 'Delimiter', delimiter, 'TextType', 'string', 'HeaderLines', startRow-1, 'ReturnOnError', false, 'EndOfLine', '\r\n');

（4）读取局部行列

指定6-12行，第2-5列，只要修改

startRow = 6;

endRow = 12;

%% 每个文本行的格式:

% 列2: 分类 (%C)

% 列3: 文本 (%s)

% 列4: 分类 (%C)

% 有关详细信息，请参阅 TEXTSCAN 文档。

formatSpec = ‘%*s%C%s%C%*s%[^\n\r]’;

完整代码：

%% 导入文本文件中的数据。%% 初始化变量。filename = 'F:\matlab_workspace\test.csv';delimiter = ',';startRow = 6;endRow = 12;%% 每个文本行的格式:% 列2: 分类 (%C)%列3: 文本 (%s)% 列4: 分类 (%C)formatSpec = '%*s%C%s%C%*s%[^\n\r]';%% 打开文本文件。fileID = fopen(filename,'r');%% 根据格式读取数据列。dataArray = textscan(fileID, formatSpec, endRow-startRow+1, 'Delimiter', delimiter, 'TextType', 'string', 'HeaderLines', startRow-1, 'ReturnOnError', false, 'EndOfLine', '\r\n');%% 关闭文本文件。fclose(fileID);%% 创建输出变量test = table(dataArray{1:end-1}, 'VariableNames', {'Database','Originalrecordname','Diagnosis'});

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。