然后我们再来看一下这个FileInputFormat的切片机制,可以看到
实际上切片就是按照文件的长度,一个切片大小默认等于块大小,切片是逻辑切片,不是物理切片
仅仅是做了标记
然后切片时不考虑数据整体,二手一个文件一个文件的单独切片
一般都是用默认的就可以了,当然切片大小,你也可以让他进行比如,1kb,就开启一个maptask
1kb就开启一个maptask,但这样的话有个问题就是,太消耗性能了.
一般一个maptask的开启,会消耗1g的内存,1个cpu,所以一般都是要做合适的切片大小才行
时间:2021-07-19 06:07:05
然后我们再来看一下这个FileInputFormat的切片机制,可以看到
实际上切片就是按照文件的长度,一个切片大小默认等于块大小,切片是逻辑切片,不是物理切片
仅仅是做了标记
然后切片时不考虑数据整体,二手一个文件一个文件的单独切片
一般都是用默认的就可以了,当然切片大小,你也可以让他进行比如,1kb,就开启一个maptask
1kb就开启一个maptask,但这样的话有个问题就是,太消耗性能了.
一般一个maptask的开启,会消耗1g的内存,1个cpu,所以一般都是要做合适的切片大小才行