读取大量文本文件然后进行逻辑处理，请问用什么方法效率高一点？

描述你的问题
有160个文本文件，每个大约5M，需要一一读取进行相应处理。
贴上相关代码
贴上报错信息
我一次性全部读取后会内存溢出。
贴上相关截图
已经尝试过哪些方法仍然没解决（附上相关链接）

侃侃尔雅

浏览 748回答 9

9回答

慕的地8271018

一个文件才5m，你可以使用多线程加队列或者多进程加队列提高效率。如果是python的话，我会创建一个队列，然后开4个进程不断的从队列取文件名，然后在主进程读入文本名放入队列中。这样同时就会处理多个文件了，读取文件可以按行读，读完以后关闭文件。这样保证每次最多读取一定数目的文件，不会因为打开文件过多而报错。

宝慕林4294392

hash是一个很不错的选择，将文件按照某种规则进行hash

翻过高山走不出你

全部读入会溢出，那就读一半啊

慕斯王

这应该是个比较典型的map reduce场景。先利用hash等策略进行map，然后各自分布计算出中间结果，最后再根据之前的hash策略将中间结果进行reduce，获取最终结果。

呼啦一阵风

1、文件内存映射、窗口移动2、多线程并发

Cats萌萌

JAVA NIO你可以试一下、、大文件

拉风的咖菲猫

hadoop

慕桂英4014372

除非逻辑非常复杂或者依赖第三方库，否则优先考虑awk。速度应该是最快的，跟c语言写的程序一样快，另外完全不用考虑内存占用或释放的问题。

长风秋雁

try{ BufferedReader reader = Files.newBufferedReader(Paths.get("D:\\","a.txt"), Charset.forName("UTF-8")); for(String line = reader.readLine(); line != null; line = reader.readLine()){ // 一行一行处理，不会占用整个文件内容 } }catch(IOException e){ }

随时随地看视频慕课网APP