有效地计算文本文件的行数。(200mb +)

我刚刚发现我的脚本给了我一个致命错误:


Fatal error: Allowed memory size of 268435456 bytes exhausted (tried to allocate 440 bytes) in C:\process_txt.php on line 109

那行是这样的:


$lines = count(file($path)) - 1;

因此,我认为将文件加载到内存中并计算行数有困难,是否有更有效的方法可以在没有内存问题的情况下执行此操作?


我需要计算行数范围从2MB到500MB的文本文件。有时候也许是演出。


谢谢大家的帮助。


守着一只汪
浏览 450回答 3
3回答

喵喔喔

这将使用较少的内存,因为它不会将整个文件加载到内存中:$file="largefile.txt";$linecount = 0;$handle = fopen($file, "r");while(!feof($handle)){  $line = fgets($handle);  $linecount++;}fclose($handle);echo $linecount;fgets将一行加载到内存中(如果$length省略第二个参数,它将继续从流中读取数据,直到到达行尾为止,这就是我们想要的)。如果您关心墙壁时间和内存使用情况,这仍然不太可能像使用PHP之外的其他工具一样快。唯一的危险是,如果有任何行特别长(如果遇到2GB的文件而没有换行符该怎么办?)。在这种情况下,最好将其分成几大块,然后计算行尾字符:$file="largefile.txt";$linecount = 0;$handle = fopen($file, "r");while(!feof($handle)){  $line = fgets($handle, 4096);  $linecount = $linecount + substr_count($line, PHP_EOL);}fclose($handle);echo $linecount;

holdtom

使用fgets()调用循环是一个很好的解决方案,并且最容易编写,但是:即使在内部使用8192字节的缓冲区读取文件,您的代码仍然必须为每一行调用该函数。从技术上讲,如果您正在读取二进制文件,则单行可能大于可用内存。此代码读取每个文件的大小为8kB的块,然后计算该块中换行的数量。function getLines($file){    $f = fopen($file, 'rb');    $lines = 0;    while (!feof($f)) {        $lines += substr_count(fread($f, 8192), "\n");    }    fclose($f);    return $lines;}如果每行的平均长度最大为4kB,则您将已经开始保存函数调用,并且在处理大文件时这些函数可能会累加起来。基准测试我对一个1GB的文件进行了测试;结果如下:             +-------------+------------------+---------+             | This answer | Dominic's answer | wc -l   |+------------+-------------+------------------+---------+| Lines      | 3550388     | 3550389          | 3550388 |+------------+-------------+------------------+---------+| Runtime    | 1.055       | 4.297            | 0.587   |+------------+-------------+------------------+---------+时间以秒为单位实时测量,请参阅此处的实际含义

慕森卡

简单的面向对象解决方案$file = new \SplFileObject('file.extension');while($file->valid()) $file->fgets();var_dump($file->key());更新资料另一种实现方法是PHP_INT_MAXin SplFileObject::seek方法。$file = new \SplFileObject('file.extension', 'r');$file->seek(PHP_INT_MAX);echo $file->key() + 1; 
打开App,查看更多内容
随时随地看视频慕课网APP