Java 读取txt格式语料库并匹配指定字符串,如何可以快速完成?

有一个9M多行的语料库,文件大小4G。现在需要匹配指定动词,符合句子条件的输出。

但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。


BufferedReader cpreader = new BufferedReader(new InputStreamReader(new FileInputStream(this.getCorpusPath())));

tring line = cpreader.readLine();

while(line != null)

            {

                ArrayList<String> verbList = new ArrayList();

                matcher_line = Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)").matcher(line);

                if(matcher_line.find())

                {

                    System.out.println(line);

                }

                

                

                

                line = cpreader.readLine();

            }


慕工程0101907
浏览 757回答 5
5回答

三国纷争

读文件的话应该是没有问题的,不过你可以尝试改为缓冲式读取,因为一行的大小 可能是不确定的,会对效率造成影响吧。。匹配的话如果是单个单词的话,可以改用更好的匹配方法,正则的话就不晓得了

明月笑刀无情

nio+多线程

浮云间

Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)")这个在循环里边,每次都要编译正则,所以很慢,你把这个放到while外边看看

杨魅力

AC自动机,构造的树大小应该不到4G,普通的笔记本都应该够了
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Java