在创建自定义 EmbeddedDocumentExtractor 类时,我需要解析文件中的嵌入文档并对有限数量的嵌入文档(比如 10 个)执行一些操作。
如果我处理一个包含 1000 个嵌入的文件,每个嵌入都会被处理,这绝对是浪费时间。有没有办法限制只解析前几个嵌入文件?
public void parseEmbedded(InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml) throws SAXException, IOException {
if(fileCount >= COUNT_LIMIT){
//skip file
}
else{
//perform op
}
}
通过这种方法,比较文件计数(已处理的嵌入文件的数量)和 COUNT_LIMIT 实际上需要时间,而不是使进程停止。
繁花不似锦
慕侠2389804
相关分类