我目前正在尝试从使用 Lucene 7.4.0 生成的索引 IO 中打印字段和术语,目前我有以下内容:
public static void main(String[] args) throws IOException {
String indexDir = "C:/directory/to/index";
index = FSDirectory.open(Paths.get(indexDir));
IndexReader reader = DirectoryReader.open(index);
Fields fields = MultiFields.getFields(reader);
for (String field : fields) {
System.out.println(field);
Terms terms = fields.terms(field);
TermsEnum termsEnum = terms.iterator();
//Term term = new Term(field);
int count = 0;
while (termsEnum.next() != null) {
System.out.println(termsEnum.term().utf8ToString());
count++;
}
System.out.println(count);
}
目前,这给了我一长串按字母顺序排列的乱码
3ñúä
3ñúæ
3ñúè
3ñúë
3ñúëµ
3ñúðéë
3ñúò
3ñúú
3ñû
3ñû5
我也尝试使用 term.text() ,但尽管它会打印正确的行数,但每个条目都是空白的。我觉得我很接近但缺少一些小东西
相关分类