有没有办法从java中读取.fdt/.fdx/.fdxt ftile中的文本?

我想计算 .fdt/.fdx/.fdxt 文件中的单词数


我将 .fdxt 转换为 .html,然后进一步解析它。它在某些情况下取得了成功,但并非全部。


    String html="";


    Scanner sc = new Scanner(new File("/home/de-10/Desktop/1.html"));

    while(sc.hasNextLine()) {

        html+=sc.nextLine();

    }

    sc.close();


    System.out.println(html);


    Document doc = Jsoup.parse(html.toString());

    String data = doc.text();

    System.out.println(data);


    Scanner sc1 = new Scanner(new String(data));

    int wordCount=0;

    while(sc1.hasNext()) {

        sc1.next();

        wordCount++;

    }

    sc1.close();


    System.out.println("");

    System.out.println("**********");

    System.out.println("WordCount: "+wordCount);

    System.out.println("**********");

    System.out.println("");

我正在寻找一些最佳解决方案。


Smart猫小萌
浏览 89回答 1
1回答

慕村225694

你说,“在某些情况下它是成功的,但不是全部”。所以我建议在计数之前删除文本中的标点符号。int wordCount = Jsoup.parse(html).text().replaceAll("\\p{Punct}", "").split("\\s+").length;
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Java