使用JAVA解析网站HTML

我想解析一个简单的网站,并从该网站中抓取信息。


我曾经用DocumentBuilderFactory解析XML文件,但我尝试对html文件做同样的事情,但是它总是陷入无限循环。


    URL url = new URL("http://www.deneme.com");

    URLConnection uc = url.openConnection();


    InputStreamReader input = new InputStreamReader(uc.getInputStream());

    BufferedReader in = new BufferedReader(input);

    String inputLine;


     FileWriter outFile = new FileWriter("orhancan");

     PrintWriter out = new PrintWriter(outFile);


    while ((inputLine = in.readLine()) != null) {

        out.println(inputLine);

    }


    in.close();

    out.close();


    File fXmlFile = new File("orhancan");

    DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();

    DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();

    Document doc = dBuilder.parse(fXmlFile);



    NodeList prelist = doc.getElementsByTagName("body");

    System.out.println(prelist.getLength());

有什么问题吗?或者,有没有更简单的方法可以从网站中获取给定html标签的数据?


凤凰求蛊
浏览 1280回答 3
3回答

慕桂英4014372

绝对可以找到JSoup。;-)
打开App,查看更多内容
随时随地看视频慕课网APP