如何“扫描”一个网站（或页面）的信息，并将其带入我的程序？

好吧，我正在试图弄清楚如何从网页中提取信息，并将其带入我的程序（用Java）。

例如，如果我知道我想要信息的确切页面，为了简单起见，Best Buy项目页面，我如何从该页面获得我需要的相应信息？喜欢标题，价格，描述？

这个过程甚至会被称为什么？我不知道甚至开始研究这个。

编辑：好的，我正在为JSoup（由BalusC发布的那个）运行测试，但我一直收到这个错误：

Exception in thread "main" java.lang.NoSuchMethodError: java.util.LinkedList.peekFirst()Ljava/lang/Object;at org.jsoup.parser.TokenQueue.consumeWord(TokenQueue.java:209)at org.jsoup.parser.Parser.parseStartTag(Parser.java:117)at org.jsoup.parser.Parser.parse(Parser.java:76)at org.jsoup.parser.Parser.parse(Parser.java:51)at org.jsoup.Jsoup.parse(Jsoup.java:28)at org.jsoup.Jsoup.parse(Jsoup.java:56)at test.main(test.java:12)

我有Apache Commons

哈士奇WWW

浏览 723回答 3

3回答

哆啦的时光机

我会使用JTidy - 它与JSoup相似，但我不熟悉JSoup。JTidy处理破坏的HTML并返回一个w3c Document，因此您可以将其作为XSLT的源来提取您真正感兴趣的内容。如果您不了解XSLT，那么您可以使用JSoup作为Document模型比w3c更好用。编辑：快速浏览一下JSoup网站，可以看出JSoup确实是更好的选择。它似乎支持CSS选择器开箱即可从文档中提取内容。与进入XSLT相比，这可能更容易使用。

0 0

随时随地看视频慕课网APP