使用 gocolly 抓取时如何在 html 表格单元格中保留换行符

据我所知，gocolly 不支持这种格式，但您基本上可以通过使用htmlquery（gocolly 在内部使用它）包的OutputHTML方法来执行如下操作const htmlPage = `<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en"> <head> <title>Your page title here</title> </head> <body> AddressLine 1 AddresLine 2 </body></html>`doc, _ := htmlquery.Parse(strings.NewReader(htmlPage))xmlNode := htmlquery.FindOne(doc, "//p")result := htmlquery.OutputHTML(xmlNode, false)结果变量的输出现在如下所示： AddressLine 1 AddresLine 2您现在可以通过标记解析结果 并获得您想要的结果。但我也是新手，所以也许有更好的方法来做到这一点。

使用 gocolly 抓取时如何在 html 表格单元格中保留换行符

2回答