Python中有很多XML和HTML解析器,我正在寻找一种简单的方法来提取HTML文档的一部分,最好使用XPATH构造,但这只是可选的。
这是一个例子
src = "<html><body>...<div id=content>AAA<B>BBB</B>CCC</div>...</body></html>"
我想用id = content提取元素的整个主体,所以结果应该是: <div id=content>AAA<B>BBB</B>CCC</div>
如果不安装新库就可以做到这一点。
我也希望获得所需元素的原始内容(未重新格式化)。
不允许使用regexp,因为这对于解析XML / HTML是不安全的。
绝地无双
德玛西亚99
相关分类