我正在寻找一种将HTML表完全转换为可读的纯文本的方法。
即给出输入:
<table>
<tr>
<td>Height:</td>
<td>200</td>
</tr>
<tr>
<td>Width:</td>
<td>440</td>
</tr>
</table>
我期望输出:
Height: 200
Width: 440
我宁愿不使用外部工具,例如w3m -dump file.html,因为它们是(1)依赖于平台的,(2)我想对过程进行一些控制,并且(3)我认为它可以单独使用Python(带有或不带有额外模块)都是可行的。
我不需要任何自动换行或可调整的单元格分隔符宽度。使用制表符作为单元格分隔符就足够了。
翻阅古今
相关分类