美丽的汤去除上标

BeautifulSoup函数find_all返回输入中所有单个离散HTML元素的列表（这find_all是在BeautifulSoup 4中使用的适当函数，优于findAll）。下一个函数filter遍历此列表，并删除其回调例程返回的项目False。回调函数会测试每个代码段的标签名称，False如果不想要的列表中包含该标签，则返回True。如果这些上标始终由正确的HTML标记指示，sup则可以将其添加到回调函数中不需要的列表中。可能的陷阱是：假定使用文字（在语义上正确）标签sup，而不是使用仅在其CSS中指定 的类或跨度vertical-align: superscript;；假定您要摆脱此上标标记中的所有元素。如果有异常（以下简称“20日世纪”），你可以检查的文本内容; 例如，仅当内容全部为数字时才删除。如果也有例外的是（“A 2 = B 2 + C 2 ”），则必须检查一个更广泛的背景，或建立一个白名单或夹杂物/排除的黑名单。

美丽的汤去除上标

1回答