从Python中的字符串中剥离HTML

我总是使用这个函数来去掉HTML标记，因为它只需要Pythonstdlib：关于Python 2from HTMLParser import HTMLParserclass MLStripper(HTMLParser):     def __init__(self):         self.reset()         self.fed = []     def handle_data(self, d):         self.fed.append(d)     def get_data(self):         return ''.join(self.fed)def strip_tags(html):     s = MLStripper()     s.feed(html)     return s.get_data()用于Python 3from html.parser import HTMLParserclass MLStripper(HTMLParser):     def __init__(self):         self.reset()         self.strict = False         self.convert_charrefs= True         self.fed = []     def handle_data(self, d):         self.fed.append(d)     def get_data(self):         return ''.join(self.fed)def strip_tags(html):     s = MLStripper()     s.feed(html)     return s.get_data()注*这只适用于3.1。对于3.2或更高版本，您需要调用父类的依尼特功能。看见在Python3.2中使用HTMLParser

从Python中的字符串中剥离HTML

5回答