猿问

网页标签清洗

希望大佬能指点一二,小弟不胜感激
关于网页标签的清洗,在计算网页相似度的时候,哪些标签是可以过滤的,在这段代码生成的结果中

class Structure(HTMLParser):

    '''

    pass

    '''

    def extract(self, html):

        self.tmp = []

        tag = ['script','style'] 

        result = []

        self.tagstack = []

        self.feed(html)

        for a in self.tmp:

            if a.split('/')[-1] not in tag:

                result.append(a)

        return result


    def handle_starttag(self, tag, attrs):

        self.tagstack.append(tag)


    def handle_endtag(self, tag):

        self.tagstack.pop()


    def handle_data(self, data):

        t = ''

        if data.strip():

            for tag in self.tagstack:

                t = t + '/' + tag

            self.tmp.append(t)

用这个网页生成的结果举例,过滤/span/p结尾的标签,如果是其他的网页是不是也可以这么过滤,如果不是的话该怎么过滤,是不是还得考虑标签属性?
补充:计算的是网页结构相似度,不考虑正文相似度

子衿沉夜
浏览 428回答 1
1回答
随时随地看视频慕课网APP

相关分类

JavaScript
我要回答