猿问

词干:使用 Python 中的正则表达式模块删除/更改 URL

您好,我正在尝试使用 Python 进行词干分析,我想使用 Regex 模块删除或更改 URL (https/http)。我已经写了一些代码行,但它似乎只适用于标点符号而不适用于表情符号和 URL,有人请帮助我吗?这是我的代码


 def tokenWordbase(verse):

    return verse.split(' ')


#URLs

def url(link):

    link = re.sub(r'^https?:\/\/.*[\r\n]*', '', link, flags=re.MULTILINE)


#punctuation

def punctuation(tokens):

    tokens = re.sub(r'[>)}:{",?+ !.(<;1234567890]','',str(tokens))

    tokens = re.sub('\n','',str(tokens))

    return tokens


#emot

def emoticons(emot):

    emot = re.sub( ':-)', ':)', '(:', '(-:', ':-D', ':D', 'X-D', 'XD', 'xD', ';-)', ';)', ';-D', ';D', '(;', '(-;', ':-(', ':(', '(:', '(-:', ':,(', ':\'(', ':"(', ':((', str(tokens))

    return emot


def main():

    currentString = []

    panjangTang = []

    with open('Book2.csv') as f:

        reader = csv.reader(f, delimiter=',')

        for row in reader:

            if row[0] == '' or row[0] == '-':

                continue

            else:

                tokennya = tokenWordbase(row[0])

                panjangTangSementara = []

                for j in range(len(tokennya)):

                    # print(childToken)

                    puntu = punctuation(tokennya[j])

                    stopnya = stopword.remove(puntu)

                    if stopnya == '':

                        continue

                    else:

                        stemmnya = stemmer.stem(stopnya)

                        currentString.append(stemmnya)

                        panjangTangSementara.append(stemmnya)

                panjangTang.append(panjangTangSementara)

    daftarDokumen = Counter(currentString)

    daftarString = []


慕哥6287543
浏览 294回答 2
2回答

慕斯王

domain_registers = [".com",".net",".info",".biz","mobi",".xxx",".asia",".eu",".name",".us ",".co",".org",".me",".mx",".in",".ac",".asp",".php",".html"]def url(link): if ('.' in link and '/' in link) or 'www.'&nbsp;in link 或 'http' in link 或 any([word in link for word in domain_registers]):返回“”

慕妹3146593

该url函数没有返回修改后的字符串,尝试添加return link到它的末尾。
随时随地看视频慕课网APP

相关分类

Python
我要回答