通过在 python 3 中使用算术和逻辑运算符保留某些单词来标记单词？

该解决方案涵盖了给定的示例C++，C# asp.net并在删除正常标点符号的同时保留了诸如 , 之类的词。import nltkparagraph = (        '.blog is a generic top-level domain intended for use by blogs. '        'C# is a general-purpose, multi-paradigm programming language. '        'C++ is object-oriented programming language. '        'asp.net is something very strange. '        'The most fascinating language is c#. '        '.htaccess makes my day!')def pre_data(raw_data):    tokenized_sentences = nltk.sent_tokenize(raw_data)    tokens = [nltk.regexp_tokenize(sentence, pattern='\w*\.?\w+[#+]*') for sentence in tokenized_sentences]    return tokenstokenized_data = pre_data(paragraph)print(tokenized_data)出去[['.blog', 'is', 'a', 'generic', 'top', 'level', 'domain', 'intended', 'for', 'use', 'by', 'blogs'],  ['C#', 'is', 'a', 'general', 'purpose', 'multi', 'paradigm', 'programming', 'language'],  ['C++', 'is', 'object', 'oriented', 'programming', 'language'],  ['asp.net', 'is', 'something', 'very', 'strange'],  ['The', 'most', 'fascinating', 'language', 'is', 'c#'],  ['.htaccess', 'makes', 'my', 'day']]但是，这个简单的正则表达式可能不适用于您文本中的所有技术术语。提供完整示例以获得更通用的解决方案。

通过在 python 3 中使用算术和逻辑运算符保留某些单词来标记单词？

1回答