在对大型语料库中的多个句子进行标记时,我需要将某些单词保留为原始形式,例如.Net, C#, C++. 我还想删除标点符号(.,!_-()=*&^%$@~等),但需要保留诸如.net, .htaccess, .htpassword, c++等之类的词。
nltk.word_tokenize和都试过了nltk.regexp_tokenize,但我没有得到预期的输出。
请帮助我解决上述问题。
编码:
import nltk
from nltk import regexp_tokenize
from nltk.corpus import stopwords
def pre_data():
tokenized_sentences = nltk.sent_tokenize(tokenized_raw_data)
sw0 = (stopwords.words('english'))
sw1 = ["i.e", "dxint", "hrangle", "idoteq", "devs", "zero"]
sw = sw0 + sw1
tokens = [[word for word in regexp_tokenize(word, pattern=r"\s|\d|[^.+#\w a-z]", gaps=True)] for word in tokenized_sentences]
print(tokens)
pre_data()
tokenized_raw_data 是一个普通的文本文件。它包含多个句子,中间有空格,由 .blog、.net、c++、c#、asp.net、.htaccess 等词组成。
例子
['.blog 是一个供博客使用的通用顶级域'.,
'C# 是一种通用的多范式编程语言'.,
'C++ 是面向对象的编程语言'。]
慕森卡
相关分类