我创建了一个简单的单词特征检测器。到目前为止,能够找到字符串中的特定特征(混杂在其中),但是该算法会与某些单词序列混淆。让我举例说明:
from nltk.tokenize import word_tokenize
negative_descriptors = ['no', 'unlikely', 'no evidence of']
negative_descriptors = '|'.join(negative_descriptors)
negative_trailers = ['not present', 'not evident']
negative_trailers = '|'.join(negative_descriptors)
keywords = ['disc prolapse', 'vertebral osteomyelitis', 'collection']
def feature_match(message, keywords, negative_descriptors):
if re.search(r"("+negative_descriptors+")" + r".*?" + r"("+keywords+")", message): return True
if re.search(r"("+keywords+")" + r".*?" + r"("+negative_trailers+")", message): return True
以上返回True以下消息:
message = 'There is no evidence of a collection.'
message = 'A collection is not present.'
这是正确的,因为它意味着我正在寻找的关键字/条件不存在。但是,它返回None以下消息:
message = 'There is no evidence of disc prolapse, collection or vertebral osteomyelitis.'
message = 'There is no evidence of disc prolapse/vertebral osteomyelitis/ collection.'
它似乎将第一条消息中的“或脊椎骨髓炎”和第二条消息中的“/集合”匹配为否定匹配,但这是错误的,暗示该消息显示“我正在寻找的情况是存在的”。它实际上应该返回“ True”。
我如何防止这种情况?
眼眸繁星
相关分类