鉴于这段代码:
from tensorflow.keras.preprocessing.text import Tokenizer
sentences = [
'i love my dog',
'I, love my cat',
'You love my dog!'
]
tokenizer = Tokenizer(num_words = 1)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print(word_index)
无论num_words=1或num_words=100,当我在 jupyter 笔记本上运行此单元时,我都会得到相同的输出,而且我似乎无法理解它在标记化方面有何不同。
{'爱': 1, '我的': 2, '我': 3, '狗': 4, '猫': 5, '你': 6}
慕田峪4524236
相关分类