Keras Tokenizer num_words 指定了什么？

word_index 它只是整个文本语料库的单词到 id 的映射，无论 num_words 是什么区别在用法上很明显。例如，如果我们调用texts_to_sequencessentences = [    'i love my dog',    'I, love my cat',    'You love my dog!']tokenizer = Tokenizer(num_words = 1+1)tokenizer.fit_on_texts(sentences)tokenizer.texts_to_sequences(sentences) # [[1], [1], [1]]仅返回爱情 ID，因为最常见的单词反而sentences = [    'i love my dog',    'I, love my cat',    'You love my dog!']tokenizer = Tokenizer(num_words = 100+1)tokenizer.fit_on_texts(sentences)tokenizer.texts_to_sequences(sentences) # [[3, 1, 2, 4], [3, 1, 2, 5], [6, 1, 2, 4]]返回最常见的 100 个单词的 id

Keras Tokenizer num_words 指定了什么？

1回答