如何添加已知单词标记器 keras python？

我想使用带有印度尼西亚语的 keras 将文本转换为序列。但 keras 标记器只检测已知单词。

如何在keras中添加已知单词？或者我有什么解决方案可以将文本转换为序列？

from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)

tokenizer.fit_on_texts(concated['TITLE'].values)

txt = ["bisnis di indonesia sangat maju"]

seq = list(tokenizer.texts_to_sequences_generator(txt))

如果我使用印度尼西亚语，“seq”变量会产生空数组，如果我使用英文单词，它会完美地工作。如何将 keras 用于不同的语言？或者无论如何要向keras添加一些已知词？

翻阅古今

浏览 242回答 1

1回答

手掌心

Keras不知道任何语言或文字。您可以使用fit_on_textsorfit_on_sequences方法创建词汇表。我猜您是fit在某些英文文本（即concated['TITLE'].values）上使用分词器。结果，内部词汇只包含英语单词（没有印尼语单词）。这解释了为什么seq如果txt只包含非英语单词会是空的。此外，您可以查看类的源代码Tokenizer。

随时随地看视频慕课网APP