在 ngram 模型(字符 ngram 或词袋)中,我们需要确保测试数据的词汇表不用于拟合或训练模型。
这就是 sklearn TfidfVectorizer 函数对两个函数(拟合和变换)所做的事情。
所以,如果我有一个 sklearn 管道模型:
model = Pipeline([
('tfidf', TfidfVectorizer()),
('svc', SVC())
])
我将它传递给交叉验证函数:
cv = cross_val_score(model, data['text'], data['label'], cv=5, scoring='accuracy', n_jobs=-1)
cross_val_score 是否在每个折叠中遵循场景(适合训练..然后,在测试中转换)?
或者它只是在开始时适合模型一次(第一次折叠)?
幕布斯6054654
相关分类