我有一个自由文本医学叙述语料库,我将用它来进行分类任务,现在大约有 4200 条记录。
首先,我希望使用 w2v 创建词嵌入,但我有一个关于此任务的训练测试拆分的问题。
当我训练 w2v 模型时,是否适合使用所有数据来创建模型?还是我应该只使用训练数据来创建模型?
真的,我的问题归结为:我是获取整个数据集,创建 w2v 模型,用模型转换叙述,然后拆分,还是应该拆分,创建 w2v,然后独立地转换两个集合?
谢谢!
编辑
我在我的工作地点发现了一个由供应商建造的内部项目;他们创建拆分,并仅在训练数据上创建 w2v 模型,然后在不同的工作中独立转换两组;所以这是我上面指定的两个选项中的后者。这就是我认为的情况,因为我不想在任何测试数据上污染 w2v 模型。
梵蒂冈之花
相关分类