我有一个包含 2000 万条随机收集的个人推文的数据集(没有两条推文来自同一个帐户)。让我将此数据集称为“通用”数据集。此外,我还有另一个“特定”数据集,其中包括从药物(阿片类药物)滥用者那里收集的 100,000 条推文。每条推文至少有一个与之相关的标签,例如阿片类药物、成瘾、过量、氢可酮等(最多 25 个标签)。
我的目标是使用“特定”数据集来训练使用 Keras 的模型,然后使用它来标记“通用”数据集中的推文,以识别可能由吸毒者编写的推文。
为了向前推进,我想澄清一些事情:
假设我所有的训练推文都有一个标签——阿片类药物。然后,如果我通过它传递未标记的推文,模型是不是很可能只是将所有这些都标记为阿片类药物,因为它不知道其他任何事情?为了学习目的,我应该使用各种不同的推文/标签吗?也许,出于培训目的选择推文/标签有任何一般准则吗?
如何添加更多带有用于训练的标签的列(代码中没有使用一个类似的列)?
一旦我训练模型并达到适当的准确性,我如何通过它传递未标记的推文以进行预测?
如何添加混淆矩阵?
任何其他相关反馈也非常感谢。
谢谢!
“一般”推文示例:
everybody messages me when im in class but never communicates on the weekends like this when im free. feels like that anyway lol.
i woke up late, and now i look like shit. im the type of person who will still be early to whatever, ill just look like i just woke up.
“特定”推文示例:
$2 million grant to educate clinicians who prescribe opioids
early and regular marijuana use is associated with use of other illicit drugs, including opioids
相关分类