我有一个包含:(“wordsList”和“classList”文件)的数据集。
wordsList 文件包含 72 封预处理的电子邮件。每行都是从每封电子邮件中提取的单词列表。
classList 文件包含指示电子邮件是普通电子邮件还是广告的类标签(0 表示普通电子邮件,1 表示广告)。
我的任务是开发一个朴素贝叶斯分类器作为Python中的电子邮件过滤器。也就是说,分类器预测电子邮件是普通电子邮件还是广告。
为了开发这个,我需要使用分层采样从72行中选择66行进行训练,其余6行用于测试。然后返回这 6 条记录的分类概率。但对我来说坏消息是,我不能使用任何机器学习库,只能使用NumPy和SciPy。
有没有办法实现这一点?如果是这样,是否有任何从头开始实现此方法的示例代码?提前感谢您!
一只名叫tom的猫
相关分类