我有大约 138,000 条用户反馈记录,我想对其进行分析,以了解用户最常说的话的大致模式。每一个的评分都在 1-5 星之间,所以我不需要做任何类型的情感分析。我最感兴趣的是将数据集分成 >=4 颗星,看看我们在哪些方面做得很好,以及 <= 3 颗星,看看我们需要改进哪些地方。
我遇到的一个关键问题是我希望看到很多 n 元语法。其中一些我知道,比如“HOV 车道”、“拼车车道”、“绕道时间”、“让开”等。但我也想以编程方式检测常见的二元组和三元组。我一直在玩Spacy,但它似乎没有任何能力在语料库级别上进行分析,只能在文档级别上进行分析。
理想情况下,我的管道看起来像这样(我认为):
将已知 n 元语法列表导入到分词器中
将每个字符串处理为标记化文档,删除标点符号、停用词等,同时在标记化期间尊重已知的 n 元语法(即“HOV Lane”应该是单个名词标记)
找出我错过的语料库中最常见的二元组和三元组
使用找到的 n 元模型重新标记
按评级划分(>=4 和 <=3)
查找语料库中每个数据分割的最常见主题
我似乎找不到一个工具,甚至是一组工具,可以让我在这里做我想做的事情。我是否以某种错误的方式处理这个问题?任何有关如何开始的指示将不胜感激!
largeQ
子衿沉夜
相关分类