词频-你文件频率(TF-IDF)
缺点:
词频(TF)和逆文件频率(IDF)的统计和计算都直接从语料统计得出,当增加语料的时候,TF和IDF往往需要重新计算,无法增量更新,每次添加语料,需要重新计算词频。
没有考虑特征词的位置因素对文本的区分度,词条出现在文档的不同位置时,对区分度贡献大小是不一样的。
按照传统TF-IDF,往往一些生僻词的IDF(反文档频率)会比较高、因此这些生僻词往往会被误认为是文档关键词。
One-Hot缺点:
1.词通常很多,几十万个词,那就需要句子长度x几十万的矩阵才能表示这个句子
2.这种方法效率低下,矩阵包含很多零
3.无法表达相似性
4.新加一个词我们需要重新计算
One-Hot理解:
先给句子分词,分词组从词表,词表有索引,然后编码形成矩阵
文本表示方法:One-Hot、TF-IDF、Word2Vec
缺点:
浪费空间,不利于计算
体现不出单词间的关系
优点:
长度远小于字典长度
向量加爵代表相似度
可以增量添加新词
一个朴素的想法就是,我们把One-Hot中0的位置也利用起来,并且用浮点数来表示词特性,这样我们就可以用固定的,较小的维度来表达海量的信息
IDF 是逆文件频率,表示关键词的普遍程度。
如果包含词条i的文档越少,IDF越大,则说明该词条具有很好的类别区分能力。
某一特定词语的IDF,可以由总文件数目除以包含该词语的文件数目,再将得到的商取对数得到。
不懂的名词儿:
卷积
过拟合
loss
激活函数
embedding层
试试笔记功能,调阈值
老师,代码在哪里呀?4章 和5 章
建模区别:
1111111
22222
github
独热编码的缺点
独热编码(one-hot)
文本表示方法
文本分类任务描述
文本分类任务描述
应用——知识点抽取
应用-----非结构化信息提取
应用--意图识别
应用,情感分析
文本分类任务描述
我的笔记笔记笔记,自然期刊
我的笔记笔记笔记,自然自然
我的笔记笔记笔记,自然
我的笔记笔记笔记,自然
我的笔记啊啊啊 我的笔记啊啊啊 我的笔记啊啊啊 我的笔记啊啊啊 我的笔记啊啊啊