基于刺激位置的打鼾声自动分类,采用原型网络
打鼾声音元学习,广州华南理工大学
2022 应用声学(Tsang Sik-Ho(曾思浩) @ Medium)打鼾声音分类
2017 年挑战:收听者、感冒和打鼾](https://medium.com/brief-review-the-interspeech-2017-computational-paralinguistics-challenge-addressee-cold-791f435e592b) 2018[MPSSC] [AlexNet 和 VGG-19 对打鼾声音的分类] 2019[CNN 对打鼾声音的分类] 2020** [Snore-GAN]
==== 我的医疗相关论文摘要 ====
==== 我的其他论文摘要也在这里 ====
- 提出了一种名为原型网络的元学习算法,。
- 该网络是一种包含6个卷积层的卷积神经网络模型,并采用互补交叉熵(CCE)损失函数。
这里是概要部分
- 打呼元学习
- 成果
鼾声元学习技术
1.1., 代表性网络- 原型网络 是一种有效的元学习算法,用于解决Few-Shot Learning (FSL) 问题。
- 对于小数据集,训练集 和 测试集 进一步细分为 训练支持集、训练查询集、测试支持集 和 测试查询集。
- 构建原型网络的N-way-K-shot 策略是一种直接的方式,其中 N 是用于分类的类别数,K 是每个类别的样本数(在训练支持集和测试支持集中)。
- 模型在训练支持集和训练查询集上学习,在测试支持集上进行微调,并在测试查询集上进行测试。
模型从数据集中的具有各种输出的数据集中学到一个通用的嵌入空间,然后可以直接应用到新的少量样本上而无需重新训练模型。
- N = 4,因为MPSSC 数据集中有4个类别 V, O, T, E。
- 考虑到原始划分中的数据集类型 T 的声音数量较少(训练集:8,开发集:15,测试集:16),K 的值 是受类型 T 声音数量限制的关键超参数,被设定为14。
- 在学习过程中,训练集、开发集和测试集的数据被进一步细分为支持集 K 和查询集 Q。
梅尔频谱图
- 首先,获取梅尔频谱图(尺寸为3×256×256)作为特征,来表示鼾声。
通过一个卷积神经网络(CNN),我们学习元训练集中的每个样本 xi 的嵌入向量 fΦ(xi),其中 Φ 是 CNN 中可学习的参数。
支持集中的学习到的嵌入特征向量 被用来 生成每个类别的原型。
- 类 k 的原型 ck 可以简单地表示为通过计算该类别中的嵌入支持点的平均值。
- 对于查询点 x ,它属于类 k 的条件概率 pΦ 如下所示:
- 其中,距离度量 d(.) 即 欧几里得距离 。
该模型旨在获得最优的嵌入空间,使查询点与其相关正确原型点之间的条件概率 pΦ 较高。
- 元训练通过最小化损失函数来实现:
- 在测试进行期间,测试集会随机分为支持集和查询集。支持集用于支持模型,查询集用于测试模型。
1.4. CNN 卷积神经网络架构测试支持集中的示例首先被用于微调在元训练步骤中预训练的模型,以构建一个最优的嵌入空间,通过最小化测试支持集与预训练原型之间的距离来构建测试类的最佳嵌入空间。
通过计算嵌入空间中学习到的嵌入向量与原型之间的距离来测试查询点。
3 CNN模型的架构
- 在本文中,讨论了在FSL任务中常用的三种CNN结构 [42]。
- 一种是4层,一种是6层,还有一种是6层并在前两层卷积中使用了池化层。
- 增强数据(ED):通过随机重组同一类别的打鼾声音来生成增强数据,从而使训练数据加倍(V: 336, O: 154, T: 16, E: 60)。
- 平衡数据(BD):通过诸如添加随机噪声等图像增强技术来获得平衡数据(V: 168, O: 152, T: 126, E: 150)。
- 尽管通常使用交叉熵(CE)作为损失函数,在本工作中也采用了互补交叉熵(CCE)来解决训练数据分布不平衡的问题:
交叉熵(CE)(公式来自[40])
补全交叉熵(CCE)(参见[40])
- 简单来说,CCE 是所有错分类样本的香农熵的平均值。
2. 结果:如同 [40] 中所述,使用 CE 损失和 CCE 损失的总和 进行 训练模型。
带有不同设置组合的UAR
在相同的预处理方法(ED 使用了CCE) 下,Conv6NP 在性能上表现优于 Conv4 和 Conv6,分别比它们提高了 7.63%(p < 0.05)和 17.88%(p < 0.05)。
使用不同组合的训练集、验证集和测试集情况下的UAR(未明确定义的缩写)
所有训练集、验证集和测试集组合的平均UAR值为70.53%, 相比[17]的基准值55.8%,提高了17.73%(p值小于0.05)。这表明该结果显著优于基准值。
最新的比较(SOTA:State of the Art)
所提出的方法在预定义的数据分割下取得了最高的UAR,其相关平均UAR分别为77.13%和70.53%。