猿问

在pytorch中为ASR加载librispeech

我最近正在研究使用神经网络和CTC损失训练自动语音识别机。但是我要做的第一件事是准备用于训练模型的数据。由于Librispeech包含大量数据,因此一开始我将使用一个名为“ Mini LibriSpeech ASR语料库”的子集。(http://www.openslr.org/31/)。我也正在使用Warn-ctc的SeanNaren Pytorch绑定(https://github.com/SeanNaren/warp-ctc)。

读取音频文件及其对应的成绩单后,我使用Spicy包来计算每个音频文件的声谱图。当我将频谱图馈送到卷积层以进行特征提取时,就会出现问题。每个频谱图的长度与其他频谱图的长度不同。在对该问题进行了更多搜索之后,我发现我应该将特定数量的帧传递给网络,但是要达到此目的,我需要用相应的字符(也包含空白符号)标记声音文件的每个帧。

有没有办法在python中做到这一点?


慕田峪4524236
浏览 323回答 2
2回答

Smart猫小萌

动态计算中将pytorch nn与频谱图集成的最简单方法是nnAudio。
随时随地看视频慕课网APP

相关分类

Python
我要回答