AISHELL是一个中文语音数据集,其中包含178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中使用高保真麦克风进行录音,并采样降至16kHz。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。
THCHS30是由清华大学语音与语言技术中心发布的开源中文语音数据集。数据集包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取,采样频率16kHz,采样大小16bits。
谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。
TIMIT是一份英文语音识别数据集,包含630个扬声器的宽带录音,八个主要方言的美式英语,每个阅读十个语音丰富的句子。TIMIT语料库包括时间对齐的正字法,语音和单词转录以及每个话语的16位,16kHz语音波形文件。
CHIME是用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)的数据集。该数据集包含了训练集、开发机、测试集三部分,每份里面包括了多个扬声器在不同噪音环境下的数据。