AISHELL是一个中文语音数据集,其中包含178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中使用高保真麦克风进行录音,并采样降至16kHz。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。
THCHS30是由清华大学语音与语言技术中心发布的开源中文语音数据集。数据集包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取,采样频率16kHz,采样大小16bits。
谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。
TIMIT是一份英文语音识别数据集,包含630个扬声器的宽带录音,八个主要方言的美式英语,每个阅读十个语音丰富的句子。TIMIT语料库包括时间对齐的正字法,语音和单词转录以及每个话语的16位,16kHz语音波形文件。
CHIME是用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)的数据集。该数据集包含了训练集、开发机、测试集三部分,每份里面包括了多个扬声器在不同噪音环境下的数据。
Speech recognition for your site
End-to-end Automatic Speech Recognition for Madarian and English in Tensorflow
Speech-to-Text-WaveNet : End-to-end sentence level English speech recognition based on DeepMind's WaveNet and tensorflow
Separating singing voice from music based on deep neural networks in Tensorflow
Audio fingerprinting and recognition in Python
Python音频分析库:特征提取,分类,分段和应用
Speech recognition module for Python, supporting several engines and APIs, online and offline.
Deep neural networks for voice conversion (voice style transfer) in Tensorflow
Python library for audio and music analysis
A TensorFlow implementation of Baidu's DeepSpeech architecture
Tensorflow Implementation of Deep Voice 3
Cleaned code for paper "Natural Language Inference over Interaction Space"