chatterbot是一个开源中文对话语料库,语言库数量为560,已按类型进行分类。
CHIME是用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)的数据集。该数据集包含了训练集、开发机、测试集三部分,每份里面包括了多个扬声器在不同噪音环境下的数据。
Microsoft Cognitive Toolkit (CNTK), an open source deep-learning toolkit
Python音频分析库:特征提取,分类,分段和应用
Speech recognition module for Python, supporting several engines and APIs, online and offline.
Deep neural networks for voice conversion (voice style transfer) in Tensorflow
Python library for audio and music analysis
Topic Modelling for Humans
News, full-text, and article metadata extraction in Python 3. Advanced docs:
结巴中文分词
An Efficient Lexical Analyzer for Chinese
是一个包含5,574英文单词,真实的、未附带附件的短信内容集,已合法进行标记(200 KB)
包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集,且由包含文本和语音的书籍章节组织起结构。