Multi-layer Recurrent Neural Networks (LSTM, RNN) for character-level language models in Python using Tensorflow
NLTK Source
用两个概念来读一个句子,例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”,判断这句话是否属实,然后将结果排列为1-5五个等级(700 KB)
包含2010年4月以前维基百科英文部分中的所有文章的快照,已经去除了所有链接和不相关的材料(导航文本等),但未经标记,是原始文本(1.8 GB)
带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。
荷兰语,该语料库包含两种类型的学生文本:作文和评论。涉及作者(性别、年龄、性取向、来源地区、性格概况)和文档(时间、流派、真实性、情绪、等级)等大量元数据。由安特卫普大学CLiPS研究中心提供,主要用于计量文体学分析。
仅仅只包含英语的语音数据,最近百度发表的论文《深度语音:扩展端对端语音识别(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了该语音数据集。