13673个人,共55608 幅图像(年龄识别)
包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)
123个人,共593段视频(表情识别)
英文维基百科的处理转储(66 GB)
关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文,如果所述推文对该问题赞成、反对或保持中立,则将其分类(600 KB)
样例数据文件是txt格式,每行一条数据,每条数据是一个(实体名称,属性名称,属性值)的三元组,中间用tab分隔,具体如下所示。
带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。
截至2015年7月的每个公开可用的书签评论,共计17亿条评论(250 GB)
荷兰语,该语料库包含两种类型的学生文本:作文和评论。涉及作者(性别、年龄、性取向、来源地区、性格概况)和文档(时间、流派、真实性、情绪、等级)等大量元数据。由安特卫普大学CLiPS研究中心提供,主要用于计量文体学分析。
包含从各种在线沙特报纸中摘录的31,030份阿拉伯文报纸文章及其元数据(2 MB)