数据跨越10年以上,包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论(240 MB)
13673个人,共55608 幅图像(年龄识别)
包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)
123个人,共593段视频(表情识别)
英文维基百科的处理转储(66 GB)
关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文,如果所述推文对该问题赞成、反对或保持中立,则将其分类(600 KB)
样例数据文件是txt格式,每行一条数据,每条数据是一个(实体名称,属性名称,属性值)的三元组,中间用tab分隔,具体如下所示。
带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。
截至2015年7月的每个公开可用的书签评论,共计17亿条评论(250 GB)