新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章的标题(200 MB)
数据跨越10年以上,包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论(240 MB)
斯坦福收集了3500万条亚马逊评论,跨度18年(11 GB)
阅读一篇简短文章,并选出它和两篇维基百科文章中的哪一篇最接近(6 MB)
13673个人,共55608 幅图像(年龄识别)
包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)
32203幅图像,共393703个人脸
123个人,共593段视频(表情识别)
英文维基百科的处理转储(66 GB)
包括餐厅排名和220万条评论
关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文,如果所述推文对该问题赞成、反对或保持中立,则将其分类(600 KB)
包含从1951年到2014年的经济新闻,可根据新闻报道判断该文章是否与美国经济情况相关,如果是,报道的基调是什么(12 MB)
预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息(1.5 GB)
所有NIPS2015论文全文(335 MB)
2000个人,共163446幅人脸图像(年龄识别)
样例数据文件是txt格式,每行一条数据,每条数据是一个(实体名称,属性名称,属性值)的三元组,中间用tab分隔,具体如下所示。
带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。
10575个人,共49414幅人脸图像
截至2015年7月的每个公开可用的书签评论,共计17亿条评论(250 GB)
并行语料库训练数据(612 MB) md5 sha1