75个人,共2900段视频(表情识别)
用于状态性的自然语言理解研究的人工制作的精细数据集。
10177个人,共202599幅人脸图像(属性识别)
Twitter UK Geolocated Tweets:来自英国的17万条推文。(47 MB)
带有Freebase标识符注释的ClueWeb11(92 GB)
RDF数据RDF 转储首先,可以在https://dumps.wikimedia.org/wikidatawiki/entities/下找到使用Turtle和NTriples格式的规范 RDF 转储。此处描述了映射。这些完整的陈述被标注为所有。其次,提供所谓的真实转储。他们使用nt格式。它们的格式与...
美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件(12 MB)
电子书基本信息的注释列表(2 MB)
新闻文章的标题和摘要与美国经济相关程度的排名(5 MB)
25993幅图像,每个人标定21个关键点
包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集,且由包含文本和语音的书籍章节组织起结构。
新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章的标题(200 MB)
斯坦福收集了3500万条亚马逊评论,跨度18年(11 GB)
阅读一篇简短文章,并选出它和两篇维基百科文章中的哪一篇最接近(6 MB)
13673个人,共55608 幅图像(年龄识别)
包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)
32203幅图像,共393703个人脸
123个人,共593段视频(表情识别)
英文维基百科的处理转储(66 GB)
包括餐厅排名和220万条评论