所有归档的论文全文(270 GB)+源文件(190 GB)
是一个包含5,574英文单词,真实的、未附带附件的短信内容集,已合法进行标记(200 KB)
533对亲属关系(KFW-I)和1000 对亲属关系(KFW-II)
730万个stackoverflow问题+其他stackexchanges(查询工具)
5250幅图像,共11931个人脸
75个人,共2900段视频(表情识别)
用于状态性的自然语言理解研究的人工制作的精细数据集。
10177个人,共202599幅人脸图像(属性识别)
Twitter UK Geolocated Tweets:来自英国的17万条推文。(47 MB)
带有Freebase标识符注释的ClueWeb11(92 GB)
RDF数据RDF 转储首先,可以在https://dumps.wikimedia.org/wikidatawiki/entities/下找到使用Turtle和NTriples格式的规范 RDF 转储。此处描述了映射。这些完整的陈述被标注为所有。其次,提供所谓的真实转储。他们使用nt格式。它们的格式与...
美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件(12 MB)
电子书基本信息的注释列表(2 MB)
新闻文章的标题和摘要与美国经济相关程度的排名(5 MB)
25993幅图像,每个人标定21个关键点
包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集,且由包含文本和语音的书籍章节组织起结构。
包含10,000条和灾难事故相关的带注释推特(2 MB)
新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章的标题(200 MB)
数据跨越10年以上,包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论(240 MB)
斯坦福收集了3500万条亚马逊评论,跨度18年(11 GB)