与品牌/关键字相关的推文,网站上包括论文和研究想思路(77 MB)
所有《纽约时报》的Facebook帖子(5 MB)
3837幅图像,每个人脸标定68个关键点
所有归档的论文全文(270 GB)+源文件(190 GB)
是一个包含5,574英文单词,真实的、未附带附件的短信内容集,已合法进行标记(200 KB)
533对亲属关系(KFW-I)和1000 对亲属关系(KFW-II)
730万个stackoverflow问题+其他stackexchanges(查询工具)
5250幅图像,共11931个人脸
75个人,共2900段视频(表情识别)
用于状态性的自然语言理解研究的人工制作的精细数据集。
10177个人,共202599幅人脸图像(属性识别)
Twitter UK Geolocated Tweets:来自英国的17万条推文。(47 MB)
带有Freebase标识符注释的ClueWeb11(92 GB)
RDF数据RDF 转储首先,可以在https://dumps.wikimedia.org/wikidatawiki/entities/下找到使用Turtle和NTriples格式的规范 RDF 转储。此处描述了映射。这些完整的陈述被标注为所有。其次,提供所谓的真实转储。他们使用nt格式。它们的格式与...
美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件(12 MB)
电子书基本信息的注释列表(2 MB)
新闻文章的标题和摘要与美国经济相关程度的排名(5 MB)
25993幅图像,每个人标定21个关键点
包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集,且由包含文本和语音的书籍章节组织起结构。
包含10,000条和灾难事故相关的带注释推特(2 MB)