社交媒体上用户按个人喜好分类内容的树形数据集,包含7,121位Flickr的树(40 MB)
与品牌/关键字相关的推文,网站上包括论文和研究想思路(77 MB)
所有《纽约时报》的Facebook帖子(5 MB)
所有归档的论文全文(270 GB)+源文件(190 GB)
533对亲属关系(KFW-I)和1000 对亲属关系(KFW-II)
730万个stackoverflow问题+其他stackexchanges(查询工具)
用于状态性的自然语言理解研究的人工制作的精细数据集。
Twitter UK Geolocated Tweets:来自英国的17万条推文。(47 MB)
带有Freebase标识符注释的ClueWeb11(92 GB)
RDF数据RDF 转储首先,可以在https://dumps.wikimedia.org/wikidatawiki/entities/下找到使用Turtle和NTriples格式的规范 RDF 转储。此处描述了映射。这些完整的陈述被标注为所有。其次,提供所谓的真实转储。他们使用nt格式。它们的格式与...
美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件(12 MB)
电子书基本信息的注释列表(2 MB)
新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章的标题(200 MB)
斯坦福收集了3500万条亚马逊评论,跨度18年(11 GB)
阅读一篇简短文章,并选出它和两篇维基百科文章中的哪一篇最接近(6 MB)
包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)
英文维基百科的处理转储(66 GB)
包括餐厅排名和220万条评论
关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文,如果所述推文对该问题赞成、反对或保持中立,则将其分类(600 KB)
包含从1951年到2014年的经济新闻,可根据新闻报道判断该文章是否与美国经济情况相关,如果是,报道的基调是什么(12 MB)