包含从维基百科中提取出的结构化信息,包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息,其中2.57亿条来自维基百科英文版,7.66亿条来自其他语言版本(17...
包含15年内(2003年初至2017年)澳大利亚广播公司发布的130万条新闻的标题,深入研究关键词,可以看到所有塑造了过去十年的重要事件,以及它们随着时间的演变历程(56 MB)
包含Home Depot网站上的许多产品和真实客户的搜索关键词。每对词都经3名评估人员评估,并给出1—3的相关性评分,可用来预测相关性(65 MB)
包含大量路透社新闻报道,主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季,NIST接管了RCV1,所以现在需要向NIST发送请求并签署协议来获取这些数据集(2.5 GB)
来自东京的20万条推文(47 MB)
德语报刊文本的句法注释语料库,适用于所有大学和非营利组织,需要签署并发送表格才能获得
人工生成的问题/答案对,难度评级来自维基百科文章。
英语短语相关的维基百科文章数据库、论文(11 GB)
一周内(2017年8月24日至2017年8月30日)全球在线发布的大多新闻内容的快照,包括大约140万篇文章、20,000个新闻来源和20多种语言(115 MB)
截至2016年5月,包含全部260万个Urban Dictionary的词汇定义、提交者和点赞数量的CSV语料库(238 MB)
包含一小部分含有复杂HTML表单的页面,共计267万个复杂表单(50+ GB)
2017年10月25日创建,包含4,483,032个问题及其答案(3.6 GB)
来自管理联邦采购数据系统(FPDS-NG)的联邦采购数据中心(FPDC)的转储,真实性和准确性已受承诺(180 GB)
带有Freebase注释的ClueWeb09和ClueWeb12语料库(72 GB)
收集用于作者信息和个性预测的实验,由145名不同学生编写的145篇荷兰语文章组成,每个学生还参加了在线MBTI性格测试
是一个开放的世界信息数据库,包含电影、音乐、人物、地域在内的数百个类别的数百万个主题(26GB)
汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题(185 MB)
关于Freebase中每个主题的基本识别事实的数据转储(5 GB)
Freebase中所有当前事实和主张的数据转储(35 GB)
n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)