人工生成的问题/答案对,难度评级来自维基百科文章。
仅仅只包含英语的语音数据,最近百度发表的论文《深度语音:扩展端对端语音识别(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了该语音数据集。
英语短语相关的维基百科文章数据库、论文(11 GB)
来源于各个地方的208,000个纯文本笑话
一周内(2017年8月24日至2017年8月30日)全球在线发布的大多新闻内容的快照,包括大约140万篇文章、20,000个新闻来源和20多种语言(115 MB)
截至2016年5月,包含全部260万个Urban Dictionary的词汇定义、提交者和点赞数量的CSV语料库(238 MB)
包含一小部分含有复杂HTML表单的页面,共计267万个复杂表单(50+ GB)
2017年10月25日创建,包含4,483,032个问题及其答案(3.6 GB)
来自管理联邦采购数据系统(FPDS-NG)的联邦采购数据中心(FPDC)的转储,真实性和准确性已受承诺(180 GB)
带有Freebase注释的ClueWeb09和ClueWeb12语料库(72 GB)
收集用于作者信息和个性预测的实验,由145名不同学生编写的145篇荷兰语文章组成,每个学生还参加了在线MBTI性格测试
是一个开放的世界信息数据库,包含电影、音乐、人物、地域在内的数百个类别的数百万个主题(26GB)
汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题(185 MB)
关于Freebase中每个主题的基本识别事实的数据转储(5 GB)
Hand Keypoint Detection in Single Images using Multiview Bootstrapping
共八个作文集,每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息,另一些则是自由发挥。所有文章都是由7年级到10年级的学生撰写的,并经相关人员手工评分,有些还进行了双重评分(100 MB)
Freebase中所有当前事实和主张的数据转储(35 GB)
n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)
2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)
https://arvindn.livejournal.com/tag/data