全部 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室

01

12月

数据集

CMU Q/A Dataset

人工生成的问题/答案对，难度评级来自维基百科文章。

01

12月

数据集

2000 HUB5 English

仅仅只包含英语的语音数据，最近百度发表的论文《深度语音：扩展端对端语音识别(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了该语音数据集。

01

12月

数据集

crosswikis

英语短语相关的维基百科文章数据库、论文（11 GB）

01

12月

数据集

20万英语笑话文本

来源于各个地方的208,000个纯文本笑话

01

12月

数据集

一周全球新闻馈送[Kaggle]

一周内（2017年8月24日至2017年8月30日）全球在线发布的大多新闻内容的快照，包括大约140万篇文章、20,000个新闻来源和20多种语言（115 MB）

01

12月

数据集

Urban Dictionary词汇和定义[Kaggle]

截至2016年5月，包含全部260万个Urban Dictionary的词汇定义、提交者和点赞数量的CSV语料库（238 MB）

01

12月

数据集

Yahoo!从公开可用网页中提取的HTML表单

包含一小部分含有复杂HTML表单的页面，共计267万个复杂表单（50+ GB）

01

12月

数据集

Yahoo! Answers Comprehensive Questions and Answers

2017年10月25日创建，包含4,483,032个问题及其答案（3.6 GB）

01

12月

数据集

联邦采购数据中心的联邦合同

来自管理联邦采购数据系统（FPDS-NG）的联邦采购数据中心（FPDC）的转储，真实性和准确性已受承诺（180 GB）

01

12月

数据集

ClueWeb09 FACC

带有Freebase注释的ClueWeb09和ClueWeb12语料库（72 GB）

01

12月

数据集

Personae语料库

收集用于作者信息和个性预测的实验，由145名不同学生编写的145篇荷兰语文章组成，每个学生还参加了在线MBTI性格测试

01

12月

数据集

Freebase数据转储

是一个开放的世界信息数据库，包含电影、音乐、人物、地域在内的数百个类别的数百万个主题（26GB）

01

12月

数据集

印度新闻标题[Kaggle]

汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题（185 MB）

01

12月

数据集

Freebase简单主题转储

关于Freebase中每个主题的基本识别事实的数据转储（5 GB）

01

12月

数据集

handdb

Hand Keypoint Detection in Single Images using Multiview Bootstrapping

01

12月

数据集

ASAP自动短文评分[Kaggle]

共八个作文集，每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息，另一些则是自由发挥。所有文章都是由7年级到10年级的学生撰写的，并经相关人员手工评分，有些还进行了双重评分（100 MB）

01

12月

数据集

Freebase Quad Dump

Freebase中所有当前事实和主张的数据转储（35 GB）

01

12月

数据集

Yahoo! N-Grams 2.0

n-gram（n = 1至5），从1260多个面向新闻的站点中检索到的1460万个文档（1.26亿条独特语句，34亿个运行词）（12 GB）

01

12月

数据集

WestburyLab USENET语料库

2005—2010年47,860篇英语新闻的匿名汇总，文章长度在500字和500,000字之间，英文单词占比高达90%（40 GB）

01

12月

数据集

Del.icio.us

https://arvindn.livejournal.com/tag/data