数据集 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室 - Powered By EduSoho

01

12月

arXiv

所有归档的论文全文（270 GB）+源文件（190 GB）

01

12月

短信垃圾邮件收集

是一个包含5,574英文单词，真实的、未附带附件的短信内容集，已合法进行标记（200 KB）

01

12月

KFW 2012

533对亲属关系(KFW-I)和1000 对亲属关系(KFW-II)

01

12月

Stackoverflow

730万个stackoverflow问题+其他stackexchanges（查询工具）

01

12月

MALF

5250幅图像,共11931个人脸

01

12月

MMI

75个人,共2900段视频(表情识别)

01

12月

Maluuba Datasets

用于状态性的自然语言理解研究的人工制作的精细数据集。

01

12月

CelebA

10177个人,共202599幅人脸图像(属性识别)

01

12月

Twitter UK Geolocated Tweets

Twitter UK Geolocated Tweets：来自英国的17万条推文。（47 MB）

01

12月

ClueWeb11 FACC

带有Freebase标识符注释的ClueWeb11（92 GB）

01

12月

Wikidata数据集

RDF数据RDF 转储首先，可以在https://dumps.wikimedia.org/wikidatawiki/entities/下找到使用Turtle和NTriples格式的规范 RDF 转储。此处描述了映射。这些完整的陈述被标注为所有。其次，提供所谓的真实转储。他们使用nt格式。它们的格式与...

01

12月

希拉里克林顿的电子邮件[Kaggle]

美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件（12 MB）

01

12月

Gutenberg EBooks

电子书基本信息的注释列表（2 MB）

01

12月

基于新闻文章判断美国经济表现

新闻文章的标题和摘要与美国经济相关程度的排名（5 MB）

01

12月

AFLW

25993幅图像,每个人标定21个关键点

01

12月

LibriSpeech

包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集，且由包含文本和语音的书籍章节组织起结构。

01

12月

社交媒体上有关灾难的消息

包含10,000条和灾难事故相关的带注释推特（2 MB）

01

12月

垃圾邮件/标题党新闻数据集[Kaggle]

新闻网站The Examiner上的新闻汇编，包含超过6年的21000多位作者撰写的300万篇文章的标题（200 MB）

01

12月

亚马逊食品评论[Kaggle]

数据跨越10年以上，包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论（240 MB）

01

12月

亚马逊评论

斯坦福收集了3500万条亚马逊评论，跨度18年（11 GB）