全部 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室 - Powered By EduSoho

标签：人工智能

01

12月

Maluuba Datasets

用于状态性的自然语言理解研究的人工制作的精细数据集。

01

12月

CelebA

10177个人,共202599幅人脸图像(属性识别)

01

12月

Twitter UK Geolocated Tweets

Twitter UK Geolocated Tweets：来自英国的17万条推文。（47 MB）

01

12月

ClueWeb11 FACC

带有Freebase标识符注释的ClueWeb11（92 GB）

01

12月

Wikidata数据集

RDF数据RDF 转储首先，可以在https://dumps.wikimedia.org/wikidatawiki/entities/下找到使用Turtle和NTriples格式的规范 RDF 转储。此处描述了映射。这些完整的陈述被标注为所有。其次，提供所谓的真实转储。他们使用nt格式。它们的格式与...

01

12月

希拉里克林顿的电子邮件[Kaggle]

美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件（12 MB）

01

12月

Gutenberg EBooks

电子书基本信息的注释列表（2 MB）

01

12月

基于新闻文章判断美国经济表现

新闻文章的标题和摘要与美国经济相关程度的排名（5 MB）

01

12月

AFLW

25993幅图像,每个人标定21个关键点

01

12月

LibriSpeech

包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集，且由包含文本和语音的书籍章节组织起结构。

01

12月

垃圾邮件/标题党新闻数据集[Kaggle]

新闻网站The Examiner上的新闻汇编，包含超过6年的21000多位作者撰写的300万篇文章的标题（200 MB）

01

12月

亚马逊评论

斯坦福收集了3500万条亚马逊评论，跨度18年（11 GB）

01

12月

新闻文章/维基百科页面配对

阅读一篇简短文章，并选出它和两篇维基百科文章中的哪一篇最接近（6 MB）

01

12月

MORPH

13673个人,共55608 幅图像(年龄识别)

01

12月

Google Web 5gram

包含n-gram及其观察到的频率计数。n-gram的长度从unigrams（单个单词）到5-gram，主要用于统计语言建模（24 GB）

01

12月

WIDER

32203幅图像,共393703个人脸

01

12月

CK+

123个人,共593段视频(表情识别)

01

12月

WEX

英文维基百科的处理转储（66 GB）

01

12月

Yelp

包括餐厅排名和220万条评论

01

12月

Twitter上激进分子情绪分析

关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文，如果所述推文对该问题赞成、反对或保持中立，则将其分类（600 KB）