全部 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室

01

12月

数据集

亚马逊评论

斯坦福收集了3500万条亚马逊评论，跨度18年（11 GB）

01

12月

数据集

新闻文章/维基百科页面配对

阅读一篇简短文章，并选出它和两篇维基百科文章中的哪一篇最接近（6 MB）

01

12月

数据集

MORPH

13673个人,共55608 幅图像(年龄识别)

01

12月

数据集

Google Web 5gram

包含n-gram及其观察到的频率计数。n-gram的长度从unigrams（单个单词）到5-gram，主要用于统计语言建模（24 GB）

01

12月

数据集

WIDER

32203幅图像,共393703个人脸

01

12月

数据集

CK+

123个人,共593段视频(表情识别)

01

12月

数据集

WEX

英文维基百科的处理转储（66 GB）

01

12月

数据集

Yelp

包括餐厅排名和220万条评论

01

12月

数据集

Twitter上激进分子情绪分析

关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文，如果所述推文对该问题赞成、反对或保持中立，则将其分类（600 KB）

01

12月

数据集

经济新闻报道的基调和相关性

包含从1951年到2014年的经济新闻，可根据新闻报道判断该文章是否与美国经济情况相关，如果是，报道的基调是什么（12 MB）

01

12月

数据集

GigaOM Wordpress Challenge [Kaggle]

预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息（1.5 GB）

01

12月

数据集

NIPS2015论文（第2版）[Kaggle]

所有NIPS2015论文全文（335 MB）

01

12月

数据集

CACD2000

2000个人,共163446幅人脸图像(年龄识别)

01

12月

数据集

CN-DBpedia Dump数据集

样例数据文件是txt格式，每行一条数据，每条数据是一个(实体名称，属性名称，属性值)的三元组，中间用tab分隔，具体如下所示。

01

12月

数据集

VoxForge

带口音的语音清洁数据集，特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。

01

12月

数据集

CASIAWebFace

10575个人,共49414幅人脸图像

01

12月

数据集

Reddit评论

截至2015年7月的每个公开可用的书签评论，共计17亿条评论（250 GB）

01

12月

数据集

欧洲语言机器翻译

并行语料库训练数据(612 MB) md5 sha1

01

12月

数据集

LFW

5749个人,共13233幅人脸图像

01

12月

数据集

CSI语料库

荷兰语，该语料库包含两种类型的学生文本：作文和评论。涉及作者（性别、年龄、性取向、来源地区、性格概况）和文档（时间、流派、真实性、情绪、等级）等大量元数据。由安特卫普大学CLiPS研究中心提供，主要用于计量文体学分析。