数据集 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室

01

12月

数据集

MCTest

免费提供一组660个故事和相关问题，用于研究机器对文本的理解、回答问题（1 MB）

01

12月

数据集

美国政客的社交媒体消息分类

收集了来自美国参议员和其他美国政客的数千条社交媒体消息，可按内容分类为目标群众（国家或选民）、政治主张（中立/两党或偏见/党派）和实际内容（如攻击政敌等）（4 MB）注：该网站还有其他大量CV、NLP和语音方面的小型数据集

01

12月

数据集

DBLP XML

下载链接：https://dblp.uni-trier.de/xml/

01

12月

数据集

微软Probase概念图

包含5401933个概念，12551613个实例，87603947条IsA三元组.

01

12月

数据集

Billion Words benchmark

一个大型、通用的语言建模数据集，常用于如 word2vec 或 Glove 的分布式词语表征。

01

12月

数据集

材料安全数据表

230,000份材料安全数据表，包含化学成分、急救措施、储存和处理等信息（3 GB）

01

12月

数据集

Twitter的情绪分析

自驾车：阅读推文，将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的，并标记其是否与自驾车相关（1 MB）

01

12月

数据集

Twitter美国地理定位推文

Twitter美国地理定位推文：来自美国的20万条推文（45 MB）

01

12月

数据集

SNAP

Stanford Large Network Dataset Collection

01

12月

数据集

Enron电子邮件集

包含1,227,255封电子邮件，其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML（210 GB）

01

12月

数据集

Yahoo!从公开可用网页中提取元数据

RDF数据（2 GB）

01

12月

数据集

ASAP自动简答题评分

共十个数据集，每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息，另一些则是自由发挥。所有答案都是由10年级的学生撰写的，并经相关人员手动分级并进行双重评分（35 MB）

01

12月

数据集

BioID

约1000幅图像,每个人脸标定20个关键点