数据集 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室 - Powered By EduSoho

01

12月

YAGO

下载获取 YAGO 源代码访问GitHub 上的 YAGO 源代码。下载整个 YAGO您可以一次性下载整个 YAGO（3.1 版）本体。不同转储的时间戳如下：维基百科（en、de、nl、fr、it、es、pl、fa、ar、ro）：2017-05-20地名：2017-06-18维基数据：2017-05...

01

12月

Jeopardy

包含216,930个危险问题（53 MB）

01

12月

Replay-Attack2012

50个人,每个人24段视频

01

12月

webvision

The WebVision dataset is designed to facilitate the research on learning visual representation from noisy web data.

01

12月

维基百科XML数据

维基媒体基金会提供的完整副本，以wikitext源代码和嵌入XML的元数据形式提供（500 GB）

01

12月

CMU+MIT

180幅图像,共734个人脸。包含3个正面人脸测试子集和一个旋转人脸测试子集,其中正面人脸测试子集有130幅图像,共511个人脸;旋转人脸测试子集有50幅图像,共223个人脸。

01

12月

YouTube 2011

1595个人,共3425段视频

01

12月

dataset

The Open Images dataset

01

12月

Event Registry

可以实时访问全球100,000个新闻源的新闻文章，有API（免费查询工具）

01

12月

Multi-PIE

337个人,共约75万图像

01

12月

IJB-A

24327幅图像,共49759个人脸

01

12月

FaceScrub

530个人,共106863幅人脸图像

01

12月

Death Row

包含美国德州自1984年以来每个执行死刑罪犯的遗言（HTML表格）

01

12月

Open Library数据转储

包含Open Library中所有记录的最新版本的转储（16 GB）

01

12月

Yahoo! N-Gram Representations

包含n-gram表示形式，这些数据可以作为查询重写任务的测试平台，这是IR研究中的一个常见问题，也是NLP研究中常见的单词和句子相似性任务（2.6 GB）

01

12月

Twitter上关于新英格兰爱国者队泄气门（Deflategate）事件的情绪

新英格兰爱国者队在美国橄榄球联合会（AFC）决赛中击败印第安纳波利斯小马队，将在2月1号的超级碗大赛中迎战西雅图海鹰队。但是爱国者队被发现在这次比赛中使用的12个橄榄球有11个充气不足。这个数据集可用于观察丑闻爆发Twitter用户的情绪，以衡量公众对整个事件的看法（2 MB）

01

12月

仇恨言语识别

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本：a）包含仇恨言论；b）是冒犯性的，但没有仇恨言论；c）根本没有冒犯性。由15,000行文本构成，每个字符串都经过3人判断（3 MB）

01

12月

康奈尔电影对话语料库（Cornell Movie Dialog Corpus）

包含从原始电影脚本中提取的虚构对话集：10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符，共304,713个句子。元数据极其丰富，包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。

01

12月

博客作者身份语料库

由2004年8月从blogger.com收集的19,320位博主的文章组成，共计681,288篇，字数超过1.4亿——平均每人35篇、7250字

01

12月

哈佛图书馆

哈佛图书馆藏书记录已超过1,200万册，包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料（4GB）