全部 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室

01

12月

自然语言处理

OpenNMT

Open Source Neural Machine Translation in Torch

01

12月

自然语言处理

kcws

Deep Learning Chinese Word Segment

01

12月

数据集

句子/概念对的真实含义

用两个概念来读一个句子，例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”，判断这句话是否属实，然后将结果排列为1-5五个等级（700 KB）

01

12月

数据集

Reddit评论（15年5月）[Kaggle]

上个数据集的子集（8 GB）

01

12月

数据集

Yahoo! Answers Manner Questions

Yahoo! Answers corpus的子集，并根据语言属性进行选择，包含142,627个问题及其答案。（104 MB）

01

12月

数据集

识别文本中的关键短语

Question / Answer pairs + context；如果与问题/答案有关，则判断上下文关系（8 MB）

01

12月

数据集

Google Books Ngrams

包含在整个语料库中出现超过40次的n-gram，优化了快速查询小组短语的用法（2.2 TB）

01

12月

数据集

IMDBWIKI

20284个人,共523051幅人脸图像(年龄、性别识别)

01

12月

数据集

Twitter美国航空公司情绪[Kaggle]

Twitter美国航空公司情绪[Kaggle]：收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月，评论者需选择正面、负面和中性中的一类，如有负面评价，再进行原因分类（如“晚班”或“粗鲁服务”）（2.5 MB）

01

12月

数据集

AWS爬虫数据

收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始，所有爬虫只持续一个月，数据以WARC文件格式存储。从2012年开始，抓取的数据还包含元数据（WAT）和文本数据（WET）提取，大大简化了数据处理（541 TB）

01

12月

数据集

Flickr Personal Taxonomies

社交媒体上用户按个人喜好分类内容的树形数据集，包含7,121位Flickr的树（40 MB）

01

12月

数据集

Twitter Sentiment140

与品牌/关键字相关的推文，网站上包括论文和研究想思路（77 MB）

01

12月

数据集

NYTimes Facebook数据

所有《纽约时报》的Facebook帖子（5 MB）

01

12月

数据集

OCFW

3837幅图像,每个人脸标定68个关键点

01

12月

数据集

arXiv

所有归档的论文全文（270 GB）+源文件（190 GB）

01

12月

数据集

短信垃圾邮件收集

是一个包含5,574英文单词，真实的、未附带附件的短信内容集，已合法进行标记（200 KB）

01

12月

数据集

KFW 2012

533对亲属关系(KFW-I)和1000 对亲属关系(KFW-II)

01

12月

数据集

Stackoverflow

730万个stackoverflow问题+其他stackexchanges（查询工具）

01

12月

数据集

MALF

5250幅图像,共11931个人脸

01

12月

数据集

MMI

75个人,共2900段视频(表情识别)