AI资源 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室

01

12月

自然语言处理

nltk

NLTK Source

01

12月

自然语言处理

snownlp

Python library for processing Chinese text

01

12月

自然语言处理

OpenNMT

Open Source Neural Machine Translation in Torch

01

12月

自然语言处理

kcws

Deep Learning Chinese Word Segment

01

12月

数据集

AFW

205幅图像,共468个人脸.由从Flickr采集的205幅图像组成,共468个人脸,其包含复杂的背景变化和人脸姿态变化等。

01

12月

数据集

句子/概念对的真实含义

用两个概念来读一个句子，例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”，判断这句话是否属实，然后将结果排列为1-5五个等级（700 KB）

01

12月

数据集

WestburyLab维基百科语料库（2010）

包含2010年4月以前维基百科英文部分中的所有文章的快照，已经去除了所有链接和不相关的材料（导航文本等），但未经标记，是原始文本（1.8 GB）

01

12月

数据集

Reddit评论（15年5月）[Kaggle]

上个数据集的子集（8 GB）

01

12月

数据集

Yahoo! Answers Manner Questions

Yahoo! Answers corpus的子集，并根据语言属性进行选择，包含142,627个问题及其答案。（104 MB）

01

12月

数据集

识别文本中的关键短语

Question / Answer pairs + context；如果与问题/答案有关，则判断上下文关系（8 MB）

01

12月

数据集

Google Books Ngrams

包含在整个语料库中出现超过40次的n-gram，优化了快速查询小组短语的用法（2.2 TB）

01

12月

数据集

IMDBWIKI

20284个人,共523051幅人脸图像(年龄、性别识别)

01

12月

数据集

Twitter美国航空公司情绪[Kaggle]

Twitter美国航空公司情绪[Kaggle]：收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月，评论者需选择正面、负面和中性中的一类，如有负面评价，再进行原因分类（如“晚班”或“粗鲁服务”）（2.5 MB）

01

12月

数据集

AWS爬虫数据

收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始，所有爬虫只持续一个月，数据以WARC文件格式存储。从2012年开始，抓取的数据还包含元数据（WAT）和文本数据（WET）提取，大大简化了数据处理（541 TB）

01

12月

数据集

Flickr Personal Taxonomies

社交媒体上用户按个人喜好分类内容的树形数据集，包含7,121位Flickr的树（40 MB）

01

12月

数据集

Twitter Sentiment140

与品牌/关键字相关的推文，网站上包括论文和研究想思路（77 MB）

01

12月

数据集

NYTimes Facebook数据

所有《纽约时报》的Facebook帖子（5 MB）

01

12月

数据集

OCFW

3837幅图像,每个人脸标定68个关键点

01

12月

数据集

arXiv

所有归档的论文全文（270 GB）+源文件（190 GB）

01

12月

数据集

短信垃圾邮件收集

是一个包含5,574英文单词，真实的、未附带附件的短信内容集，已合法进行标记（200 KB）