NLTK Source
Python library for processing Chinese text
Open Source Neural Machine Translation in Torch
Deep Learning Chinese Word Segment
205幅图像,共468个人脸.由从Flickr采集的205幅图像组成,共468个人脸,其包含复杂的背景变化和人脸姿态变化等。
用两个概念来读一个句子,例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”,判断这句话是否属实,然后将结果排列为1-5五个等级(700 KB)
包含2010年4月以前维基百科英文部分中的所有文章的快照,已经去除了所有链接和不相关的材料(导航文本等),但未经标记,是原始文本(1.8 GB)
上个数据集的子集(8 GB)
Yahoo! Answers corpus的子集,并根据语言属性进行选择,包含142,627个问题及其答案。(104 MB)
Question / Answer pairs + context;如果与问题/答案有关,则判断上下文关系(8 MB)
包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法(2.2 TB)
20284个人,共523051幅人脸图像(年龄、性别识别)
Twitter美国航空公司情绪[Kaggle]:收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月,评论者需选择正面、负面和中性中的一类,如有负面评价,再进行原因分类(如“晚班”或“粗鲁服务”)(2.5 MB)
收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始,所有爬虫只持续一个月,数据以WARC文件格式存储。从2012年开始,抓取的数据还包含元数据(WAT)和文本数据(WET)提取,大大简化了数据处理(541 TB)
社交媒体上用户按个人喜好分类内容的树形数据集,包含7,121位Flickr的树(40 MB)
与品牌/关键字相关的推文,网站上包括论文和研究想思路(77 MB)
所有《纽约时报》的Facebook帖子(5 MB)
3837幅图像,每个人脸标定68个关键点
所有归档的论文全文(270 GB)+源文件(190 GB)
是一个包含5,574英文单词,真实的、未附带附件的短信内容集,已合法进行标记(200 KB)