We have made you a wrapper you can't refuse
AFINN-based sentiment analysis for Node.js.
Multi-layer Recurrent Neural Networks (LSTM, RNN) for character-level language models in Python using Tensorflow
结巴中文分词
An Efficient Lexical Analyzer for Chinese
NLTK Source
Python library for processing Chinese text
Open Source Neural Machine Translation in Torch
Deep Learning Chinese Word Segment
205幅图像,共468个人脸.由从Flickr采集的205幅图像组成,共468个人脸,其包含复杂的背景变化和人脸姿态变化等。
用两个概念来读一个句子,例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”,判断这句话是否属实,然后将结果排列为1-5五个等级(700 KB)
包含2010年4月以前维基百科英文部分中的所有文章的快照,已经去除了所有链接和不相关的材料(导航文本等),但未经标记,是原始文本(1.8 GB)
上个数据集的子集(8 GB)
Yahoo! Answers corpus的子集,并根据语言属性进行选择,包含142,627个问题及其答案。(104 MB)
Question / Answer pairs + context;如果与问题/答案有关,则判断上下文关系(8 MB)
包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法(2.2 TB)
20284个人,共523051幅人脸图像(年龄、性别识别)
Twitter美国航空公司情绪[Kaggle]:收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月,评论者需选择正面、负面和中性中的一类,如有负面评价,再进行原因分类(如“晚班”或“粗鲁服务”)(2.5 MB)
收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始,所有爬虫只持续一个月,数据以WARC文件格式存储。从2012年开始,抓取的数据还包含元数据(WAT)和文本数据(WET)提取,大大简化了数据处理(541 TB)
社交媒体上用户按个人喜好分类内容的树形数据集,包含7,121位Flickr的树(40 MB)