2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)
https://arvindn.livejournal.com/tag/data
收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等)(4 MB)注:该网站还有其他大量CV、NLP和语音方面的小型数据集
自驾车:阅读推文,将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的,并标记其是否与自驾车相关(1 MB)
Twitter美国地理定位推文:来自美国的20万条推文(45 MB)