标签:开源
包含从原始电影脚本中提取的虚构对话集:10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符,共304,713个句子。元数据极其丰富,包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。
由2004年8月从blogger.com收集的19,320位博主的文章组成,共计681,288篇,字数超过1.4亿——平均每人35篇、7250字
哈佛图书馆藏书记录已超过1,200万册,包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料(4GB)
TED 演讲的语音转录数据集。1495 份 TED 演讲的语音记录,并且这些语音记录有对应的全文本。
带有脚本信息的.csv文件,包含《南方公园》季数、剧集、角色等信息(3.6 MB)
包含从维基百科中提取出的结构化信息,包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息,其中2.57亿条来自维基百科英文版,7.66亿条来自其他语言版本(17...
包含15年内(2003年初至2017年)澳大利亚广播公司发布的130万条新闻的标题,深入研究关键词,可以看到所有塑造了过去十年的重要事件,以及它们随着时间的演变历程(56 MB)
包含Home Depot网站上的许多产品和真实客户的搜索关键词。每对词都经3名评估人员评估,并给出1—3的相关性评分,可用来预测相关性(65 MB)
包含大量路透社新闻报道,主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季,NIST接管了RCV1,所以现在需要向NIST发送请求并签署协议来获取这些数据集(2.5 GB)
德语报刊文本的句法注释语料库,适用于所有大学和非营利组织,需要签署并发送表格才能获得
仅仅只包含英语的语音数据,最近百度发表的论文《深度语音:扩展端对端语音识别(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了该语音数据集。
英语短语相关的维基百科文章数据库、论文(11 GB)
一周内(2017年8月24日至2017年8月30日)全球在线发布的大多新闻内容的快照,包括大约140万篇文章、20,000个新闻来源和20多种语言(115 MB)