标签:人工智能
样例数据文件是txt格式,每行一条数据,每条数据是一个(实体名称,属性名称,属性值)的三元组,中间用tab分隔,具体如下所示。
带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。
截至2015年7月的每个公开可用的书签评论,共计17亿条评论(250 GB)
荷兰语,该语料库包含两种类型的学生文本:作文和评论。涉及作者(性别、年龄、性取向、来源地区、性格概况)和文档(时间、流派、真实性、情绪、等级)等大量元数据。由安特卫普大学CLiPS研究中心提供,主要用于计量文体学分析。
包含从各种在线沙特报纸中摘录的31,030份阿拉伯文报纸文章及其元数据(2 MB)
下载获取 YAGO 源代码访问GitHub 上的 YAGO 源代码。下载整个 YAGO您可以一次性下载整个 YAGO(3.1 版)本体。不同转储的时间戳如下:维基百科(en、de、nl、fr、it、es、pl、fa、ar、ro):2017-05-20地名:2017-06-18维基数据:2017-05...
The WebVision dataset is designed to facilitate the research on learning visual representation from noisy web data.
维基媒体基金会提供的完整副本,以wikitext源代码和嵌入XML的元数据形式提供(500 GB)
180幅图像,共734个人脸。包含3个正面人脸测试子集和一个旋转人脸测试子集,其中正面人脸测试子集有130幅图像,共511个人脸;旋转人脸测试子集有50幅图像,共223个人脸。
可以实时访问全球100,000个新闻源的新闻文章,有API(免费查询工具)