全部 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室

01

12月

100+ Chinese Word Vectors 上百种预训练中文词向量

This project provides 100+ Chinese Word Vectors (embeddings) trained with different representations (dense and sparse), context features (word, ngram,...

01

12月

自然语言处理

THULAC

An Efficient Lexical Analyzer for Chinese

01

12月

数据集

Maluuba Datasets

用于状态性的自然语言理解研究的人工制作的精细数据集。

01

12月

数据集

LibriSpeech

包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集，且由包含文本和语音的书籍章节组织起结构。

01

12月

数据集

Google Web 5gram

包含n-gram及其观察到的频率计数。n-gram的长度从unigrams（单个单词）到5-gram，主要用于统计语言建模（24 GB）

01

12月

数据集

VoxForge

带口音的语音清洁数据集，特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。

01

12月

数据集

CSI语料库

荷兰语，该语料库包含两种类型的学生文本：作文和评论。涉及作者（性别、年龄、性取向、来源地区、性格概况）和文档（时间、流派、真实性、情绪、等级）等大量元数据。由安特卫普大学CLiPS研究中心提供，主要用于计量文体学分析。

01

12月

数据集

TED-LIUM

TED 演讲的语音转录数据集。1495 份 TED 演讲的语音记录，并且这些语音记录有对应的全文本。

01

12月

数据集

2000 HUB5 English

仅仅只包含英语的语音数据，最近百度发表的论文《深度语音：扩展端对端语音识别(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了该语音数据集。