一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。