一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。
来源: 1 Billion Word Language Model Benchmark
原文链接: http://www.statmt.org/lm-benchmark/