2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)
来源: The WestburyLab USENET corpus
原文链接: https://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)
来源: The WestburyLab USENET corpus
原文链接: https://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/