AWS爬虫数据

12月

5248 0

收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始，所有爬虫只持续一个月，数据以WARC文件格式存储。从2012年开始，抓取的数据还包含元数据（WAT）和文本数据（WET）提取，大大简化了数据处理（541 TB）

来源: AWS

标签：人工智能计算思维编程