Facebook 的母公司 Meta 表示,它已经建造了一台世界上最快的研究超级计算机。Meta 研究人员 Kevin Lee 和 Shubho Sengupta 在今天的博客文章中写道,到今年年中,系统的扩展完成后,速度将是最快的。他们写道,人工智能研究超级集群(RSC)有一天将与具有数万亿参数的神经网络一起工作。神经网络模型中的参数数量一直在迅速增长。例如,自然语言处理器 GPT-3 有 1750 亿个参数,这样复杂的 AI 预计只会增长。
RSC 旨在解决这种增长的关键限制,即训练神经网络所需的时间。通常,训练涉及针对大型数据集测试神经网络,测量它与准确完成工作的距离,使用该错误信号来调整网络的参数,并重复循环直到神经网络达到所需的准确度水平。大型网络可能需要数周的计算时间,这限制了在给定年份可以试用的新网络数量。一些资金雄厚的初创公司,如 Cerebras 和 SambaNova,部分是为了解决培训时间问题。
研究人员写道,除其他外,Meta 希望 RSC 能够帮助它建立新的神经网络,可以对一大群人进行实时语音翻译,每个人都说不同的语言。「最终,RSC 所做的工作将为构建下一个主要计算平台的技术铺平道路——Meta,人工智能驱动的应用程序和产品将在其中发挥重要作用。」
「我们为元宇宙构建的体验需要巨大的计算能力(每秒千亿次操作!),RSC 将启用新的人工智能模型,可以从数万亿个示例中学习,理解数百种语言等等。」Meta 首席执行官 Mark Zuckerberg 在一份声明中说。
-
旧系统:22,000 个 Nvidia V100 GPU
-
今天:6,080 个 Nvidia A100 GPU
-
2022 年年中:16,000 个 Nvidia A100 GPU
与 Meta 目前使用的 AI 研究集群(设计于 2017 年)相比,RSC 是所涉及的 GPU 数量、它们的通信方式以及附加到它们的存储的变化。
「2020 年初,我们决定加速进展的最佳方式是从头开始设计新的计算基础架构,以利用新的 GPU 和网络结构技术。我们希望这个基础设施能够在 1 艾字节大的数据集上训练具有超过一万亿个参数的模型——从规模上看,这相当于 36,000 年的高质量视频。」
旧系统连接了 22,000 个 Nvidia V100 Tensor Core GPU。新的内核切换到 Nvidia 的最新内核 A100,该内核在最近的 AI 系统基准测试中占据主导地位。目前新系统是由 760 台 Nvidia DGX A100 计算机组成的集群,共有 6,080 个 GPU。计算机集群使用 Nvidia 200-gigabit-per-second Infiniband 网络绑定在一起。该存储包括 46 PB(4600 亿字节)的缓存存储和 175 PB 的大容量闪存存储。
-
加速:
-
计算机视觉:20 倍
-
大规模自然语言处理:3x
与旧的基于 V100 的系统相比,RSC 在计算机视觉任务上的速度提高了 20 倍,在处理大型自然语言处理方面提高了 3 倍。
当该系统在今年年中完成时,它将连接 16,000 个 GPU,Lee 和 Sengupta 写道,这使其成为同类中最大的之一。届时,其缓存和存储容量将达到 1 艾字节(10 亿字节),能够为系统提供每秒 16 TB 的数据。新系统还将专注于可靠性。这很重要,因为非常大的网络可能需要数周的训练时间,而且您不希望在任务中途失败,这意味着必须重新开始。
作为参考,在最新一轮 MLPerf 神经网络训练基准测试中测试的最大的生产就绪系统是 Nvidia 部署的 4,320-GPU 系统。该系统可以在不到一分钟的时间内训练自然语言处理器 BERT。然而,与 Meta 想要使用的数万亿个参数相比,BERT 只有 1.1 亿个参数。
RSC 的推出还伴随着 Meta 使用数据进行研究的方式发生了变化:「与我们之前仅利用开源和其他公开可用数据集的 AI 研究基础设施不同,RSC 还通过允许我们在模型训练中包含来自 Meta 生产系统的真实示例,帮助我们确保我们的研究有效地转化为实践。」
研究人员写道,RSC 将采取额外的预防措施来加密和匿名这些数据,以防止泄漏。这些步骤包括 RSC 与更大的互联网隔离——既没有入站连接也没有出站连接。RSC 的流量只能从 Meta 的生产数据中心流入。此外,存储和 GPU 之间的数据路径是端到端加密的,数据是匿名的,并经过审查过程以确认匿名化。
来源: ScienceAI