Meta旨在打造世界上最快的人工智能超级计算机

01月

2749 0

Facebook 的母公司 Meta 表示，它已经建造了一台世界上最快的研究超级计算机。Meta 研究人员 Kevin Lee 和 Shubho Sengupta 在今天的博客文章中写道，到今年年中，系统的扩展完成后，速度将是最快的。他们写道，人工智能研究超级集群（RSC）有一天将与具有数万亿参数的神经网络一起工作。神经网络模型中的参数数量一直在迅速增长。例如，自然语言处理器 GPT-3 有 1750 亿个参数，这样复杂的 AI 预计只会增长。

RSC 旨在解决这种增长的关键限制，即训练神经网络所需的时间。通常，训练涉及针对大型数据集测试神经网络，测量它与准确完成工作的距离，使用该错误信号来调整网络的参数，并重复循环直到神经网络达到所需的准确度水平。大型网络可能需要数周的计算时间，这限制了在给定年份可以试用的新网络数量。一些资金雄厚的初创公司，如 Cerebras 和 SambaNova，部分是为了解决培训时间问题。

研究人员写道，除其他外，Meta 希望 RSC 能够帮助它建立新的神经网络，可以对一大群人进行实时语音翻译，每个人都说不同的语言。「最终，RSC 所做的工作将为构建下一个主要计算平台的技术铺平道路——Meta，人工智能驱动的应用程序和产品将在其中发挥重要作用。」

「我们为元宇宙构建的体验需要巨大的计算能力（每秒千亿次操作！），RSC 将启用新的人工智能模型，可以从数万亿个示例中学习，理解数百种语言等等。」Meta 首席执行官 Mark Zuckerberg 在一份声明中说。

旧系统：22,000 个 Nvidia V100 GPU
今天：6,080 个 Nvidia A100 GPU
2022 年年中：16,000 个 Nvidia A100 GPU

与 Meta 目前使用的 AI 研究集群（设计于 2017 年）相比，RSC 是所涉及的 GPU 数量、它们的通信方式以及附加到它们的存储的变化。

「2020 年初，我们决定加速进展的最佳方式是从头开始设计新的计算基础架构，以利用新的 GPU 和网络结构技术。我们希望这个基础设施能够在 1 艾字节大的数据集上训练具有超过一万亿个参数的模型——从规模上看，这相当于 36,000 年的高质量视频。」

旧系统连接了 22,000 个 Nvidia V100 Tensor Core GPU。新的内核切换到 Nvidia 的最新内核 A100，该内核在最近的 AI 系统基准测试中占据主导地位。目前新系统是由 760 台 Nvidia DGX A100 计算机组成的集群，共有 6,080 个 GPU。计算机集群使用 Nvidia 200-gigabit-per-second Infiniband 网络绑定在一起。该存储包括 46 PB（4600 亿字节）的缓存存储和 175 PB 的大容量闪存存储。

加速：
计算机视觉：20 倍
大规模自然语言处理：3x

与旧的基于 V100 的系统相比，RSC 在计算机视觉任务上的速度提高了 20 倍，在处理大型自然语言处理方面提高了 3 倍。

当该系统在今年年中完成时，它将连接 16,000 个 GPU，Lee 和 Sengupta 写道，这使其成为同类中最大的之一。届时，其缓存和存储容量将达到 1 艾字节（10 亿字节），能够为系统提供每秒 16 TB 的数据。新系统还将专注于可靠性。这很重要，因为非常大的网络可能需要数周的训练时间，而且您不希望在任务中途失败，这意味着必须重新开始。

作为参考，在最新一轮 MLPerf 神经网络训练基准测试中测试的最大的生产就绪系统是 Nvidia 部署的 4,320-GPU 系统。该系统可以在不到一分钟的时间内训练自然语言处理器 BERT。然而，与 Meta 想要使用的数万亿个参数相比，BERT 只有 1.1 亿个参数。

RSC 的推出还伴随着 Meta 使用数据进行研究的方式发生了变化：「与我们之前仅利用开源和其他公开可用数据集的 AI 研究基础设施不同，RSC 还通过允许我们在模型训练中包含来自 Meta 生产系统的真实示例，帮助我们确保我们的研究有效地转化为实践。」

研究人员写道，RSC 将采取额外的预防措施来加密和匿名这些数据，以防止泄漏。这些步骤包括 RSC 与更大的互联网隔离——既没有入站连接也没有出站连接。RSC 的流量只能从 Meta 的生产数据中心流入。此外，存储和 GPU 之间的数据路径是端到端加密的，数据是匿名的，并经过审查过程以确认匿名化。

来源: ScienceAI

标签：人工智能