🔥实时更新 频道/群组搜索 登录
TGSO.PRO
黑洞资源笔记 04-28 00:21:20

Meta/Facebook 超大规模 AI/GPU 基础设施设计 | blog 本文翻译自 2024 年 Meta/Facebook 的一篇文章: Building Meta’s GenAI Infrastructure。作为对未来人工智能的重要投资,Meta 打造了两个大规模 AI 集群,每个集群由 2.4w 张 GPU 组成, 本文分享其计算、网络、存储等设计细节。 🌟 两个 GPU 集群,每个集群 2.4w H100,分别用 RoCE/InfiniBand 网络; 🌟 LLaMA3 就是在这两个集群上训练出来的; 🌟 预计到 2024 年底,Meta AI 基础设施建设将拥有 35w 张 H100 GPU,总算力相当于约 60w 张 H100。

附件:[图片]