使用 Broadcom 软件的配备 Broadcom 100GbE NIC 的 Dell PowerEdge R7615 服务器在多 GPU 操作上的表现比配备 10GbE NIC 的相同服务器更好。
美国德克萨斯州朗德罗克,2024 年 12 月 18 日 / EINPresswire.com / -- 随着人工智能 (AI) 继续占据科技新闻头条,许多组织已经实施了 AI 操作或正在考虑这样做。一个常见的用例是内部 AI 聊天机器人,它将公共大型语言模型 (LLM) 与组织自己的数据相结合。然而,组织在实施此类解决方案时可能会面临许多挑战。对于 IT 预算有限的中小型企业和企业内部门来说,一个挑战是确定哪种硬件是微调 LLM 的合适选择。
第三方 Principled Technologies (PT) 最近的一份报告探讨了这个问题并提出了一个潜在的解决方案。正如测试报告所说,“训练 LLM 通常需要许多 GPU 的资源。一种有效的方法是使用一组服务器节点,每个节点都有自己的一组 GPU,并将工作分散到分布式 GPU 上。在这种环境下,GPU 之间的低延迟和高带宽变得非常重要。”
报告接着解释了 PT 测试的硬件:“我们通过测试具有两种网络配置的双节点戴尔集群的性能来探索这种方法:一个配备 Broadcom 100GbE BCM57508 NetXtreme-E 网络接口卡 (NIC),并支持以太网远程直接内存访问 (RDMA) (RoCE),另一个配备 Broadcom 10GbE BCM57414 NIC。该集群由两台配备 AMD EPYC 9374F 处理器和 NVIDIA L40 GPU 的戴尔 PowerEdge R7615 服务器组成。”
部署在分布式 GPU 上的 LLM 训练和推理框架使用低级操作在 GPU 之间移动数据、对数据进行操作并与其他 GPU 共享结果。测试重点关注 NVIDIA 集体通信库 (NCCL) 中实现的其中三种操作。高效执行这些操作取决于不同服务器上的 GPU 之间数据的及时传输。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都戴尔服务器工作站总代理
【销售经理】熊经理
【联系方式】座机:028-85596747 手机:18244236404
【公司地址】四川省成都市武侯区二环路南一段13号群益商务大厦1栋单元4层1-403
请用微信扫描二维码