IBM 率先采用了共封装光学方法,利用数据中心基于光的连接能力。
IBM 宣布了一项开创性的光学技术研究,该研究有望彻底改变数据中心训练和运行生成式 AI 模型的方式。该公司率先采用了一种新颖的共封装光学器件 (CPO) 方法,这是一项利用数据中心内部基于光的连接性的下一代技术。通过设计和组装首个公开发布的聚合物光波导 (PWG) 来推动这一创新,IBM 研究人员旨在重新定义芯片、电路板和服务器之间高带宽数据的传输方式。
图片由 Ranovus 提供
光纤技术可长距离传输大量数据,管理全球商业和通信。然而,在数据中心内,机架依靠铜基 DAC 网络电缆进行连接。IBM 认为这种设置会通过限制速度和容量造成瓶颈,导致 GPU 加速器在分布式 AI 训练过程中长时间处于闲置状态。IBM 的突破旨在将光学的速度和效率带入这些内部连接,从而显著提高性能和能源效率。
IBM 展示了一种新的 CPO 原型模块,该模块在数据中心内引入了高速光纤连接。这项研究发表在 arXiv 上的一篇论文中,重点介绍了这项技术如何大幅增加带宽、减少 GPU 停机时间并加速 AI 模型训练,同时满足数据中心不断增长的能源需求。
共封装光学器件 (CPO) 的主要优势
提高能源效率并降低成本
与中端电气互连相比,CPO 技术可将能耗降低 5 倍以上。这一进步还使数据中心互连电缆的长度从几米延长到数百米,从而显著降低运营成本。
- 加速人工智能训练: 通过用光纤连接取代传统电线,CPO 可以将大型语言模型 (LLM) 的训练速度提高五倍。例如,它可以将 LLM 的训练时间从三个月缩短到三周,并且随着模型和 GPU 资源的扩展,性能提升幅度更大。
- 无与伦比的节能效果: IBM 估计,每个使用 CPO 训练的 AI 模型可以节省相当于 5,000 个美国家庭每年的用电量,强调了对能源效率的变革性影响。
- 无与伦比的带宽密度: CPO 模块提供 带宽高达 80 倍 与电连接相比,芯片之间的连接密度更高。IBM 的创新使芯片制造商能够在硅光子芯片的边缘添加六倍的光纤,这被称为“前沿密度”,从而增强了数据中心的整体容量。
开创性的聚合物光波导 (PWG) 技术
IBM 研究团队设计了一种高密度 PWG,其 50 微米间距光学通道绝热耦合到硅光子波导。该组件采用标准封装工艺,是首个通过严格制造压力测试的组件,包括高湿度、-40°C 至 125°C 的极端温度以及机械耐久性。堆叠 PWG 可实现多达 128 个连接通道,提供前所未有的可扩展性。
这项创新与 IBM 在半导体技术领域的领先地位相契合,以首款 2 纳米节点芯片、纳米片晶体管和垂直晶体管 (VTFET) 等先进技术为基础。CPO 技术引入了一种满足 AI 日益增长的需求的新方法,将模块外通信从电气通信转变为光学通信,并实现可持续且可扩展的数据中心运营。
支持生成式人工智能的发展
IBM 高级副总裁兼研究总监 Dario Gil 强调了 CPO 的变革潜力:
“由于生成式人工智能需要更多的能源和处理能力,数据中心必须不断发展,而同封装光学器件可以让这些数据中心面向未来。凭借这一突破,未来的芯片将像光纤电缆将数据传入和传出数据中心一样进行通信,从而开启一个更快、更可持续的通信新时代,可以处理未来的人工智能工作负载。”
IBM 的 CPO 工作是在纽约州奥尔巴尼进行的,该地是最近宣布成立的国家半导体技术中心 (NSTC) 的所在地。原型组装和模块测试在 IBM 位于魁北克省布罗蒙特的工厂进行,该工厂是芯片封装领域的领导者。此次合作是东北半导体走廊计划的一部分,该计划旨在加强美国和加拿大的半导体创新。
IBM 的共封装光学创新代表着数据中心通信向前迈出了重要一步。通过在机架内集成光速连接,CPO 技术有望提供无与伦比的效率、带宽和节能效果,重新定义数据中心的功能,并使其为生成式 AI 及其他领域日益增长的需求做好准备。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅