엔비디아 NV링크로 최대 576개의 블랙웰 GPU가 하나로 연결

엔비디아가 대규모 생성형 AI 슈퍼컴퓨팅 위한 블랙웰 기반 DGX 슈퍼팟을 출시했다.
엔비디아가 대규모 생성형 AI 슈퍼컴퓨팅 위한 블랙웰 기반 DGX 슈퍼팟을 출시했다.

[아이티데일리] 엔비디아(CEO 젠슨 황)는 차세대 AI 슈퍼컴퓨터인 ‘엔비디아 GB200 블랙웰(NVIDIA GB200 Grace Blackwell)’ 슈퍼칩 기반의 ‘엔비디아 DGX 슈퍼팟(DGX SuperPOD)’을 19일 발표했다. 이는 초대형 생성형 AI 훈련과 추론 작업을 위해 일정한 가동 시간동안 수조 개의 파라미터 모델을 처리한다.

새로운 DGX 슈퍼팟은 새로운 고효율 수냉식 랙 스케일 아키텍처를 특징으로 하며, 엔비디아 DGX GB200 시스템으로 구축됐다. FP4 정밀도에서 11.5 엑사플롭(exaflops)의 AI 슈퍼컴퓨팅과 240테라바이트의 고속 메모리를 제공하며, 랙을 추가하면 추가 확장이 가능하다.

각 DGX GB200 시스템에는 36개의 엔비디아 그레이스 CPU(Grace CPU)와 72개의 엔비디아 블랙웰 GPU를 포함하는 36개의 엔비디아 GB200 슈퍼칩이 5세대 엔비디아 NV링크(NVLink)를 통해 하나의 슈퍼컴퓨터처럼 연결된다. GB200 슈퍼칩은 대규모 언어 모델(LLM) 추론 작업을 위한 엔비디아 H100 텐서 코어(H100 Tensor Core) GPU에 비해 최대 30배 향상된 성능을 제공한다.

엔비디아 창립자인 젠슨 황(Jensen Huang) CEO는 “엔비디아 DGX AI 슈퍼컴퓨터는 AI 산업 혁명의 공장이다. 새로운 DGX 슈퍼팟은 엔비디아 가속 컴퓨팅, 네트워킹, 소프트웨어의 최신 기술을 결합해 모든 기업과 산업, 국가가 자체 AI를 개선하고 생성하도록 지원한다”고 말했다.

그레이스 블랙웰 기반 DGX 슈퍼팟은 8대 이상의 DGX GB200 시스템을 갖추고 있으며, 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand)를 통해 연결된 수만 개의 GB200 슈퍼칩으로 확장할 수 있다. 고객들은 8개의 DGX GB200 시스템에 있는 576개의 블랙웰 GPU를 NV링크로 연결해 차세대 AI모델에 필요한 대규모 공유 메모리 공간을 구성할 수 있다.


생성형 AI 시대를 위한 새로운 랙 스케일 DGX 슈퍼팟 아키텍처

DGX GB200 시스템으로 이뤄진 새로운 DGX 슈퍼팟은 시스템들 간에 서로 통합된 컴퓨팅 패브릭을 갖추고 있다. 이 패브릭에는 5세대 엔비디아 NV링크 외 엔비디아 블루필드-3(BlueField-3) DPU가 포함된다. 또한, 별도로 발표된 엔비디아 퀀텀-X800 인피니밴드 네트워킹을 지원할 예정이다. 이 아키텍처는 플랫폼에서 각 GPU에 초당 최대 1,800기가바이트의 대역폭을 제공한다.

또한 4세대 엔비디아 샤프(Scalable Hierarchical Aggregation and Reduction Protocol, SHARP) 기술은 차세대 DGX 슈퍼팟 아키텍처에서 이전 세대 대비 4배 증가한 14.4테라플롭의 인네트워크 컴퓨팅을 제공한다.


턴키(Turnkey) 아키텍처와 고급 소프트웨어의 결합으로 전례 없는 가동 시간 제공

새로운 DGX 슈퍼팟은 데이터센터 규모의 완벽한 AI 슈퍼컴퓨터로, 엔비디아 인증 파트너의 고성능 스토리지와 통합돼 생성형 AI 워크로드의 수요를 충족한다. 각 슈퍼컴퓨터는 공장에서 구축돼 케이블 연결과 테스트를 거쳐 고객 데이터센터에 배포하는 속도를 획기적으로 높인다.

그레이스 블랙웰 기반 DGX 슈퍼팟은 지능형 예측 관리 기능을 갖추고 있다. 이는 하드웨어와 소프트웨어 전반에 걸쳐 수천 개의 데이터 포인트를 지속적으로 모니터링해 다운타임과 비효율성의 원인을 예측하고 차단하는 기능으로 시간과 에너지, 컴퓨팅 비용 등을 절감할 수 있다.

이 소프트웨어는 시스템 관리자가 없는 상태에서도 우려되는 영역을 식별하고 유지보수 계획을 수립한다. 또한 컴퓨팅 리소스를 유연하게 조정하고, 작업을 자동으로 저장하고 재개해 다운타임을 방지한다.

아울러 소프트웨어에서 교체가 필요한 구성 요소가 감지되면 클러스터는 대기 용량을 활성화해 작업이 제시간에 완료되도록 한다. 필요한 하드웨어 교체를 미리 예정할 수 있어 예기치 않은 다운타임도 방지할 수 있다.


산업 위한 AI 슈퍼컴퓨팅 발전시키는 엔비디아 DGX B200 시스템

엔비디아는 AI 모델 훈련, 미세 조정, 추론을 위한 통합 AI 슈퍼컴퓨팅 플랫폼인 엔비디아 DGX B200 시스템을 공개했다.

DGX B200은 전 세계 산업에서 사용하는 6세대 공랭식 랙 마운트형 DGX 설계의 최신 버전이다. 새로운 블랙웰 아키텍처 DGX B200 시스템에는 8개의 엔비디아 블랙웰 GPU와 2개의 5세대 인텔 제온(Intel Xeon) 프로세서가 포함된다. 또한 고객은 DGX B200 시스템으로 DGX 슈퍼팟을 구축해 다양한 작업을 수행하는 대규모 개발자 팀의 작업을 지원할 수 있는 AI 전문 센터(AI Centers of Excellence)를 만들 수 있다.

DGX B200 시스템에는 새로운 블랙웰 아키텍처의 FP4 정밀 기능이 탑재돼 최대 144페타플롭의 AI 성능, 1.4테라바이트의 대용량 GPU 메모리, 64TB/s의 메모리 대역폭을 제공한다. 이를 통해 이전 세대에 비해 1조 개 파라미터 모델에 대해 15배 빠른 실시간 추론이 가능하다.

DGX B200 시스템에는 8개의 엔비디아 커넥트X-7 NIC(ConnectX-7 NIC)와 2개의 블루필드-3 DPU를 갖춘 고급 네트워킹이 적용된다. 이는 연결당 최대 초당 400기가비트의 대역폭을 제공해 엔비디아 퀀텀-2 인피니밴드와 엔비디아 스펙트럼(Spectrum-X) 이더넷 네트워킹 플랫폼과 함께 빠른 AI 성능을 제공한다.


프로덕션 AI 확장을 위한 소프트웨어와 전문가 지원

모든 엔비디아 DGX 플랫폼에는 엔터프라이즈급 개발과 배포를 위한 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어가 포함된다. DGX 고객은 소프트웨어 플랫폼에 포함된 사전 훈련된 엔비디아 파운데이션 모델, 프레임워크, 툴킷, 새로운 엔비디아 NIM 마이크로서비스 등으로 작업을 가속화할 수 있다.

엔비디아 DGX 전문가와 DGX 플랫폼을 지원하도록 인증 받은 엄선된 엔비디아 파트너는 배포의 모든 단계에서 고객을 지원하므로 고객은 신속하게 AI솔루션을 생산 단계로 이행할 수 있다. 시스템이 운영되면 DGX 전문가는 고객이 AI 솔루션의 모든 단계와 인프라를 최적화할 수 있도록 지속적으로 지원한다.

DGX GB200과 DGX B200 시스템이 갖춰진 엔비디아 DGX 슈퍼팟은 올해 말부터 엔비디아의 글로벌 파트너를 통해 제공될 예정이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지