NV링크와 복원력 기술로 조 단위 매개변수 규모 AI 모델 구현
주요 CSP, 서버 제조업체, AI 선도기업 등에 도입 예정

[아이티데일리] 인공지능(AI) 컴퓨팅 기술 선두주자인 엔비디아(NVIDIA, CEO 젠슨 황)는 차세대 슈퍼칩 ‘GB200 그레이스 블랙웰(Grace Blackwell)’ 플랫폼을 출시한다고 19일 밝혔다. 블랙웰 아키텍처는 2년 전 출시된 엔비디아 호퍼(Hopper) 아키텍처의 후속 기술이다.

블랙웰은 이전 세대 대비 최대 25배 적은 비용과 에너지로 조 단위의 대규모 언어 모델(LLM)에서 실시간으로 생성형 인공지능(AI)을 구축하고 실행할 수 있도록 지원한다.

엔비디아가 차세대 슈퍼칩 ‘GB200 그레이스 블랙웰’ 플랫폼을 출시했다.
엔비디아가 차세대 슈퍼칩 ‘GB200 그레이스 블랙웰’ 플랫폼을 출시했다.

블랙웰 아키텍처 GPU에는 2,080억 개의 트랜지스터가 탑재됐다. GPU 다이가 초당 10테라바이트(TB)의 칩 투 칩(chip-to-chip) 링크로 연결된 단일 통합 GPU로, 맞춤형 2레티클 제한 4NP TSMC 공정을 통해 제조된다. 또한 새로운 마이크로 텐서 확장 지원과 엔비디아 ‘텐서RT-LLM(TensorRT-LLM)’ 및 ‘네모 메가트론(NeMo Megatron)’ 프레임워크에 통합된 엔비디아의 동적 범위 관리 알고리즘에 기반한다.

블랙웰은 5세대 NV링크(NVLink)도 지원한다. 수조 개의 파라미터와 여러 전문 AI 모델 조합의 성능을 가속화하기 위한 5세대 NV링크는 GPU당 획기적인 초당 1.8테라바이트의 양방향 처리량과 고속 통신을 제공한다. 블랙웰 기반 GPU를 위한 전용 RAS 엔진도 포함된다. RAS 엔진은 안정성·가용성 보장은 물론, 칩 수준에서 AI 기반 예방적 유지보수 기능을 활용해 진단을 실행하고 안정성 문제를 예측할 수 있도록 지원한다. 이를 통해 시스템 가동 시간을 극대화하고 복원력을 개선해 대규모 AI 배포를 몇 주 또는 몇 달 동안 중단 없이 한 번에 실행하고 운영 비용을 절감할 수 있다.

뿐만 아니라 블랙웰은 의료와 금융 서비스와 같이 개인정보 보호에 민감한 산업에 필수적인 새로운 기본 인터페이스 암호화 프로토콜을 지원한다. 데이터베이스(DB) 쿼리를 가속화해 데이터 분석과 우수한 성능을 지원하는 압축해제 엔진도 탑재됐다.

블랙웰 제품 포트폴리오는 생산 등급 AI를 위한 엔드투엔드 운영 체제인 엔비디아 AI 엔터프라이즈(AI Enterprise)에서 지원된다. 엔비디아 AI 엔터프라이즈에는 NIM 추론 마이크로서비스를 비롯해 기업이 엔비디아 가속 클라우드, 데이터센터, 워크스테이션에 배포할 수 있는 AI 프레임워크, 라이브러리, 툴 등이 포함된다.

엔비디아의 젠슨 황(Jensen Huang) CEO는 “엔비디아는 지난 30년 동안 딥러닝, AI와 같은 혁신을 실현하기 위해 가속 컴퓨팅을 추구해 왔다. 생성형 AI는 우리 시대를 정의하는 기술이다. 블랙웰 GPU는 이 새로운 산업혁명을 구동하는 엔진이다. 세계에서 가장 역동적인 기업들과 협력해 모든 산업에서 AI의 가능성을 실현할 것”이라고 말했다.

엔비디아에 따르면 현재 △아마존(Amazon) △델 테크놀로지스(Dell Technologies) △구글(Google) △메타(Meta) △마이크로소프트(Microsoft) △오픈AI(OpenAI) △오라클(Oracle) △테슬라(Tesla) 등 많은 기업이 블랙웰을 도입할 계획이다. 특히 아마존웹서비스(AWS), 구글 클라우드, 마이크로소프트 애저, 오라클 클라우드 인프라(Oracle Cloud Infrastructure) 등의 클라우드 서비스 제공업체(CSP)가 블랙웰 기반 인스턴스를 선제적으로 제공할 예정이다.

아마존의 앤디 재시(Andy Jassy) CEO는 “엔비디아와의 긴밀한 협력은 AWS에서 세계 최초의 GPU 클라우드 인스턴스를 출시했던 13년 전으로 거슬러 올라간다. 오늘날 AWS는 모든 클라우드에서 사용할 수 가장 광범위한 GPU 솔루션을 제공해 세계에서 가장 기술적으로 진보된 가속 워크로드를 지원한다. 이것이 바로 새로운 엔비디아 블랙웰 GPU가 AWS에서 잘 실행되는 이유”라며 “또한 엔비디아가 자체 AI 연구 개발을 위해 엔비디아의 차세대 그레이스 블랙웰 슈퍼칩과 AWS 나이트로 시스템(Nitro System)의 고급 가상화, 초고속 엘라스틱 패브릭 어댑터(ultra-fast Elastic Fabric Adapter) 네트워킹을 결합한 프로젝트 세이바(Ceiba)를 공동 개발하기 위해 AWS를 선택한 이유이기도 하다”라고 강조했다.

이어 “AWS와 엔비디아 엔지니어 간의 이러한 공동 노력을 통해 우리는 AWS를 누구나 클라우드에서 엔비디아 GPU를 실행할 수 있는 최고의 장소로 만들기 위해 함께 혁신을 지속하고 있다”고 밝혔다.

마이크로소프트 나델라(Satya Nadella) CEO는 “마이크로소프트는 고객에게 AI 워크로드를 구동할 수 있는 최첨단 인프라를 제공하기 위해 최선을 다하고 있다. 전 세계 데이터센터에 GB200 그레이스 블랙웰 프로세서를 도입함으로써, 우리는 클라우드에 엔비디아 GPU를 최적화해온 오랜 역사를 바탕으로 모든 조직에 AI의 약속을 실현하고 있다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지