통계학자이자 수학자인 데이비드 블랙웰의 이름을 딴 블랙웰 아키텍처의 이름은 2022년에 B40 및 B100 액셀러레이터와 함께 유출되었고 2023년 10월 투자자 발표 중 공식 엔비디아 로드맵에 의해 확인되었다.[1] 2024년 3월 18일 엔비디아 GTC 2024 기조연설에서 공식적으로 발표되었다.[2]
2022년 3월, 엔비디아는 AI 가속기를 위한 호퍼 데이터센터 아키텍처를 발표했다. 호퍼 제품에 대한 수요는 2023년 AI 열풍 내내 높았다.[3] H100 기반 서버의 주문부터 납품까지의 리드 타임은 부족과 높은 수요로 인해 36주에서 52주 사이였다.[4] 엔비디아는 2023년 3분기에만 호퍼 기반 H100 가속기 50만 대를 판매한 것으로 알려졌다.[4] 호퍼 제품으로 AI 시장을 장악한 엔비디아는 시가총액을 2조 달러 이상으로 늘려 마이크로소프트와 애플에 이어 3위를 차지했다.[5]
엔비디아의 2023년 10월 투자자 발표에서 데이터센터 로드맵은 B100 및 B40 가속기와 블랙웰 아키텍처를 포함하도록 업데이트되었다.[7][8] 이전에는 호퍼의 후속 제품이 로드맵에 단순히 "Hopper-Next"로 표시되었다. 엔비디아의 업데이트된 로드맵은 데이터센터 제품의 2년 출시 주기를 x86 및 ARM 시스템을 대상으로 한 연간 출시로 전환하는 것을 강조했다.
2024년 3월 18일 그래픽 기술 컨퍼런스(GTC)에서 엔비디아는 블랙웰 아키텍처를 공식적으로 발표했으며, B100 및 B200 데이터센터 가속기와 관련 제품(예: 8-GPU HGX B200 보드 및 72-GPU NVL72 랙 스케일 시스템)에 중점을 두었다.[9] 엔비디아 CEO 젠슨 황은 블랙웰을 통해 "우리는 생성형 AI 시대를 위한 프로세서를 만들었다"고 말했으며, 블랙웰 가속기와 엔비디아의 ARM 기반 그레이스 CPU를 결합한 전반적인 블랙웰 플랫폼을 강조했다.[10][11] 엔비디아는 구글, 메타, 마이크로소프트, OpenAI 및 오라클 CEO들의 블랙웰 지지 선언을 홍보했다.[11] 기조연설에서는 게이밍에 대한 언급은 없었다.
2024년 10월 블랙웰 아키텍처에 TSMC와 협력하여 수정된 설계 결함이 있었다는 보도가 나왔다.[12] 황 CEO에 따르면, 설계 결함은 "기능적"이었으며 "수율을 낮추는 원인"이 되었다.[13] 2024년 11월까지 모건 스탠리는 블랙웰 실리콘의 "2025년 전체 생산량"이 "이미 매진되었다"고 보도했다.[14]
블랙웰은 데이터센터 컴퓨팅 애플리케이션과 게이밍 및 워크스테이션 애플리케이션 모두를 위해 설계된 아키텍처로, 각 목적에 맞는 전용 다이를 갖추고 있다.
공정 노드
블랙웰은 TSMC의 데이터센터 제품용 맞춤형 4NP 공정 노드와 소비자 제품용 맞춤형 4N 공정 노드에서 제조된다. 4NP는 호퍼 및 에이다 러브레이스 아키텍처에 사용된 4N 노드의 향상된 버전이다. 엔비디아 전용 4NP 공정은 표준 TSMC N4P 기술에 금속 레이어를 추가했을 가능성이 높다.[16] GB100 다이는 1,040억 개의 트랜지스터를 포함하며, 이전 세대 호퍼 GH100 다이의 800억 개 트랜지스터보다 30% 증가했다.[17] 블랙웰은 주요 공정 노드 발전으로 인한 이점을 얻을 수 없기 때문에 근본적인 아키텍처 변경을 통해 전력 효율성과 성능 향상을 달성해야 한다.[18]
GB100 다이는 반도체 제조의 리티클 한계에 도달했다.[19] 반도체 제조에서 리티클 한계는 리소그래피 기계가 실리콘 다이에 새길 수 있는 최대 특징 크기이다. 이전에는 엔비디아가 GH100의 814 mm2 다이로 TSMC의 리티클 한계에 거의 도달했었다. 다이 크기에 제약을 받지 않기 위해 엔비디아의 B100 가속기는 단일 패키지에 10TB/s 링크로 연결된 두 개의 GB100 다이를 사용하며, 엔비디아는 이를 NV-고대역 인터페이스(NV-HBI)라고 부른다. NV-HBI는 NVLink 7 프로토콜을 기반으로 한다. 엔비디아 CEO 젠슨 황은 CNBC와의 인터뷰에서 엔비디아가 블랙웰의 NV-HBI 다이 상호 연결을 위해 약 100억 달러의 연구개발 비용을 지출했다고 주장했다. AMD의 K7, K12 및 젠 아키텍처에 참여했던 베테랑 반도체 엔지니어 짐 켈러는 이 수치를 비판하며, 독점 NVLink 시스템 대신 울트라 이더넷을 사용하면 10억 달러로 동일한 결과를 얻을 수 있었을 것이라고 주장했다.[20] 연결된 두 개의 GB100 다이는 완전한 캐시 일관성을 갖춘 대형 단일 실리콘처럼 작동할 수 있다.[21] 듀얼 다이 패키지의 총 트랜지스터 수는 2,080억 개이다.[19] 이 두 개의 GB100 다이는 TSMC의 CoWoS-L 2.5D 패키징 기술을 사용하여 생산된 실리콘 인터포저 위에 배치된다.[22]
소비자 측면에서 블랙웰의 가장 큰 다이인 GB202는 750mm2로, 에이다 러브레이스의 가장 큰 다이인 AD102보다 20% 더 크다.[23] GB202는 총 24,576개의 CUDA 코어를 포함하며, AD102의 18,432개 CUDA 코어보다 28.5% 더 많다. GB202는 튜링 마이크로아키텍처를 기반으로 2018년에 출시된 754mm2 TU102 다이 이후 엔비디아가 설계한 가장 큰 소비자 다이이다. GB202와 GB203 사이의 간격도 이전 세대에 비해 훨씬 넓어졌다. GB202는 GB203보다 두 배 이상 많은 CUDA 코어를 특징으로 하는데, 이는 AD102가 AD103에 비해 그렇지 않았던 것과 다르다.
블랙웰 아키텍처는 AI 컴퓨팅 및 부동소수점 계산을 위한 5세대 텐서 코어를 도입했다. 데이터센터에서 블랙웰은 새로운 OCP(Open Compute Project) 커뮤니티에서 정의한 MXFP6 및 MXFP4 미세 스케일링 형식을 포함한 8비트 미만 데이터 유형에 대한 기본 지원을 추가하여 저정밀 계산의 효율성과 정확도를 향상시킨다.[25][26][27][28][29] 이전 호퍼 아키텍처는 트랜스포머 엔진을 도입하여 고정밀 모델(예: FP32)을 저정밀 모델로 양자화하는 것을 용이하게 하는 소프트웨어로, 호퍼는 더 높은 처리량을 갖는다. 블랙웰의 2세대 트랜스포머 엔진은 MXFP4 및 MXFP6 지원을 추가한다. 4비트 데이터를 사용하면 생성형 AI 학습 중 모델 추론의 효율성과 처리량이 향상된다. 엔비디아는 듀얼 GPU GB200 슈퍼칩에 대해 20페타플롭스(엔비디아가 희소성에 대해 주장하는 2배의 이득은 제외)의 FP4 컴퓨팅 성능을 주장한다.[30]