맥스웰 (마이크로아키텍처)

맥스웰(Maxwell)은 엔비디아가 케플러 마이크로아키텍처의 후속으로 개발한 GPU 마이크로아키텍처의 코드명이다. 맥스웰 아키텍처는 지포스 700 시리즈의 후기 모델에 도입되었으며, 지포스 800M 시리즈, 지포스 900 시리즈, 쿼드로 Mxxx 시리즈 및 일부 젯슨 제품에도 사용되었다.

최초의 맥스웰 기반 제품은 지포스 GTX 745 (OEM), 지포스 GTX 750 및 지포스 GTX 750 Ti였다. 둘 다 2014년 2월 18일에 출시되었으며, 칩 코드 번호는 GM107이다. 이전 지포스 700 시리즈 GPU는 GK1xx 코드 번호의 케플러 칩을 사용했다. 1세대 맥스웰 GPU (코드 번호 GM10x)는 지포스 800M 시리즈와 쿼드로 Kxxx 시리즈에도 사용되었다. 2세대 맥스웰 기반 제품은 2014년 9월 18일 지포스 GTX 970 및 지포스 GTX 980과 함께 출시되었고, 이어서 2015년 1월 22일 지포스 GTX 960, 2015년 3월 17일 지포스 GTX Titan X, 2015년 6월 1일 지포스 GTX 980 Ti가 출시되었다. 최종이자 가장 낮은 사양의 맥스웰 2.0 카드는 2015년 8월 20일에 출시된 GTX950이다. 이 GPU는 GM20x 칩 코드 번호를 가지고 있다.

맥스웰은 전력 효율성을 높인 개선된 스트리밍 멀티프로세서(SM) 설계를 도입했으며,^[2] 6세대 및 7세대 퓨어비디오 HD, CUDA 컴퓨트 기능 5.2를 지원한다.

이 아키텍처는 제임스 클러크 맥스웰, 즉 전자기 복사 이론의 창시자 이름을 따서 명명되었다.

맥스웰 아키텍처는 시스템 온 칩(SOC), 모바일 애플리케이션 프로세서인 테그라 X1에 사용된다.

1세대 맥스웰 (GM10x)

1세대 맥스웰 GPU(GM107/GM108)는 지포스 GTX 745, GTX 750/750 Ti, GTX 850M/860M (GM107), 지포스 830M/840M (GM108)으로 출시되었다. 이 새로운 칩들은 엔비디아가 GPU 전력 효율성 향상에 더 집중했기 때문에 소비자에게 눈에 띄는 추가 기능은 거의 도입하지 않았다. L2 캐시는 케플러의 256KiB에서 맥스웰의 2MiB로 증가하여 더 많은 메모리 대역폭의 필요성을 줄였다. 따라서 메모리 버스는 케플러(GK106)의 192비트에서 128비트로 감소하여 다이 면적, 비용, 전력 소비를 줄였다.^[3]

케플러의 "SMX" 스트리밍 멀티프로세서 설계도 재조정되고 분할되어 맥스웰에서는 "SMM"으로 이름이 변경되었다. 워프 스케줄러의 구조는 케플러에서 계승되었으며 텍스처 유닛과 FP64 CUDA 코어는 여전히 공유되었지만, 대부분의 실행 유닛 배치는 분할되어 SMM의 각 워프 스케줄러가 32개의 FP32 CUDA 코어 세트, 8개의 로드/스토어 유닛 세트 및 8개의 특수 기능 유닛 세트를 제어한다. 이는 각 SMX에 공유 실행 유닛 풀을 예약하는 4개의 스케줄러가 있는 케플러와 대조적이다.^[4] 후자는 모든 실행 유닛을 공유할 수 있도록 불필요한 전력을 사용하는 SMX 전체 크로스바가 필요했다.^[4] 반대로 맥스웰의 더 모듈식 설계는 자원을 더 세밀하고 효율적으로 할당할 수 있어 공유 자원에 최적이 아닌 작업 부하가 있을 때 전력을 절약할 수 있다. 엔비디아는 128개 CUDA 코어 SMM이 192개 CUDA 코어 SMX 성능의 90%를 달성하는 동시에 효율성이 2배 증가한다고 주장한다.^[3] 또한, 각 그래픽 처리 클러스터(GPC)는 케플러에서 최대 4개의 SMX 유닛, 1세대 맥스웰에서 최대 5개의 SMM 유닛을 포함한다.^[3]

GM107은 또한 GK110/GK208 GPU의 3.5 및 GK10x GPU의 3.0과 비교하여 CUDA 컴퓨트 기능 5.0을 지원한다. GK110/GK208 GPU의 두 가지 기능인 동적 병렬 처리 및 HyperQ도 전체 맥스웰 제품 라인에서 지원된다. 맥스웰은 또한 32비트 정수에 대한 기본 공유 메모리 아토믹 연산과 다른 아토믹 함수를 구현하는 데 사용할 수 있는 기본 공유 메모리 32비트 및 64비트 비교 및 교환(CAS)을 제공한다.

엔비디아의 비디오 인코더 NVENC는 케플러 기반 GPU보다 1.5배에서 2배 더 빠르게 업그레이드되어 비디오를 재생 속도의 6~8배로 인코딩할 수 있다.^[3] 엔비디아는 또한 메모리 효율성 향상과 함께 비디오 디코더 캐시로 인해 퓨어비디오 기능 세트 E 비디오 디코딩 성능이 8~10배 향상되었다고 주장한다. 그러나 H.265는 1세대 맥스웰 GPU에서 완전 하드웨어 디코딩을 지원하지 않으며 하드웨어 디코딩과 소프트웨어 디코딩(CPU 디코딩)을 혼합하여 사용한다.^[3] 비디오를 디코딩할 때 맥스웰 GPU에서 전력을 절약하기 위해 새로운 저전력 상태 "GC5"가 사용된다.^[3]

맥스웰 GPU는 타일 기반 렌더링을 사용하는 것으로 생각되었지만,^[5] 실제로는 타일 캐싱을 사용한다.^[6]

1세대 맥스웰 이후 UEFI 그래픽 출력 프로토콜은 엔비디아 GPU에서 완전히 지원된다.

칩

GM107
GM108

2세대 맥스웰 (GM20x)

2세대 맥스웰 GPU는 다음과 같은 여러 신기술을 도입했다: 동적 초해상도(Dynamic Super Resolution)^[7], 3세대 델타 컬러 압축(Third Generation Delta Color Compression)^[8], 멀티 픽셀 프로그래밍 샘플링(Multi-Pixel Programming Sampling)^[9], 엔비디아 VXGI (실시간 복셀 글로벌 일루미네이션)^[10], VR 다이렉트(VR Direct)^[10]^[11]^[12], 멀티 프로젝션 가속(Multi-Projection Acceleration)^[8], 멀티 프레임 샘플링된 안티 에일리어싱(MFAA)^[13] (그러나 Coverage-Sampling Anti-Aliasing(CSAA) 지원은 제거되었다)^[14], 기능 수준 12_1의 다이렉트3D12 API. HDMI 2.0 지원도 추가되었다.^[15]^[16]

ROP 대 메모리 컨트롤러 비율은 8:1에서 16:1로 변경되었다.^[17] 그러나 GTX 970에서는 충분한 SMM이 활성화되지 않아 일부 ROP가 일반적으로 유휴 상태이므로 최대 채우율이 감소한다.^[18]

테셀레이션을 담당하는 폴리모프 엔진은 2세대 맥스웰 GPU에서 3.0 버전으로 업그레이드되어 유닛/클럭당 테셀레이션 성능이 향상되었다.

2세대 맥스웰은 GPC당 최대 5개의 SMM 유닛과 비교하여 GPC당 최대 4개의 SMM 유닛을 가지고 있다.^[17]

GM204는 CUDA 컴퓨트 기능 5.2를 지원한다(GM107/GM108 GPU의 5.0, GK110/GK208 GPU의 3.5, GK10x GPU의 3.0과 비교).^[8]^[17]^[19]

GM20x GPU는 HEVC 인코딩을 지원하는 업그레이드된 NVENC를 가지고 있으며 1440p/60FPS 및 4K/60FPS의 H.264 인코딩 해상도를 추가로 지원한다(H.264 1080p/60FPS 인코딩만 지원하는 1세대 맥스웰 GM10x GPU의 NVENC와 비교).^[12]

소비자 불만^[20] 이후 엔비디아는 전체 메모리 컨트롤러를 비활성화하지 않고 256KB의 L2 캐시와 8개의 ROP를 포함하는 개별 유닛을 비활성화할 수 있다고 밝혔다.^[21] 이는 GDDR5 컨트롤러를 관리하는 L2/ROP 유닛이 GDDR5 컨트롤러 간에 읽기 반환 채널과 쓰기 데이터 버스를 공유하므로 메모리 버스를 동시에 액세스할 수 없는 고속 및 저속 세그먼트로 분할하는 대가를 치른다. 이로 인해 두 GDDR5 컨트롤러에서 동시에 읽거나 두 GDDR5 컨트롤러에 동시에 쓰는 것이 불가능하다.^[21] 이는 지포스 GTX 970에 사용되며, 따라서 224비트 버스에 3.5GB의 고속 세그먼트와 32비트 버스에 512MB의 저속 세그먼트가 있다고 설명할 수 있다.^[21] 이러한 GPU의 최고 속도는 여전히 달성할 수 있지만, 최고 속도는 한 세그먼트가 읽기 작업을 수행하는 동안 다른 세그먼트가 쓰기 작업을 수행하는 경우에만 달성 가능하다.^[21]