지포스 400 시리즈(GeForce 400 Series)는 엔비디아에서 개발한 그래픽 처리 장치 시리즈로, 페르미 마이크로아키텍처를 처음으로 선보였다. 원래 2009년 11월에 출시될 예정이었으나[2] 지연 끝에 2010년 3월 26일 출시되었고, 2010년 4월부터 판매되었다.
엔비디아는 페르미 마이크로아키텍처를 G80부터 사용된 테슬라 마이크로아키텍처에 이은 GPU 라인업의 다음 주요 단계로 설명했다. 최초의 페르미 아키텍처 제품인 GF100은 32개씩 16개 그룹으로 나뉜 512개의 스트림 프로세서와 30억 개의 트랜지스터를 포함하는 대형 칩으로, TSMC에서 40nm 공정으로 제조되었다. 이는 OpenGL 4.0과 Direct3D 11을 지원하는 엔비디아의 첫 번째 칩이다. GF100 GPU가 완전히 활성화된 제품은 판매되지 않았다. GTX 480은 스트리밍 멀티프로세서 하나가 비활성화되었고, GTX 470은 두 개의 스트리밍 멀티프로세서와 하나의 메모리 컨트롤러가 비활성화되었으며, GTX 465는 다섯 개의 스트리밍 멀티프로세서와 두 개의 메모리 컨트롤러가 비활성화되었다. 소비자용 지포스 카드에는 활성화된 GDDR5 메모리 컨트롤러 각각에 256MB가 연결되어 총 1.5GB, 1.25GB 또는 1.0GB를 제공했다. 테슬라 C2050은 6개의 컨트롤러 각각에 512MB를, 테슬라 C2070은 컨트롤러당 1024MB를 가졌다. 두 테슬라 카드 모두 14개의 스트림 프로세서 그룹이 활성화되었다.
고성능 테슬라 브랜드의 칩은 선택적인 ECC 메모리와 코어당 사이클당 하나의 배정밀도 부동소수점 연산을 수행하는 능력을 특징으로 한다. 소비자용 지포스 카드는 드라이버에 의해 인위적으로 4사이클당 하나의 DP 연산으로 제한된다. 이러한 기능들은 비주얼 스튜디오와 C++ 지원과 결합되어 엔비디아가 전문 및 상업 시장뿐만 아니라 고성능 컴퓨팅에서의 사용을 목표로 삼도록 했다.
GF100은 32개의 ALU당 32768개의 레지스터(G200의 8개 ALU당 16384개와 비교), 32개의 ALU당 48kB의 공유 메모리(8개 ALU당 16kB와 비교), 32개의 ALU당 16kB의 캐시(8개 ALU당 8kB 상수 캐시 + 24개 ALU당 24kB 텍스처 캐시와 비교)만을 가지고 있기 때문에, 240개 ALU당 256kB에서 512개 ALU당 768kB로 L2 캐시가 증가했음에도 불구하고, ALU당 온보드 SRAM의 양은 이전 G200 세대에 비해 비례적으로 감소했다. 레지스터 수와 같은 매개변수는 참조 설명서의 CUDA 컴퓨트 능력 비교표에서 확인할 수 있다.[3]
역사
2009년 9월 30일, 엔비디아는 아키텍처를 설명하는 백서를 공개했다.[4] 이 칩은 각각 32개의 'CUDA 코어'를 가진 16개의 '스트리밍 멀티프로세서'를 특징으로 하는데, 이 코어들은 사이클당 하나의 단정밀도 연산 또는 매 다른 사이클마다 하나의 배정밀도 연산을 수행할 수 있다. 또한 호스트 메모리를 칩의 주소 공간에 매핑할 수 있는 40비트 가상 주소 공간을 갖추어 포인터 종류가 하나뿐이어서 C++ 지원이 훨씬 쉬워졌으며, 384비트 폭의 GDDR5 메모리 인터페이스를 사용한다. G80 및 GT200과 마찬가지로, 스레드는 '워프(warp)'라는 32개의 스레드 묶음으로 스케줄링되며, 각 워프는 단일 셰이더 코어에서 실행된다. GT200은 각 셰이더 클러스터에 16KB의 '공유 메모리'를 가지고 있었고, 캐시가 필요할 경우 텍스처링 유닛을 통해 데이터를 읽어야 했지만, GF100은 각 클러스터에 64KB의 메모리를 가지고 있으며, 이는 48KB 캐시 + 16KB 공유 메모리 또는 16KB 캐시 + 48KB 공유 메모리로 사용할 수 있으며, 모든 16개 클러스터가 공유하는 768KB L2 캐시도 갖추고 있다.
백서는 이 칩을 그래픽 프로세서라기보다는 수만 개의 스레드를 포함하는 워크로드를 위한 일반 목적 프로세서로 훨씬 더 많이 설명한다. 이는 테라 MTA 아키텍처를 연상시키지만, 그 장비의 매우 효율적인 무작위 메모리 접근 지원은 없다.
지포스 GTX 480 다이 밑면 (GF100)
많은 사용자들은 지포스 400 시리즈 페르미 GPU가 경쟁사인 AMD의 라데온 HD 5000 시리즈에 비해 성능 향상이 미미하면서도 높은 온도와 전력 소비량을 보고했다. 이로 인해 AMD는 이 문제를 조롱하는 홍보 영상 "오해(The Misunderstanding)"를 제작 및 공개했다.[5] 이 영상에서는 경찰이 높은 열 프로파일을 보이는 집을 급습하는 모습이 나오는데, 이는 마약 재배를 시사한다. 그러나 집에 진입하자 높은 온도의 원인이 페르미 GPU임이 밝혀진다.[6][7] 페르미 GPU가 최대 부하 상태일 때 달걀을 튀길 수 있다는 농담이 흔해졌다.[8]
2 GF100 아키텍처 GPU의 각 스트리밍 멀티프로세서(SM)는 32개의 SP와 4개의 SFU를 포함한다. GF104/106/108 아키텍처 GPU의 각 스트리밍 멀티프로세서(SM)는 48개의 SP와 8개의 SFU를 포함한다. 각 SP는 사이클당 2개의 단정밀도 FMA 연산을 수행할 수 있다. 각 SFU는 사이클당 4개의 SF 연산을 수행할 수 있다. 하나의 FMA 연산은 두 개의 부동소수점 연산으로 계산된다. 따라서 셰이더 수 [n]과 셰이더 주파수 [f, GHz]를 사용하여 이론적인 단정밀도 최고 성능은 다음과 같이 추정할 수 있다. FLOPSsp ≈ f × n × 2 (FMA). 총 처리 능력: GF100의 경우 FLOPSsp ≈ f × m × (32 SP × 2(FMA) + 4 × 4 SFU) 및 GF104/106/108의 경우 FLOPSsp ≈ f × m × (48 SP × 2(FMA) + 4 × 8 SFU) 또는 GF100의 경우 FLOPSsp ≈ f × n × 2.5 및 GF104/106/108의 경우 FLOPSsp ≈ f × n × 8 / 3.[9]
SP - 셰이더 프로세서 (통합 셰이더, CUDA 코어), SFU - 특수 기능 유닛, SM - 스트리밍 멀티프로세서.
3 GF100의 각 SM은 텍스처 주소 유닛당 4개의 텍스처 필터링 유닛을 포함한다. 완전한 GF100 다이는 64개의 텍스처 주소 유닛과 256개의 텍스처 필터링 유닛을 포함한다[10] GF104/106/108 아키텍처의 각 SM은 텍스처 주소 유닛당 8개의 텍스처 필터링 유닛을 포함한다. 완전한 GF104 다이는 64개의 텍스처 주소 유닛과 512개의 텍스처 필터링 유닛을 포함하며, 완전한 GF106 다이는 32개의 텍스처 주소 유닛과 256개의 텍스처 필터링 유닛을 포함하고, 완전한 GF108 다이는 16개의 텍스처 주소 유닛과 128개의 텍스처 필터링 유닛을 포함한다.[11]
모든 제품은 40nm 제조 공정으로 생산된다. 모든 제품은 기능 수준 11_0에서 Direct3D 12.0, OpenGL 4.6 및 OpenCL 1.1을 지원한다. 유일한 예외는 OEM 전용 카드인 지포스 405로, GT218 (테슬라) 코어를 기반으로 하며 기능 수준 10_1의 DirectX 11.1, OpenGL 3.3만 지원하고 OpenCL 지원은 없다. 이 카드는 지포스 400 시리즈 중 페르미 마이크로아키텍처를 기반으로 하지 않는 유일한 카드이다. 매개변수 상 지포스 405는 지포스 310과 동일하며, 이 또한 OEM 전용 카드이며, 지포스 210을 기반으로 한다. 달리 명시되지 않는 한 모든 제품은 풀 하이트 및 풀 랭스 카드에 단일 DB15 VGA 커넥터를 가지고 있다.
2010년 11월 8일, 엔비디아는 GF110 칩과 GTX 580(480의 후속작)을 출시했다. 이는 GF100 칩을 재설계한 것으로, 전력 소비량이 상당히 적다. 이를 통해 엔비디아는 GF100에서는 이전에는 불가능했던 모든 16개의 SM(모든 16개 코어)을 활성화할 수 있었다.“Nvidia GeForce GTX 580”. GF100 아키텍처의 다양한 기능들은 더 비싼 쿼드로 및 테슬라 시리즈 카드에서만 사용할 수 있었다.[12] 지포스 소비자용 제품의 경우, 배정밀도 성능은 "풀" 페르미 아키텍처의 1/4이다. 오류 검사 및 수정 메모리(ECC)도 소비자 카드에서는 작동하지 않는다.[13] GF100 카드는 컴퓨트 능력 2.0을 제공하는 반면, GF104/106/108 카드는 컴퓨트 능력 2.1을 제공한다.
↑ 가나GF100의 각 SM은 텍스처 주소 유닛당 4개의 텍스처 필터링 유닛을 포함한다. 완전한 GF100 다이는 64개의 텍스처 주소 유닛과 256개의 텍스처 필터링 유닛을 포함한다.[10] GF104/106/108 아키텍처의 각 SM은 텍스처 주소 유닛당 8개의 텍스처 필터링 유닛을 포함하지만, 주소 지정 및 필터링 유닛이 모두 두 배로 늘어났다. 완전한 GF104 다이도 SM 수가 절반으로 줄었음에도 불구하고 64개의 텍스처 주소 유닛과 512개의 텍스처 필터링 유닛을 포함하며, 완전한 GF106 다이는 32개의 텍스처 주소 유닛과 256개의 텍스처 필터링 유닛을 포함하고, 완전한 GF108 다이는 16개의 텍스처 주소 유닛과 128개의 텍스처 필터링 유닛을 포함한다.[14]
↑ 가나다라마GTX 460의 TDP는 AMD의 HD5000 시리즈와 비교할 만하지만, GF100 기반 카드(GTX 480/470/465)는 훨씬 낮은 정격이지만 훨씬 더 많은 전력을 소비한다. 예를 들어, GTX 480은 250W TDP로 HD 5970의 297W TDP보다 더 많은 전력을 소비한다.[15]
↑ 가나400 시리즈는 지포스 9부터 700 시리즈까지의 비-OEM 계열 중 공식 듀얼 GPU 시스템을 포함하지 않는 유일한 제품군이다. 그러나 2011년 3월 18일, EVGA는 듀얼 460이 온보드된 최초의 단일 PCB 카드를 출시했다. 이 카드는 3600MHz의 2048MB 메모리와 1400MHz의 672 셰이더 프로세서를 탑재했으며, 429달러의 MSRP로 판매되었다.
↑지포스 405 카드는 지포스 310의 리브랜드 버전이며, 지포스 310은 지포스 210의 리브랜드 버전이다.
지원 중단
엔비디아는 릴리스 390 드라이버 이후 32비트 운영 체제용 32비트 드라이버를 더 이상 출시하지 않을 것이라고 발표했다.[18]
엔비디아는 2018년 4월 페르미가 레거시 드라이버 지원 상태로 전환되어 2019년 1월까지 유지될 것이라고 발표했다.[19]
↑Compute Capability Comparison Table in “Page 147-148, Appendix G.1, CUDA 3.1 official reference manual”(PDF). Page 97 in Appendix A lists the older NVIDIA GPUs and shows all G200 series to be compute capability 1.3, while Fermi-based cards have compute capability 2.x (page 14, Section 2.5).
↑“NVIDIA Tesla C2xxx webpage”., note from the description one may infer that on Teslas, ECC may be switched on and off using 1/8 of existing on-board memory, unlike standard ECC memory modules which requires 1/8 extra memory chips (that is, one extra chip to be mounted on the printed circuit board for every 8).