지포스 400 시리즈

지포스 400 시리즈
	레퍼런스 디자인 엔비디아 GTX 480
출시일	2010년 4월 12일(15년 전)
코드명	GF10x
아키텍처	페르미
모델	지포스 시리즈 지포스 GT 시리즈; 지포스 GTS 시리즈; 지포스 GTX 시리즈;
트랜지스터	260M 40 nm (GT218) 585M 40 nm (GF108); 1.170M 40 nm (GF106); 1.950M 40 nm (GF104); 1.950M 40 nm (GF114); 3.200M 40 nm (GF100);
카드
엔트리 레벨	GT 420; GT 430
미드레인지	GT 440; GTS 450; GTX 465
하이엔드	GTX 460; GTX 470
인튜지에스트	GTX 480
API 지원
Direct3D	Direct3D 12.0 (기능 레벨 11_0)
OpenCL	OpenCL 1.1
OpenGL	OpenGL 4.6
역사
이전	지포스 300 시리즈
다음	지포스 500 시리즈

지포스 400 시리즈(GeForce 400 Series)는 엔비디아에서 개발한 그래픽 처리 장치 시리즈로, 페르미 마이크로아키텍처를 처음으로 선보였다. 원래 2009년 11월에 출시될 예정이었으나^[2] 지연 끝에 2010년 3월 26일 출시되었고, 2010년 4월부터 판매되었다.

이 시리즈의 직접적인 경쟁자는 ATI의 라데온 HD 5000 시리즈였다.

아키텍처

엔비디아는 페르미 마이크로아키텍처를 G80부터 사용된 테슬라 마이크로아키텍처에 이은 GPU 라인업의 다음 주요 단계로 설명했다. 최초의 페르미 아키텍처 제품인 GF100은 32개씩 16개 그룹으로 나뉜 512개의 스트림 프로세서와 30억 개의 트랜지스터를 포함하는 대형 칩으로, TSMC에서 40nm 공정으로 제조되었다. 이는 OpenGL 4.0과 Direct3D 11을 지원하는 엔비디아의 첫 번째 칩이다. GF100 GPU가 완전히 활성화된 제품은 판매되지 않았다. GTX 480은 스트리밍 멀티프로세서 하나가 비활성화되었고, GTX 470은 두 개의 스트리밍 멀티프로세서와 하나의 메모리 컨트롤러가 비활성화되었으며, GTX 465는 다섯 개의 스트리밍 멀티프로세서와 두 개의 메모리 컨트롤러가 비활성화되었다. 소비자용 지포스 카드에는 활성화된 GDDR5 메모리 컨트롤러 각각에 256MB가 연결되어 총 1.5GB, 1.25GB 또는 1.0GB를 제공했다. 테슬라 C2050은 6개의 컨트롤러 각각에 512MB를, 테슬라 C2070은 컨트롤러당 1024MB를 가졌다. 두 테슬라 카드 모두 14개의 스트림 프로세서 그룹이 활성화되었다.

고성능 테슬라 브랜드의 칩은 선택적인 ECC 메모리와 코어당 사이클당 하나의 배정밀도 부동소수점 연산을 수행하는 능력을 특징으로 한다. 소비자용 지포스 카드는 드라이버에 의해 인위적으로 4사이클당 하나의 DP 연산으로 제한된다. 이러한 기능들은 비주얼 스튜디오와 C++ 지원과 결합되어 엔비디아가 전문 및 상업 시장뿐만 아니라 고성능 컴퓨팅에서의 사용을 목표로 삼도록 했다.

페르미는 이탈리아 물리학자 엔리코 페르미의 이름을 따서 명명되었다.

현재의 한계 및 절충

GF100은 32개의 ALU당 32768개의 레지스터(G200의 8개 ALU당 16384개와 비교), 32개의 ALU당 48kB의 공유 메모리(8개 ALU당 16kB와 비교), 32개의 ALU당 16kB의 캐시(8개 ALU당 8kB 상수 캐시 + 24개 ALU당 24kB 텍스처 캐시와 비교)만을 가지고 있기 때문에, 240개 ALU당 256kB에서 512개 ALU당 768kB로 L2 캐시가 증가했음에도 불구하고, ALU당 온보드 SRAM의 양은 이전 G200 세대에 비해 비례적으로 감소했다. 레지스터 수와 같은 매개변수는 참조 설명서의 CUDA 컴퓨트 능력 비교표에서 확인할 수 있다.^[3]

역사

2009년 9월 30일, 엔비디아는 아키텍처를 설명하는 백서를 공개했다.^[4] 이 칩은 각각 32개의 'CUDA 코어'를 가진 16개의 '스트리밍 멀티프로세서'를 특징으로 하는데, 이 코어들은 사이클당 하나의 단정밀도 연산 또는 매 다른 사이클마다 하나의 배정밀도 연산을 수행할 수 있다. 또한 호스트 메모리를 칩의 주소 공간에 매핑할 수 있는 40비트 가상 주소 공간을 갖추어 포인터 종류가 하나뿐이어서 C++ 지원이 훨씬 쉬워졌으며, 384비트 폭의 GDDR5 메모리 인터페이스를 사용한다. G80 및 GT200과 마찬가지로, 스레드는 '워프(warp)'라는 32개의 스레드 묶음으로 스케줄링되며, 각 워프는 단일 셰이더 코어에서 실행된다. GT200은 각 셰이더 클러스터에 16KB의 '공유 메모리'를 가지고 있었고, 캐시가 필요할 경우 텍스처링 유닛을 통해 데이터를 읽어야 했지만, GF100은 각 클러스터에 64KB의 메모리를 가지고 있으며, 이는 48KB 캐시 + 16KB 공유 메모리 또는 16KB 캐시 + 48KB 공유 메모리로 사용할 수 있으며, 모든 16개 클러스터가 공유하는 768KB L2 캐시도 갖추고 있다.

백서는 이 칩을 그래픽 프로세서라기보다는 수만 개의 스레드를 포함하는 워크로드를 위한 일반 목적 프로세서로 훨씬 더 많이 설명한다. 이는 테라 MTA 아키텍처를 연상시키지만, 그 장비의 매우 효율적인 무작위 메모리 접근 지원은 없다.

많은 사용자들은 지포스 400 시리즈 페르미 GPU가 경쟁사인 AMD의 라데온 HD 5000 시리즈에 비해 성능 향상이 미미하면서도 높은 온도와 전력 소비량을 보고했다. 이로 인해 AMD는 이 문제를 조롱하는 홍보 영상 "오해(The Misunderstanding)"를 제작 및 공개했다.^[5] 이 영상에서는 경찰이 높은 열 프로파일을 보이는 집을 급습하는 모습이 나오는데, 이는 마약 재배를 시사한다. 그러나 집에 진입하자 높은 온도의 원인이 페르미 GPU임이 밝혀진다.^[6]^[7] 페르미 GPU가 최대 부하 상태일 때 달걀을 튀길 수 있다는 농담이 흔해졌다.^[8]

제품

¹ SP - 셰이더 프로세서 - 통합 셰이더: 텍스처 매핑 유닛: 렌더 출력 장치
² GF100 아키텍처 GPU의 각 스트리밍 멀티프로세서(SM)는 32개의 SP와 4개의 SFU를 포함한다. GF104/106/108 아키텍처 GPU의 각 스트리밍 멀티프로세서(SM)는 48개의 SP와 8개의 SFU를 포함한다. 각 SP는 사이클당 2개의 단정밀도 FMA 연산을 수행할 수 있다. 각 SFU는 사이클당 4개의 SF 연산을 수행할 수 있다. 하나의 FMA 연산은 두 개의 부동소수점 연산으로 계산된다. 따라서 셰이더 수 [n]과 셰이더 주파수 [f, GHz]를 사용하여 이론적인 단정밀도 최고 성능은 다음과 같이 추정할 수 있다. FLOPS_sp ≈ f × n × 2 (FMA). 총 처리 능력: GF100의 경우 FLOPS_sp ≈ f × m × (32 SP × 2(FMA) + 4 × 4 SFU) 및 GF104/106/108의 경우 FLOPS_sp ≈ f × m × (48 SP × 2(FMA) + 4 × 8 SFU) 또는 GF100의 경우 FLOPS_sp ≈ f × n × 2.5 및 GF104/106/108의 경우 FLOPS_sp ≈ f × n × 8 / 3.^[9]

SP - 셰이더 프로세서 (통합 셰이더, CUDA 코어), SFU - 특수 기능 유닛, SM - 스트리밍 멀티프로세서.

³ GF100의 각 SM은 텍스처 주소 유닛당 4개의 텍스처 필터링 유닛을 포함한다. 완전한 GF100 다이는 64개의 텍스처 주소 유닛과 256개의 텍스처 필터링 유닛을 포함한다^[10] GF104/106/108 아키텍처의 각 SM은 텍스처 주소 유닛당 8개의 텍스처 필터링 유닛을 포함한다. 완전한 GF104 다이는 64개의 텍스처 주소 유닛과 512개의 텍스처 필터링 유닛을 포함하며, 완전한 GF106 다이는 32개의 텍스처 주소 유닛과 256개의 텍스처 필터링 유닛을 포함하고, 완전한 GF108 다이는 16개의 텍스처 주소 유닛과 128개의 텍스처 필터링 유닛을 포함한다.^[11]

모든 제품은 40nm 제조 공정으로 생산된다. 모든 제품은 기능 수준 11_0에서 Direct3D 12.0, OpenGL 4.6 및 OpenCL 1.1을 지원한다. 유일한 예외는 OEM 전용 카드인 지포스 405로, GT218 (테슬라) 코어를 기반으로 하며 기능 수준 10_1의 DirectX 11.1, OpenGL 3.3만 지원하고 OpenCL 지원은 없다. 이 카드는 지포스 400 시리즈 중 페르미 마이크로아키텍처를 기반으로 하지 않는 유일한 카드이다. 매개변수 상 지포스 405는 지포스 310과 동일하며, 이 또한 OEM 전용 카드이며, 지포스 210을 기반으로 한다. 달리 명시되지 않는 한 모든 제품은 풀 하이트 및 풀 랭스 카드에 단일 DB15 VGA 커넥터를 가지고 있다.

2010년 11월 8일, 엔비디아는 GF110 칩과 GTX 580(480의 후속작)을 출시했다. 이는 GF100 칩을 재설계한 것으로, 전력 소비량이 상당히 적다. 이를 통해 엔비디아는 GF100에서는 이전에는 불가능했던 모든 16개의 SM(모든 16개 코어)을 활성화할 수 있었다.“Nvidia GeForce GTX 580”. GF100 아키텍처의 다양한 기능들은 더 비싼 쿼드로 및 테슬라 시리즈 카드에서만 사용할 수 있었다.^[12] 지포스 소비자용 제품의 경우, 배정밀도 성능은 "풀" 페르미 아키텍처의 1/4이다. 오류 검사 및 수정 메모리(ECC)도 소비자 카드에서는 작동하지 않는다.^[13] GF100 카드는 컴퓨트 능력 2.0을 제공하는 반면, GF104/106/108 카드는 컴퓨트 능력 2.1을 제공한다.

칩셋 표

모델	출시일	암호명	제조 (nm)	트랜지스터 (백만)	다이 크기 (mm²)	SM 수	코어 구성^[a]^[b]	클럭 속도			필레이트		메모리 구성				지원 API 버전				처리 능력 (GFLOPS)^[c]		TDP (와트)^[d]	출시 가격 (USD)
모델	출시일	암호명	제조 (nm)	트랜지스터 (백만)	다이 크기 (mm²)	SM 수	코어 구성^[a]^[b]	코어 (MHz)	셰이더 (MHz)	메모리 (MHz)	픽셀 (GP/s)	텍스처 (GT/s)	크기 (MB)	대역폭 (GB/s)	DRAM 유형	버스 폭 (비트)	Vulkan	Direct3D	OpenGL	OpenCL^[e]	단정밀도	배정밀도	TDP (와트)^[d]	출시 가격 (USD)
지포스 405^[f]	2011년 9월 16일	GT216 GT218	40 nm	486 260	100 57	1	48:16:8 16:8:4	475 589	1100 1402	800 790	3.8 2.36	7.6 4.71	512 1024	12.6	DDR3	64	해당 없음^[16]	11.1 (FL 10_1)	3.3	1.1	105.6 44.86	알 수 없음	30.5	OEM
지포스 GT 420	2010년 9월 3일	GF108	TSMC 40 nm	585	116	1	48:4:4	700	1400	1800	2.8	2.8	512	28.8	GDDR3	128		12 (FL 11_0)	4.6	1.1	134.4	알 수 없음	50
지포스 GT 430	2010년 10월 11일	GF108 GF108-300-A1				2	96:16:4			1600 1800		11.2	512	25.6 28.8		128				1.2	268.8	알 수 없음	60
										1800			512 1024 2048	28.8		128				1.1	268.8	알 수 없음	49	79
										1300			512 1024 2048	10.4		64					268.8	알 수 없음	49	79
지포스 GT 440	2011년 2월 1일	GF108						810	1620	1800 3200	3.2	12.9	512 1024	28.8 51.2	GDDR3 GDDR5	128					311.04	알 수 없음	65	100
지포스 GT 440	2010년 10월 11일	GF106		1170	238	3	144:24:24	594	1189	1600 1800	4.86	19.44	1536 3072	43.2	DDR3	192					342.43	알 수 없음	56	OEM
지포스 GTS 450	2010년 10월 11일	GF106				3	144:24:24	790	1580	4000	4.7	18.9	1536	96.0	GDDR5	192					455.04	알 수 없음	106	OEM
지포스 GTS 450	2010년 9월 13일 2011년 3월 15일	GF106-250 GF116-200				4	192:32:16	783	1566	1200-1600 (GDDR3) 3608 (GDDR5)	6.2	25.0	512 1024	57.7		128					601.34	알 수 없음	106	129
지포스 GTX 460 SE	2010년 11월 15일	GF104-225-A1		1950	332	6	288:48:32	650	1300	3400	7.8	31.2	1024	108.8		256					748.8	알 수 없음	150	160
지포스 GTX 460	2010년 10월 11일	GF104				7	336:56:32	650	1300	3400	9.1	36.4	1024	108.8		256					873.6	알 수 없음		OEM
	2010년 7월 12일	GF104-300-KB-A1					336:56:24	675	1350	3600	9.4	37.8	768	86.4		192					907.2	알 수 없음		199
	2010년 7월 12일	GF104-300-KB-A1					336:56:32	675	1350	3600	9.4	37.8	1024 2048	115.2		256					907.2	알 수 없음	160	229
	2011년 9월 24일	GF114					336:56:24	779	1557	4008	10.9	43.6	1024	96.2		192					1045.6	알 수 없음	160	199
지포스 GTX 465	2010년 5월 31일	GF100-030-A3		3000^[17]	529	11	352:44:32	608	1215	3206	13.3	26.7	1024	102.7		256				1.2	855.36	106.92	200^[d]	279
지포스 GTX 470	2010년 3월 26일	GF100-275-A3				14	448:56:40	608	1215	3348	17.0	34.0	1280	133.9		320					1088.64	136.08	215^[d]	349
지포스 GTX 480	2010년 3월 26일	GF100-375-A3				15	480:60:48	701	1401	3696	21.0	42.0	1536	177.4		384					1344.96	168.12	250^[d]	499
모델	출시일	암호명	제조 (nm)	트랜지스터 (백만)	다이 크기 (mm²)	SM 수	코어 구성^[a]^[b]	클럭 속도			필레이트		메모리 구성				지원 API 버전				처리 능력 (GFLOPS)^[c]		TDP (와트)^[d]	출시 가격 (USD)
모델	출시일	암호명	제조 (nm)	트랜지스터 (백만)	다이 크기 (mm²)	SM 수	코어 구성^[a]^[b]	코어 (MHz)	셰이더 (MHz)	메모리 (MHz)	픽셀 (GP/s)	텍스처 (GT/s)	크기 (MB)	대역폭 (GB/s)	DRAM 유형	버스 폭 (비트)	Vulkan	Direct3D	OpenGL	OpenCL^[e]	단정밀도	배정밀도	TDP (와트)^[d]	출시 가격 (USD)

↑ ^가 ^나 통합 셰이더: 텍스처 매핑 유닛: 렌더 출력 장치
↑ ^가 ^나 GF100의 각 SM은 텍스처 주소 유닛당 4개의 텍스처 필터링 유닛을 포함한다. 완전한 GF100 다이는 64개의 텍스처 주소 유닛과 256개의 텍스처 필터링 유닛을 포함한다.^[10] GF104/106/108 아키텍처의 각 SM은 텍스처 주소 유닛당 8개의 텍스처 필터링 유닛을 포함하지만, 주소 지정 및 필터링 유닛이 모두 두 배로 늘어났다. 완전한 GF104 다이도 SM 수가 절반으로 줄었음에도 불구하고 64개의 텍스처 주소 유닛과 512개의 텍스처 필터링 유닛을 포함하며, 완전한 GF106 다이는 32개의 텍스처 주소 유닛과 256개의 텍스처 필터링 유닛을 포함하고, 완전한 GF108 다이는 16개의 텍스처 주소 유닛과 128개의 텍스처 필터링 유닛을 포함한다.^[14]
↑ ^가 ^나 처리 능력을 계산하려면 페르미 (마이크로아키텍처)#성능을 참조한다.
↑ ^가 ^나 ^다 ^라 ^마 GTX 460의 TDP는 AMD의 HD5000 시리즈와 비교할 만하지만, GF100 기반 카드(GTX 480/470/465)는 훨씬 낮은 정격이지만 훨씬 더 많은 전력을 소비한다. 예를 들어, GTX 480은 250W TDP로 HD 5970의 297W TDP보다 더 많은 전력을 소비한다.^[15]
↑ ^가 ^나 400 시리즈는 지포스 9부터 700 시리즈까지의 비-OEM 계열 중 공식 듀얼 GPU 시스템을 포함하지 않는 유일한 제품군이다. 그러나 2011년 3월 18일, EVGA는 듀얼 460이 온보드된 최초의 단일 PCB 카드를 출시했다. 이 카드는 3600MHz의 2048MB 메모리와 1400MHz의 672 셰이더 프로세서를 탑재했으며, 429달러의 MSRP로 판매되었다.
↑ 지포스 405 카드는 지포스 310의 리브랜드 버전이며, 지포스 310은 지포스 210의 리브랜드 버전이다.