GeForce RTX 30系列是NVIDIA继GeForce RTX 20系列之後开发的圖形處理器系列。於2020年9月1日正式發佈,並於2020年9月17日開始發貨[1]。
GeForce 30系列圖形處理器基于安培微架构,擁有第二代光線追踪核心和第三代張量核心,Nvidia稱其運行性能和能效約為之前图灵微架构圖形處理器的两倍[1][2],使用三星电子的8纳米工艺制造。
架構特性
在上一代圖靈架構,引入了分數據類型計算的理念,將整數型(INT32)和單精度浮點型(FP32)兩種不同的數據類型交給兩種不同的ALU進行計算,提高了SM單元的並行計算效率。不過現代遊戲應用中最為常見的還是FP 32計算,INT 32 ALU的使用率比FP 32 ALU的低。為提升計算效率,新一代安培架構引入了可同時支援INT 32和FP 32兩種數據類型的新ALU,取代了原本只支援INT 32計算的ALU。也就是說,現在有兩條不同的數據路徑(Datapath),一條能夠處理整數或單精度浮點,另一條只能處理單精度浮點計算。原本整個SM單元同時可以處理64個INT 32計算指令和64個FP 32計算指令,安培上則是變成128個FP 32計算指令或64個INT 32計算指令和64個FP 32計算指令。為配合規模有一定擴張的計算單元,安培SM的共享緩存/L1數據緩存容量從96KB增長到了128KB,同時其帶寬變為原來的兩倍。
第二代RT Core
安培微架構的RT Core(Ray Tracing core,光線追踪核心)在圖靈架構的基礎上將三角形求交模塊數量增加到兩個(以並行方式運作),在基礎的BVH計算上面,新一代RT Core也能夠快上2倍。同時,第二代RT Core還增加了一個三角形位置內插模塊,在允許BVH內的數據做少量更新的情況下,就能實現移動物體運動模糊效果的顯著性能提升。在OptiX 7.0 中,開發人員可以為幾何體指定特定的移動路徑,讓每條射線和時間關聯起來,從而實現移動物體的所有運動模糊效果加速。
第三代Tensor Core
Tensor Core(張量核心)是專門針對深度學習加速設計的矩陣運算單元,可以執行基於深度學習的應用,例如光線追踪降噪和DLSS抗鋸齒渲染。圖靈中每個SM都配有8個Tensor Core(每個子核有兩個Tensor Core),每個Clock(週期)可以執行512個FP16 Tensor操作。而在安培架構,每個SM裡有4個Tensor Core(每個子核有一個Tensor Core),但是每個Tensor Core的處理能力倍增,因此每個SM也能執行512個FP16 Tensor操作。
第三代Tensor Core引入了BF16、TF32 兩種新的數據格式,並引入硬件稀疏化技術,操作的能力上增加一倍達到等效每週期1024 個FP16 操作。
產品
型號
|
推出日期
|
核心代號
|
製程
|
電晶體數 & 晶粒面積
|
核心組態[a]
|
二級暫存(MB)
|
時脈頻率
|
顯示記憶體
|
填充率
|
運算效能 (TFLOPS)
|
匯流排介面
|
TDP (W)
|
NVLink支援
|
發售價格 (美金)
|
預設 (MHz)
|
加速 (MHz)
|
記憶體 (MT/s)
|
容量 (GiB)
|
頻寬 (GB/s)
|
類型
|
介面頻寬 (bit)
|
像素 (GP/s)
|
材質 (GT/s)
|
單精度
|
雙精度
|
半精度
|
張量 (FP16)
|
光追
|
GeForce RTX 3050
|
2022年1月27日
|
GA106-150-KA-A1
|
三星 8N
|
133億
276mm2
|
2560:80:32:80:28 (20) (3)
|
2
|
1552
|
1777
|
14000
|
8
|
224
|
GDDR6
|
128
|
49.6 56.86
|
124.1 142.2
|
7.946 9.098
|
0.124 0.142
|
7.946 9.098
|
|
|
PCIe 4.0 x8
|
130
|
否
|
$249
|
GeForce RTX 3060[3]
|
2021年 2月25日
|
GA106-300-A1
|
3584:112:48:112:28 (28) (3)
|
3
|
1320
|
15000
|
12
|
360.0
|
192
|
63.4
85.3
|
147.8
199.0
|
9.46
12.74
|
0.148
0.199
|
9.46
12.74
|
|
25
|
PCIe 4.0
x16
|
170
|
$329
|
2021年 9月1日
|
GA104-150-A1[4]
|
174億
392.5mm2
|
GeForce RTX 3060 Ti[5]
|
2020年 12月2日
|
GA104-200-A1
|
4864:152:80:152:38 (38) (6)
|
4
|
1410
|
1665
|
14000
|
8
|
448.0
|
256
|
112.8
133.2
|
214.3
253.1
|
13.72
16.20
|
0.214
0.253
|
13.70
16.20
|
?
129.6
|
32
|
200
|
$399
|
GeForce RTX 3070[6]
|
2020年 10月29日[7]
|
GA104-300-A1
|
5888:184:96:184:46 (46) (6)
|
1500
|
1725
|
144.0
165.6
|
276.0
317.4
|
17.66
20.31
|
0.276
0.318
|
17.66
20.37
|
141.31
162.98
|
40[8]
|
220
|
$499
|
GeForce RTX 3070 Ti[9]
|
2021年 6月10日
|
GA104-400-A1
|
6144:192:96:192:48 (48) (6)
|
1575
|
1770
|
9500 (19000)[b]
|
608.3
|
GDDR6X
|
151.18
169.9
|
302.36
339.8
|
19.35
21.75
|
0.302
0.340
|
19.35
21.75
|
|
|
290
|
$599
|
GeForce RTX 3080[10]
|
2020年 9月17日
|
GA102-200-KD-A1
|
283億
628.4mm2
|
8704:272:96:272:68 (68) (7)
|
5
|
1440
|
1710
|
10
|
760.0
|
320
|
138.2
164.2
|
391.68
465.12
|
25.07
29.77
|
0.392
0.465
|
25.06
29.76
|
200.54
238.14
|
58
|
320
|
$699
|
GeForce RTX 3080 Ti[11]
|
2021年 6月3日
|
GA102-225-A1
|
10240:320:112:320:80 (80) (7)
|
6
|
1395
|
1665
|
12
|
912.4
|
384
|
153.5
186.5
|
438.5
532.8
|
28.57
34.71
|
0.438
0.533
|
28.06
34.10
|
|
|
350
|
$1199
|
GeForce RTX 3090[12]
|
2020年 9月24日
|
GA102-300-A1
|
10496:328:112:328:82 (82) (7)
|
1395
|
1695
|
9750 (19500)[b]
|
24
|
935.8
|
156.2
189.8
|
457.6
555.96
|
29.28
35.58
|
0.459
0.558
|
29.38
35.68
|
235.08
285.48
|
69[8]
|
350
|
2路 NVLink
|
$1499
|
GeForce RTX 3090 Ti[13]
|
2022年
3月22日
|
GA102-350-A1
|
10752:336:112:336:84
(84)(7)
|
1560
|
1860
|
10500
(21000)
|
1008
|
174.7
208.3
|
524.1
625.0
|
33.54
39.99
|
0.524
0.625
|
33.54
39.99
|
320
|
|
450
|
$1999
|
- ^ 流處理器數量:纹理映射單元數量:渲染输出单元數量:張量核心數量:光線追蹤核心數量(SM數量)(GPC數量)。面向非专业用途的Ampere架构中每个GPC由16个ROP及最多12个SM组成,每个SM固定包括128个流处理器(单精度浮点处理器)、64个32位长整型处理器、4个TMU、4个张量核心和1个光线追踪核心;GA100核心的浮点处理器配置则略有不同,参见NVIDIA Tesla
- ^ 2.0 2.1 类似于早已在闪存行业应用的MLC技术,GDDR6X一次存取可以操作两个比特,括號內用於比較GDDR6的等效傳輸速率
另見
参考文献
外部链接