Romano
03-27-2012, 17:21
Cuối tháng 3 là giai đoạn thế giới chuyển qua cung Bạch Dương (Aries), cung hoàng đạo tiên phong trong 12 cung. Tháng 3 năm nay, giới công nghệ phần cứng chứng kiến sự xuất hiện của card đồ hoạ GTX 680 từ NVIDIA. Cũng như cung Bạch Dương, GTX 680 đánh dấu một bước tiến mới về năng lực đồ hoạ dành cho game. Nhưng điều ǵ làm nên sức mạnh đấy? Chúng ta sẽ t́m hiểu ở bài phân tích sau.
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/GeForceGTX680F_34420 .jpg
Với hàng tá kết quả benchmark từ nhiều site phần cứng trên thế giới, không có ǵ để nghi ngờ năng lực gaming dẫn đầu của GTX 680. Dĩ nhiên vẫn có một số trường hợp GTX 680 kém hơn HD 7970, song số lượng ấy không đáng kể. GTX 680 là trường hợp đặc biệt sau nhiều năm, các testlab hoàn toàn có đủ tự tin để nói rằng : "hăy mua nó nếu bạn muốn chiếc card đơn nhân mạnh nhất hiện nay (http://genk.vn/c188n201203211048308 70/preview-geforce-gtx-680-ng244i-vuong-do-hoa-moi-.chn)". Hai chi tiết thuyết phục khác : giá đề nghị của GTX 680 hiện thấp hơn 50 USD so với HD 7970 và chiếc GeForce dùng ít điện hơn đối thủ Radeon !
Nhưng làm sao một con chip đồ hoạ (GPU) với 3,54 tỷ transistor (GTX 680) lại có thể tốt hơn con chip 4,31 tỷ trans (HD 7970) ? Và làm sao con chip 3,54 tỷ trans này lại mạnh gấp 1,5 lần con chip 3 tỷ trans (GTX 580) cũng của chính NVIDIA ? Làm sao NVIDIA có thể "nhét" 1536 nhân đồ hoạ (SP / CUDA Core) vào 3,54 tỷ trans trong khi "chỉ được" 512 SP vào 3 tỷ trans ? Câu trả lời : Kiến trúc!
Điểm lại kiến trúc Ferm
Các fan của AMD và NVIDIA hẳn không lạ với cái tên Fermi. Đấy là kiến trúc đồ hoạ của ḍng card GeForce 400 & 500. Tuy vậy, kiến trúc Fermi thực ra có 2 phiên bản : Fermi GF100 (hoặc GF110) và Fermi GF104 (hoặc GF114). Khác biệt ? Ở Fermi GF100, một SM có 32 SP. Ở Fermi GF104, một SM có 48 SP. Điều này có nghĩa "mật độ" SP trên GF104 cao hơn so với GF100. Hay nói cách khác, một SM GF104 có thể xử lư được nhiều luồng dữ liệu hơn so với một SM GF100 tại cùng mức xung.
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/03/NVIDIA-GF104-die_9fbc5.jpg
Sơ đồ khối của GF114.
Nhưng bạn đặt câu hỏi : tại sao NVIDIA không thiết kế SM của GF100 cũng nhiều SP như của GF104 ? Khác nhau để làm ǵ ? Trả lời : v́ GF104 để nhắm vào game, c̣n GF100 nhắm vào GPGPU / HPC. GPGPU / HPC là các ứng dụng khai thác GPU để thực hiện tính toán thay cho CPU, ví dụ như các siêu máy tính (SC). Top 10 SC hiện nay (http://www.top500.org/lists/2011/11) có 3 hệ thống (thứ 2, thứ 4 và thứ 5) hiện đang dùng GPU của NVIDIA. Trong đó 2 hệ thống đứng thứ 2 và thứ 4 dùng chip GF100 (C2050). Danh sách các card Tesla (cho HPC) của NVIDIA hiện không có model nào dùng chip GF104.
Tuy vậy, GF104 lại là con chip khá mạnh phổ biến trong ḍng card GeForce (cho game) hiện tại của NVIDIA.
SP nhiều gấp 4, hiệu năng gấp đôi
Ở bài preview (http://genk.vn/c188n201203211048308 70/preview-geforce-gtx-680-ng244i-vuong-do-hoa-moi-.chn) trước, tôi có đề cập vấn đề số SP của GTX 680 (hay GK104) gấp 3 lần GTX 580 (GF110) hoặc 4 lần GTX 560 Ti (GF114) nhưng hiệu năng chỉ gấp 1,5 lần GTX 580 hoặc 2 lần GTX 560 Ti. V́ sao có điều "kỳ lạ" này ? Đấy là chưa tính xung nhịp của GTX 680 lên đến 1 GHz c̣n GTX 580 chỉ có 772 MHz và GTX 560 Ti là 822 MHz !
Vấn đề nằm ở chỗ : NVIDIA đă thực hiện một thay đổi có thể xem là đáng kể nhất từ GeForce 8000 : loại bỏ xung shader. Thực ra, không hẳn "bỏ", mà xung shader của GK104 lúc này bằng đúng xung GPU. Nếu bạn lật lại những thế hệ card GeForce (http://en.wikipedia.org/wiki/Nvidia_gpu) trước đây của NVIDIA, bạn sẽ thấy xung shader từ GeForce 8000 luôn cao hơn rất nhiều so với xung GPU. Đặc biệt với thế hệ Fermi, xung shader luôn gấp đôi xung GPU. Có nghĩa nếu GTX 580 có xung GPU 772 MHz th́ các shader của nó lại đang chạy ở mức 1.544 MHz ! Rất cao phải không nào?
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/GeForceGTX680SMDiagr amFINAL_419e9.jpg
Cấu tạo SMX của GK104.
Do vậy, mặc dù GK104 có đến 1536 SP, gấp 4 lần con số 384 SP của GF114, nhưng hiệu năng của nó chỉ gấp đôi con chip này (v́ xung shader GK104 bằng xung GPU, c̣n xung shader GF114 gấp đôi xung GPU). Và điều này cũng góp phần giải thích tại sao card NVIDIA vốn có ít SP hơn card AMD : v́ xung shader bên AMD cũng bằng xung GPU.
Đến đây, bạn đang tự hỏi : tại sao NVIDIA phải làm như thế ? Phải chăng NVIDIA đang "tiến lùi" ? "Nhồi" ít SP hơn th́ đỡ tốn silicon / transistor hơn chứ ? Và lời giải đáp có thể sẽ khiến bạn bất ngờ ...
Nhiều SP hơn nhưng die nhỏ hơn
Bạn đang đọc nhầm? Không! Bạn đọc đúng từng chữ đấy! GK104 có nhiều SP hơn nhưng die lại nhỏ hơn GF104 lẫn GF100. Dĩ nhiên không thể bỏ qua "công lao" của tiến tŕnh bán dẫn 28nm của TSMC so với tiến tŕnh 40nm: cùng lượng transistor một die 28nm chỉ bự bằng 1/2 die 40nm (28nm x 28nm = 40nm x 40nm / 2). Die GK104 có kích thước 294mm2 @ 28nm. Trong trường hợp được sản xuất trên tiến tŕnh 40nm, kích thước của nó có thể vào 600mm2 ! Cho bạn tiện tham khảo, die GF100 có kích thước 520mm2.
Nhưng ngay cả khi GK104 được sản xuất trên node 40nm, bạn vẫn khó ḷng h́nh dung được làm sao NVIDIA có thể "nhét" 1536 SP vào trong một diện tích vốn chỉ "vừa" với khoảng 600 SP ? "Ma thuật" ǵ ở đây?
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/29gtx68gpubig_c9f15. jpg
Die chip GK104 có kích thước 294mm2.
"Ma thuật" ở chỗ: có rất nhiều thứ trên tấm silicon không dùng để làm SP. Một trong các lư do chúng ta nhắc lại kiến trúc Fermi ở trên là : nó sinh ra cho GPGPU. Đối với GPGPU, một trong các thành phần quan trọng nhất là các bộ điều lịch (scheduler) và năng lực dấu phẩy động 64-bit (FP64). Vai tṛ của scheduler có thể so sánh với các quản lư viên (supervisor) trong một công ty, nhà máy: bạn có thể có nhiều nhân công (worker) nhưng thiếu các quản lư có tŕnh độ th́ hiệu suất sử dụng lao động sẽ không cao. C̣n FP64 có ư nghĩa trong việc tính toán chính xác (nghiên cứu khoa học, xây dựng mô h́nh ...), hầu hết game không cần năng lực này.
Trong GPGPU, rất dễ có sự xuất hiện bất ngờ các tiến tŕnh ngoại biên (thực chất GPGPU rất giống với các thuật toán trên CPU - general computing). Một số tiến tŕnh bị lệ thuộc toán tử vào các tiến tŕnh phái sinh khác. Điều này khiến cho tốc độ xử lư GPGPU nhanh hay chậm sẽ lệ thuộc scheduler. C̣n với gaming, hầu như các tiến tŕnh có thể dự đoán được v́ các studio làm game có quan hệ sâu sắc với NVIDIA lẫn AMD. Nhờ mối quan hệ này mà hiệu năng game thường được cải thiện dần sau mỗi lần phát hành driver (software) mới. Nhưng với GPGPU, chỉ có các scheduler vật lư (hardware) mới thực sự hiệu quả.
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/Scheduler_4b01d.jpg
Kepler dùng cơ chế điều lịch đơn giản hơn các thế hệ trước.
Bao nhiêu silicon được dành cho scheduler vật lư thực sự chúng ta không rơ. Song bạn có thể nh́n qua kiến trúc GCN (http://genk.vn/c188n201112310851896 6/amd-radeon-hd-7970-tuong-moi-cua-quotqu226n-do224n-doquot-phan-1.chn) của AMD làm ví dụ. Từ Cayman (HD 6970) chuyển lên Tahiti (HD 7970) là sự chênh lệch giữa 2,64 và 4,3 tỷ transistor (60%), nhưng chỉ là giữa 1536 và 2048 SP (33%). Rất nhiều silicon đă AMD đầu tư vào scheduler vật lư. Và điều này tạo ra một con chip cực mạnh về GPGPU (http://genk.vn/c188n201201101216569 16/amd-radeon-hd-7970-tuong-moi-cua-quotqu226n-do224n-doquot-phan-cuoi.chn) như bạn từng thấy.
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2011/AMD-GCN-CU_277ab.jpg
Cấu tạo CU trong kiến trúc GCN của AMD.
Vậy là câu trả lời "ma thuật" đă rơ : NVIDIA cắt giảm một lượng lớn silicon dành cho scheduler vật lư và FP64 trên GK104 (cùng với một số thành phần liên quan khác). Kết quả là một con chip chỉ "tốn" 3,54 tỷ trans nhưng lượng SP lên đến 1536 !
Và ít hao điện hơn
Đặc tính này không chỉ do node 28nm (tất nhiên vẫn có). Nó có nguyên nhân "sâu xa" hơn ở yếu tố "xung shader". Như đề cập ở trên, từ GeForce 8000 cho đến GeForce 500, NVIDIA áp dụng mức xung shader cao hơn GPU rất nhiều. Một quy luật đơn giản: muốn đạt xung cao th́ điện áp đầu vào transistor phải lớn (và ngược lại). Các shader trước đây của NVIDIA đều có mức xung khi fullload trên 1 GHz, và cần rất nhiều điện. Đây cũng là nguyên nhân khiến cho card NVIDIA vẫn thường bị chê ở khoản hao điện (so với card AMD).
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/PowerClock_1e90a.jpg
Xung thấp hơn, ít tiêu thụ điện hơn.
Việc NVIDIA cho xung shader bằng với nhân GPU trên GK104 đă loại bỏ điều trên. Chi tiết này đồng thời cho phép nhân GPU đạt được xung cao hơn (do không bị hạn chế bởi xung shader). Nếu trước đây GTX 580 chỉ có thể ép xung (OC) lên 1,5 GHz th́ chỉ trong ngày ra mắt, GTX 680 đă có thể OC lên 1,9 GHz !
Dĩ nhiên, không có ǵ "miễn phí" mà không phải "đánh đổi". NVIDIA phải nhồi gấp 4 lần lượng SP so với GF104 để có được hiệu năng gấp đôi. Và NVIDIA phải cắt giảm lượng silicon cho scheduler vật lư. Chi tiết này khiến GK104 trở nên rất yếu kém trong GPGPU. Trong nhiều phép benchmark GPGPU, GTX 680 thậm chí kém cả GTX 580. Điều này đặt ra nghi hoặc cho giới HPC: con chip Kepler tiếp theo của NVIDIA sẽ như thế nào? NVIDIA hiện đang có một chỗ đứng lớn trong làng HPC. Các khách hàng của NVIDIA đang mong đợi Kepler đạt được hiệu năng (GPGPU) cao hơn Fermi. GK110 - con chip Kepler tiếp theo - sẽ là một chủ đề thú vị, song chúng ta sẽ không bàn ở đây.
Tŕnh điều khiển nhớ tốt hơn
NVIDIA có thể làm ra những GPU rất mạnh, nhưng họ vẫn thường theo sau AMD về các chip nhớ DRAM. Trong cộng đồng công nghệ, AMD thường được biết đến như hăng tiên phong về các chuẩn nhớ đồ hoạ mới. Không quá thậm xưng khi nói rằng GDDR5 do chính AMD làm ra. Khi NVIDIA vẫn loay hoay với GDDR3 th́ AMD đă có kinh nghiệm với GDDR4 & 5. Ngay cả khi tiến lên sử dụng GDDR5, tốc độ các chip DRAM mà NVIDIA khai thác được thường thấp hơn nhiều so với AMD. Một trong các lư do khiến hiệu năng GeForce sụt đi so với Radeon khi tiến lên độ phân giải cao cũng đến từ đây : hụt băng thông nhớ.
Nhưng đến với Kepler, NVIDIA đặt ra mục tiêu : cải thiện tŕnh điều khiển nhớ (IMC) trong lần đầu tiên và vượt qua đối thủ ở lần tiếp theo. Kết quả là một khối IMC khá lớn và hiệu quả cực kỳ ấn tượng : chỉ với giao tiếp 256-bit nhưng GK104 đạt được băng thông nhớ tương đương với GF100 vốn có giao tiếp nhớ 384-bit. Không chỉ thế, các kết quả OC mới nhất cho thấy IMC của GTX 680 cực kỳ mạnh mẽ : vượt trên 7 GHz !
Turbo, eh ... GPU Boost
Người dùng CPU Intel và AMD hẳn từng có nghe qua Turbo Boost / CORE (gọi tắt turbo). Tính năng OC tự động này sẽ giúp CPU của bạn đạt được mức xung cao hơn mặc định trong trường hợp ứng dụng không tận dụng hết hiệu quả đa luồng. Do không dùng "hết" hiệu quả này, có một phần TDP của chip không được khai thác mà cả AMD và Intel đều thấy "phí". NVIDIA cũng nhanh chóng bắt lấy ư tưởng này và họ sinh ra GPU Boost (bên GPU AMD cũng có tính năng tương tự là Power Tune, song Power Tune không "tự động" như turbo hay GPU Boost).
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/GPUBoost_ba99b.jpg
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/GeForceGTX680F_34420 .jpg
Với hàng tá kết quả benchmark từ nhiều site phần cứng trên thế giới, không có ǵ để nghi ngờ năng lực gaming dẫn đầu của GTX 680. Dĩ nhiên vẫn có một số trường hợp GTX 680 kém hơn HD 7970, song số lượng ấy không đáng kể. GTX 680 là trường hợp đặc biệt sau nhiều năm, các testlab hoàn toàn có đủ tự tin để nói rằng : "hăy mua nó nếu bạn muốn chiếc card đơn nhân mạnh nhất hiện nay (http://genk.vn/c188n201203211048308 70/preview-geforce-gtx-680-ng244i-vuong-do-hoa-moi-.chn)". Hai chi tiết thuyết phục khác : giá đề nghị của GTX 680 hiện thấp hơn 50 USD so với HD 7970 và chiếc GeForce dùng ít điện hơn đối thủ Radeon !
Nhưng làm sao một con chip đồ hoạ (GPU) với 3,54 tỷ transistor (GTX 680) lại có thể tốt hơn con chip 4,31 tỷ trans (HD 7970) ? Và làm sao con chip 3,54 tỷ trans này lại mạnh gấp 1,5 lần con chip 3 tỷ trans (GTX 580) cũng của chính NVIDIA ? Làm sao NVIDIA có thể "nhét" 1536 nhân đồ hoạ (SP / CUDA Core) vào 3,54 tỷ trans trong khi "chỉ được" 512 SP vào 3 tỷ trans ? Câu trả lời : Kiến trúc!
Điểm lại kiến trúc Ferm
Các fan của AMD và NVIDIA hẳn không lạ với cái tên Fermi. Đấy là kiến trúc đồ hoạ của ḍng card GeForce 400 & 500. Tuy vậy, kiến trúc Fermi thực ra có 2 phiên bản : Fermi GF100 (hoặc GF110) và Fermi GF104 (hoặc GF114). Khác biệt ? Ở Fermi GF100, một SM có 32 SP. Ở Fermi GF104, một SM có 48 SP. Điều này có nghĩa "mật độ" SP trên GF104 cao hơn so với GF100. Hay nói cách khác, một SM GF104 có thể xử lư được nhiều luồng dữ liệu hơn so với một SM GF100 tại cùng mức xung.
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/03/NVIDIA-GF104-die_9fbc5.jpg
Sơ đồ khối của GF114.
Nhưng bạn đặt câu hỏi : tại sao NVIDIA không thiết kế SM của GF100 cũng nhiều SP như của GF104 ? Khác nhau để làm ǵ ? Trả lời : v́ GF104 để nhắm vào game, c̣n GF100 nhắm vào GPGPU / HPC. GPGPU / HPC là các ứng dụng khai thác GPU để thực hiện tính toán thay cho CPU, ví dụ như các siêu máy tính (SC). Top 10 SC hiện nay (http://www.top500.org/lists/2011/11) có 3 hệ thống (thứ 2, thứ 4 và thứ 5) hiện đang dùng GPU của NVIDIA. Trong đó 2 hệ thống đứng thứ 2 và thứ 4 dùng chip GF100 (C2050). Danh sách các card Tesla (cho HPC) của NVIDIA hiện không có model nào dùng chip GF104.
Tuy vậy, GF104 lại là con chip khá mạnh phổ biến trong ḍng card GeForce (cho game) hiện tại của NVIDIA.
SP nhiều gấp 4, hiệu năng gấp đôi
Ở bài preview (http://genk.vn/c188n201203211048308 70/preview-geforce-gtx-680-ng244i-vuong-do-hoa-moi-.chn) trước, tôi có đề cập vấn đề số SP của GTX 680 (hay GK104) gấp 3 lần GTX 580 (GF110) hoặc 4 lần GTX 560 Ti (GF114) nhưng hiệu năng chỉ gấp 1,5 lần GTX 580 hoặc 2 lần GTX 560 Ti. V́ sao có điều "kỳ lạ" này ? Đấy là chưa tính xung nhịp của GTX 680 lên đến 1 GHz c̣n GTX 580 chỉ có 772 MHz và GTX 560 Ti là 822 MHz !
Vấn đề nằm ở chỗ : NVIDIA đă thực hiện một thay đổi có thể xem là đáng kể nhất từ GeForce 8000 : loại bỏ xung shader. Thực ra, không hẳn "bỏ", mà xung shader của GK104 lúc này bằng đúng xung GPU. Nếu bạn lật lại những thế hệ card GeForce (http://en.wikipedia.org/wiki/Nvidia_gpu) trước đây của NVIDIA, bạn sẽ thấy xung shader từ GeForce 8000 luôn cao hơn rất nhiều so với xung GPU. Đặc biệt với thế hệ Fermi, xung shader luôn gấp đôi xung GPU. Có nghĩa nếu GTX 580 có xung GPU 772 MHz th́ các shader của nó lại đang chạy ở mức 1.544 MHz ! Rất cao phải không nào?
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/GeForceGTX680SMDiagr amFINAL_419e9.jpg
Cấu tạo SMX của GK104.
Do vậy, mặc dù GK104 có đến 1536 SP, gấp 4 lần con số 384 SP của GF114, nhưng hiệu năng của nó chỉ gấp đôi con chip này (v́ xung shader GK104 bằng xung GPU, c̣n xung shader GF114 gấp đôi xung GPU). Và điều này cũng góp phần giải thích tại sao card NVIDIA vốn có ít SP hơn card AMD : v́ xung shader bên AMD cũng bằng xung GPU.
Đến đây, bạn đang tự hỏi : tại sao NVIDIA phải làm như thế ? Phải chăng NVIDIA đang "tiến lùi" ? "Nhồi" ít SP hơn th́ đỡ tốn silicon / transistor hơn chứ ? Và lời giải đáp có thể sẽ khiến bạn bất ngờ ...
Nhiều SP hơn nhưng die nhỏ hơn
Bạn đang đọc nhầm? Không! Bạn đọc đúng từng chữ đấy! GK104 có nhiều SP hơn nhưng die lại nhỏ hơn GF104 lẫn GF100. Dĩ nhiên không thể bỏ qua "công lao" của tiến tŕnh bán dẫn 28nm của TSMC so với tiến tŕnh 40nm: cùng lượng transistor một die 28nm chỉ bự bằng 1/2 die 40nm (28nm x 28nm = 40nm x 40nm / 2). Die GK104 có kích thước 294mm2 @ 28nm. Trong trường hợp được sản xuất trên tiến tŕnh 40nm, kích thước của nó có thể vào 600mm2 ! Cho bạn tiện tham khảo, die GF100 có kích thước 520mm2.
Nhưng ngay cả khi GK104 được sản xuất trên node 40nm, bạn vẫn khó ḷng h́nh dung được làm sao NVIDIA có thể "nhét" 1536 SP vào trong một diện tích vốn chỉ "vừa" với khoảng 600 SP ? "Ma thuật" ǵ ở đây?
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/29gtx68gpubig_c9f15. jpg
Die chip GK104 có kích thước 294mm2.
"Ma thuật" ở chỗ: có rất nhiều thứ trên tấm silicon không dùng để làm SP. Một trong các lư do chúng ta nhắc lại kiến trúc Fermi ở trên là : nó sinh ra cho GPGPU. Đối với GPGPU, một trong các thành phần quan trọng nhất là các bộ điều lịch (scheduler) và năng lực dấu phẩy động 64-bit (FP64). Vai tṛ của scheduler có thể so sánh với các quản lư viên (supervisor) trong một công ty, nhà máy: bạn có thể có nhiều nhân công (worker) nhưng thiếu các quản lư có tŕnh độ th́ hiệu suất sử dụng lao động sẽ không cao. C̣n FP64 có ư nghĩa trong việc tính toán chính xác (nghiên cứu khoa học, xây dựng mô h́nh ...), hầu hết game không cần năng lực này.
Trong GPGPU, rất dễ có sự xuất hiện bất ngờ các tiến tŕnh ngoại biên (thực chất GPGPU rất giống với các thuật toán trên CPU - general computing). Một số tiến tŕnh bị lệ thuộc toán tử vào các tiến tŕnh phái sinh khác. Điều này khiến cho tốc độ xử lư GPGPU nhanh hay chậm sẽ lệ thuộc scheduler. C̣n với gaming, hầu như các tiến tŕnh có thể dự đoán được v́ các studio làm game có quan hệ sâu sắc với NVIDIA lẫn AMD. Nhờ mối quan hệ này mà hiệu năng game thường được cải thiện dần sau mỗi lần phát hành driver (software) mới. Nhưng với GPGPU, chỉ có các scheduler vật lư (hardware) mới thực sự hiệu quả.
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/Scheduler_4b01d.jpg
Kepler dùng cơ chế điều lịch đơn giản hơn các thế hệ trước.
Bao nhiêu silicon được dành cho scheduler vật lư thực sự chúng ta không rơ. Song bạn có thể nh́n qua kiến trúc GCN (http://genk.vn/c188n201112310851896 6/amd-radeon-hd-7970-tuong-moi-cua-quotqu226n-do224n-doquot-phan-1.chn) của AMD làm ví dụ. Từ Cayman (HD 6970) chuyển lên Tahiti (HD 7970) là sự chênh lệch giữa 2,64 và 4,3 tỷ transistor (60%), nhưng chỉ là giữa 1536 và 2048 SP (33%). Rất nhiều silicon đă AMD đầu tư vào scheduler vật lư. Và điều này tạo ra một con chip cực mạnh về GPGPU (http://genk.vn/c188n201201101216569 16/amd-radeon-hd-7970-tuong-moi-cua-quotqu226n-do224n-doquot-phan-cuoi.chn) như bạn từng thấy.
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2011/AMD-GCN-CU_277ab.jpg
Cấu tạo CU trong kiến trúc GCN của AMD.
Vậy là câu trả lời "ma thuật" đă rơ : NVIDIA cắt giảm một lượng lớn silicon dành cho scheduler vật lư và FP64 trên GK104 (cùng với một số thành phần liên quan khác). Kết quả là một con chip chỉ "tốn" 3,54 tỷ trans nhưng lượng SP lên đến 1536 !
Và ít hao điện hơn
Đặc tính này không chỉ do node 28nm (tất nhiên vẫn có). Nó có nguyên nhân "sâu xa" hơn ở yếu tố "xung shader". Như đề cập ở trên, từ GeForce 8000 cho đến GeForce 500, NVIDIA áp dụng mức xung shader cao hơn GPU rất nhiều. Một quy luật đơn giản: muốn đạt xung cao th́ điện áp đầu vào transistor phải lớn (và ngược lại). Các shader trước đây của NVIDIA đều có mức xung khi fullload trên 1 GHz, và cần rất nhiều điện. Đây cũng là nguyên nhân khiến cho card NVIDIA vẫn thường bị chê ở khoản hao điện (so với card AMD).
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/PowerClock_1e90a.jpg
Xung thấp hơn, ít tiêu thụ điện hơn.
Việc NVIDIA cho xung shader bằng với nhân GPU trên GK104 đă loại bỏ điều trên. Chi tiết này đồng thời cho phép nhân GPU đạt được xung cao hơn (do không bị hạn chế bởi xung shader). Nếu trước đây GTX 580 chỉ có thể ép xung (OC) lên 1,5 GHz th́ chỉ trong ngày ra mắt, GTX 680 đă có thể OC lên 1,9 GHz !
Dĩ nhiên, không có ǵ "miễn phí" mà không phải "đánh đổi". NVIDIA phải nhồi gấp 4 lần lượng SP so với GF104 để có được hiệu năng gấp đôi. Và NVIDIA phải cắt giảm lượng silicon cho scheduler vật lư. Chi tiết này khiến GK104 trở nên rất yếu kém trong GPGPU. Trong nhiều phép benchmark GPGPU, GTX 680 thậm chí kém cả GTX 580. Điều này đặt ra nghi hoặc cho giới HPC: con chip Kepler tiếp theo của NVIDIA sẽ như thế nào? NVIDIA hiện đang có một chỗ đứng lớn trong làng HPC. Các khách hàng của NVIDIA đang mong đợi Kepler đạt được hiệu năng (GPGPU) cao hơn Fermi. GK110 - con chip Kepler tiếp theo - sẽ là một chủ đề thú vị, song chúng ta sẽ không bàn ở đây.
Tŕnh điều khiển nhớ tốt hơn
NVIDIA có thể làm ra những GPU rất mạnh, nhưng họ vẫn thường theo sau AMD về các chip nhớ DRAM. Trong cộng đồng công nghệ, AMD thường được biết đến như hăng tiên phong về các chuẩn nhớ đồ hoạ mới. Không quá thậm xưng khi nói rằng GDDR5 do chính AMD làm ra. Khi NVIDIA vẫn loay hoay với GDDR3 th́ AMD đă có kinh nghiệm với GDDR4 & 5. Ngay cả khi tiến lên sử dụng GDDR5, tốc độ các chip DRAM mà NVIDIA khai thác được thường thấp hơn nhiều so với AMD. Một trong các lư do khiến hiệu năng GeForce sụt đi so với Radeon khi tiến lên độ phân giải cao cũng đến từ đây : hụt băng thông nhớ.
Nhưng đến với Kepler, NVIDIA đặt ra mục tiêu : cải thiện tŕnh điều khiển nhớ (IMC) trong lần đầu tiên và vượt qua đối thủ ở lần tiếp theo. Kết quả là một khối IMC khá lớn và hiệu quả cực kỳ ấn tượng : chỉ với giao tiếp 256-bit nhưng GK104 đạt được băng thông nhớ tương đương với GF100 vốn có giao tiếp nhớ 384-bit. Không chỉ thế, các kết quả OC mới nhất cho thấy IMC của GTX 680 cực kỳ mạnh mẽ : vượt trên 7 GHz !
Turbo, eh ... GPU Boost
Người dùng CPU Intel và AMD hẳn từng có nghe qua Turbo Boost / CORE (gọi tắt turbo). Tính năng OC tự động này sẽ giúp CPU của bạn đạt được mức xung cao hơn mặc định trong trường hợp ứng dụng không tận dụng hết hiệu quả đa luồng. Do không dùng "hết" hiệu quả này, có một phần TDP của chip không được khai thác mà cả AMD và Intel đều thấy "phí". NVIDIA cũng nhanh chóng bắt lấy ư tưởng này và họ sinh ra GPU Boost (bên GPU AMD cũng có tính năng tương tự là Power Tune, song Power Tune không "tự động" như turbo hay GPU Boost).
http://genk2.vcmedia.vn/N0WoyYblO3QdmZFKPMtK nadHAHTevz/Image/2012/GTX680/GPUBoost_ba99b.jpg