CES 2013大展上,NVIDIA發布了全球首款四核A15架構移動處理器“Tegra 4”(代號Wayne),伴隨而來的是4G/LTE基帶“Icera i500”。 MWC 2013大會上,NVIDIA又帶來了整合基帶的“Tegra 4i”(代號Grey),同樣四核心,但架構上基於Cortex-A9,而所用基帶正是Icera i500。
AnandTech近日撰文,深度解析了Tegra 4、Icera i500、Tegra 4i的硬件架構設計,還有部分性能數據。感興趣的隨我來。
【Tegra 4:A15架構細節、功耗控制】
NVIDIA其實是ARM指令集架構的授權擁有者,但這一次,Tegra 4使用的還是處理器授權,而不是NVIDIA自己設計的定制核心(就像高通Krait、蘋果Swift那樣的),那要到“丹佛工程”上才能實現。
對於A15的架構情況,之前因為資料有限,我們了解得併不多,而得益於Tegra 4的白皮書等文檔,終於可以一窺A15內部世界了。更深入的解析會有機會單獨闡述,這裡只從較高層面上看看。
A15的架構要比A9寬得多、深得多,整數流水線也從9級增加到了15級,但是分支預測同樣改進顯著,但願能比彌補長流水線的缺憾。
A15的前端寬了50%,指令拾取帶寬翻番,有利於提升指令級並行(ILP),而為了充分利用三寬度發射,ARM大大增加了重排序緩衝(ROB)和所有相關數據結構的尺寸。 A9可以在重排序緩衝內保留大約32-40個已解碼指令,A15則能保留128個,僅此一點就足以反映兩種架構的巨大差異:A9是基於A8的自然演化,A15則是一次全新的飛躍式革命。
執行核心方面,A15的規模仍然更大,執行端口、執行單元都要比A9的多,均有助於提升ILP、單線程性能,還採用了多重、獨立的發射隊列的方式,以保持高頻率。每一個發射隊列都可以接受最多三條指令,所有的發射隊列都可以並行分發。
A15也可以執行亂序指令,但能力更強了。 A9上所有的浮點/NEON指令都必須順序執行,但在A15上可以亂序,但是它依然不能重排序所有內存操作:獨立載入可以亂序執行,但是存儲不能在載入之前完成。
A15還改用了集成式二級緩存結構,而不是A9上的獨立IP塊。 A15的一級、二級緩存延遲基本沒變,不過在一些情況下應該會比A9多上1-2個時鐘週期。二級緩存TLB和其它數據結構明顯增大,以滿足整個架構的需要。
緩存容量上,一級還是32KB指令、32KB數據,但是二級增至2MB,並為所有核心共享(Tegra 4的第五個節能核心還有自己的512KB二級緩存) ,任何核心只要允許都可以單獨占用全部2MB二級緩存。
A15是目前唯一可以在性能上超越當今流行A9核心的ARM架構,不過性能也不菲。根據三星最新公佈的數據,A15可以提供最多3倍於A9的性能,但核心面積要達到4倍,功耗則要付出6倍。面積還好說,功耗就是大麻煩了。
而為了讓大家對新架構的功耗放心,NVIDIA給出了這麼一張圖:
更多執行資源以提升ILP、更多的亂序利用、更好地內存子系統以提升內存級並行(MLP)、更智能的分支預測、平衡的移動應用功耗……這些都是說A15架構的功耗控制特性的,而下方兩行展示了Tegra 3、Tegra 4的功耗對比。
NVIDIA宣稱,SPECint2000測試(可充分壓榨CPU資源)中Tegra 4/3的單線程整數成績是相同的,但是Tegra 4的功耗要低40%,再用性能除以功耗,Tegra 4在能效方面要勝出75%。
不過這樣的對比並不太公平,因為此時Tegra 3的頻率是最高的1.6GHz,Tegra 4則只有825MHz,電壓和功耗自然都低得多。 Tegra 4如果全速運行,功耗自然要高得多,雖然性能也會上去,但恐怕能效方面不會太好看。
但這也可能成為Tegra 4用於移動設備時的一種政策:刻意限制頻率以控制功耗。而之所以選擇825MHz,因為它也是第五個節能專用核心的最高頻率,一般時候應該是700-800MHz。
順便說一句,Tegra 4裡的四個主力核心都使用相同的電壓和頻率層,只是每個核心都可以通過電源柵極單獨開關,這和Intel的設計方式差不多,但不如高通每個核心的電壓和頻率層都是單獨的。
說起頻率,Tegra 4四個主力核心最高都可達1.9GHz,而如果使用少量核心,可以加速到更高速度,具體如何還得看設備廠商的選擇。
【Tegra 4i:A9 r4p1架構最新版】
除了不同架構之間的進化,ARM每一個架構也都有不同的版本,比如說同樣是A9,Tegra 2使用的是r1p1,Tegra 3裡邊是r2p9,Tegra 4i又換成了最新的r4p1。
A9 r4p1架構的GHB、二級緩存TLB、BTAC都增大了三倍,趕上了A15的水平,分別有16K、512、4096,這可以改進分支預測精確度,進一步提升IPC。
數據預取引擎也增強了,包括一個小的一級緩存預取器、單獨的緩存預載指令硬件。
NVIDIA宣稱,A9 r4p1相比於r2p9可以在SPECint_base測試中獲得15%的成績提升,僅僅是架構微調就獲得如此好的整數性能改進著實驚人,當然真實情況如何還不太好說。不管怎樣,配合2.3GHz的最高頻率,Tegra 4i CPU性能會比Tegra 3好不少。
根據數據,Tegra 5裡每個CPU核心的面積為2.7平方毫米,稍大於高通Krait 800,Tegra 4i則僅為1.15平方毫米。單論最大性能,Tegra 4在三者之中最為突出(高通肯定不服),而在性能頻率比、性能面積比上,Tegra 4、Tegra 4i分別是最好的。
【堅守四核心】
Tegra 3是四核心(也可以說4+1),Tegra 4並未繼續擴充,NVIDIA移動事業部高級副總裁Phil Carmack也在去年初就坦率地告訴媒體,四核心將是未來NVIDIA SoC的一個標準。
其實,四核心對於處理器來說是個不錯的選擇:核心和線程數量夠多,足以應付多線程負載;每個核心可以單獨開關,或者部分休息部分加速,也能很好地執行單線程負載;應用方面已經綽綽有餘,核心再多純屬浪費;用戶和宣傳方面也足夠好看了,再多可能就讓人反感和質疑了。 28nm新工藝和A15新架構加持之下,NVIDIA停留在四核心上是非常明智的。
Tegra 3的核心面積大約80平方毫米,Tegra 4塞入了晶體管,但感謝新工藝,面積稍大了一些但仍在80平方毫米這個檔次上。
不過在台積電生產線上,28nm HPL工藝晶圓的成本顯然要大大高於40nm LPG,更何況還有良品率問題,所以Tegra 4的成本必然高出不少,後果就是設備價格不會多低。
說實話,Tegra 4並不完全是那種震驚業界、引領時尚的芯片(除了首款四核心A15的名號),但綜合來說卻是NVIDIA的最佳選擇,無論技術上還是商業上。
【Tegra 4/4i GPU架構】
這個話題之前曾經詳細探討過,這裡就不再過於深入了,重點看看NVIDIA放出的一些新資料。
Tegra 4 GPU仍然是固定、分離的像素和頂點著色器設計,也是惟一一個沒有採用統一著色器架構的現代移動GPU,看起來有些落伍,但仍然佔用了不小的核心面積(10.5平方毫米),還有新的二級紋理緩存,用於改進帶寬效率。
Tegra 4 GPU各方面都比上一代擴充了不少,總計擁有72個核心,包括48個像素核心、24個頂點核心。 Tegra 4i將頂點核心砍去一半,只留下12個,像素核心則保留48個,總計為60個,不過Vec4像素單元從四個較小的變成兩個較大的,每個負責領導24個核心。
Tegra 4 GPU最高頻率提升到了672MHz,上代為520MHz,Tegra 4i則是660MHz。
T4 GPU像素、頂點單元分佈
T4 GPU架構圖
T4 GPU架構圖
T4 GPU架構效率對比(官方數據僅供參考)
T4i GPU像素、頂點單元分佈
T4i GPU架構圖
T2/3/4架構圖
T4 VS. T3
T4i VS . T3
最大的遺憾當屬沒有完整支持OpenGL ES 3.0,只是部分支持,比如多重渲染目標等等。這主要是因為Tegra 4GPU的像素著色器硬件浮點精度仍然是FP24,OpenGL ES 3.0則需要像素和頂點著色器都支持FP32。此外也沒有ETC、FP紋理支持。
就目前而言,OpenGL ES 3.0支持與否並無太大實際意義,但不支持的話至少在規格上就輸了一籌,而且這是大勢所趨,一兩年後等遊戲大量使用它了Tegra 4就會很吃虧。
我們相信,NVIDIA完全有能力做一個支持OpenGL ES 3.0的GPU,但之所以選擇不去支持,應該是出於核心面積控制方面的考慮。
【內存子系統】
Tegra前三代的內存帶寬都小得尷尬,沒法和蘋果、三星、高通的比,人家都是雙通道了。現在,Tegra 4配備了兩個32-bit LPDDR3內存控制器,頻率也提高到了1866MHz(未來還會提升),終於有了充足的帶寬。
Tegra 4並未採用PoP一體封裝,因此需要單獨的外置DRAM內存顆粒,這顯然會限制Tegra 4 PCB的佈局,使之在小型設備裡會有些局促。
不幸的是,Tegra 4i又成了單通道內存,但幸運的是會支持PoP和獨立封裝兩種規格,其中前者頻率最高1600MHz,後者最高1866+MHz。
【Tegra 4性能究竟如何? 】
因為沒有設備,這個誰也不好說,只能參考NVIDIA官方數據。以下來自一款1.9GHz Tegra 4參考平板。
CPU性能明顯高於其它已知的任何ARM、Atom x86設備,GPU性能則宣稱可與iPad 4媲美。
文章來自網絡,若有版權問題請聯繫站長刪除,更多遊戲攻略,請關注台灣遊戲網