|
||||
在移動處理器領域,AMD一直在主動發力。尤其在2010年,AMD推出的第三代移動平臺(代號Danube的主流平臺和代號Nile的超輕薄平臺)憑借CPU+GPU+芯片組全平臺協同作戰的威力,取得了相當不錯的成績。這也堅定了AMD尋求在移動筆記本市場領域尋求突破,進而逐步建立非對稱優勢的決心。
Fusion APU的由來
你或許知道雙核、四核甚至多核CPU,那你是否了解APU?APU的英文全稱為『Accelerated Processing Unit』,意思是加速處理器。這是AMD給Fusion APU取的一個新名字,代表著它將CPU和GPU合二為一,可同時執行串行計算和並行計算,為大量應用提供加速。
AMD終於推出了Fusion APU
APU並不是最近纔有的概念。其實早在AMD收購ATI後不久,就大膽地提出了『Fusion』的計劃,試圖把CPU和GPU整合在一起。到2011年初,AMD的APU終於在CES 2011上正式登場亮相。
Fusion APU技術亮點
讓GPU與CPU溝通不再有『代溝』
雖然英特爾率先推出了整合顯卡的Core i5/i3處理器,不過,正如最初的Pentium D雙核處理器一樣,英特爾這種"CPU+GPU"的設計具有兩個獨立的芯片,僅僅是兩個功能模塊的簡單疊加,屬於一種過渡方案,並非原生的單芯片解決方案。而AMD的APU則是采用更先進的原生方案——將CPU和GPU內核完全融為一體的單芯片方案,這樣讓內核之間的數據交換效率更高。
Fusion APU主要由x86架構的CPU核心(最先上市的Ontario和Zacate APU處理器將基於『Bobcat』架構)、DirectX 11 SIMD引擎陣列、UVD高清視頻引擎、數據總線和DDR3內存控制器等幾個模塊封裝在一個核心內構成。CPU和GPU各司其職,各自分別擁有獨立緩存。CPU和GPU通過切換開關互相連接,而整個APU內部的各個組件之間通過HyperTransport總線連接成一個整體。CPU和GPU可以直接訪問存儲器,CPU和內存之間,以及GPU和內存之間均使用交叉開關進行連接,並且CPU和GPU可通過共享內存進行數據交換。APU這一設計的最大優勢是可以消除現有AMD平臺上各部分之間的互連瓶頸。在目前的AMD整合平臺上,原本位於北橋芯片的總線控制器和內存控制器都已經集成到CPU內部,但是內存控制器與內存之間的帶寬僅有17GB/s左右,北橋與集成顯卡之間的帶寬更是僅僅只有7GB/s左右,這已成為瓶頸所在。更為嚴重的是,集成顯卡與內存通信時還需要繞道北橋部分,增加了通信延時。AMD APU在將所有這些功能模塊全部整合到一塊晶片後,將可以提昇各組件之間的帶寬。APU內部的GPU圖形陣列、UVD解碼引擎與北橋模塊及內存控制器之間的通道高達27GB/s,內存控制器和內存之間的帶寬也同樣達到了27GB/s。另外,GPU與內存之間也可以直接通信,帶寬增加了三倍,大大提高了GPU的執行效率。
更強的整數運算性能
盡管Fusion APU是一個全新的CPU和GPU的融合方案,GPU部分將采用與目前AMD Radeon HD 6300M/6250M相同級別的圖形核心,除了支持DirectX 11外,還能通過OpenCL支持GPU加速運算。Fusion APU內核架構最大的亮點是引入了全新的『Bobcat』架構。
Bobcat是AMD全新架構的新一代處理器核心,與Bulldozer一樣,Bobcat也將整數運算執行單元和浮點單元分別獨立開來,只不過Bobcat內核的整數運算『簇』比Bulldozer更少。那麼,什麼是整數運算『簇』呢?在這裡有必要解釋一個Bulldozer架構中所采用的新內核設計理念。
Bulldozer的內核引入了靈活的模塊化設計:在現有的設計中,每個物理核心對應單一獨佔的整數運算單元和128bit浮點運算單元。而在Bulldozer架構中,每個物理核心具有兩個整數運算單元和一個共享的256bit的浮點運算單元。同時,這個256bit的浮點運算單元可以根據需要拆分為2個128bit的浮點運算單元,供兩個整數運算單元搭配使用;或是以1個256bit浮點運算單元的模式供某個整數單元獨佔。這樣一個單獨的單元被AMD稱為『核心模塊』,這也就是Bulldozer所謂『1.5核』說法的由來。
而當多個Bulldozer處理器並聯時(這在服務器領域幾乎是必然的),兩個『核心模塊』組成的『簇』便成為了AMD集群多線程技術中的基本單位。而Bobcat處理核心中的『核心模塊』則只包含了一個整數單元和一個浮點,並不支持集群多線程技術,故每兩個核心模塊纔只擁有一個『簇』單元。簡單來說,『簇』在這裡被定義為整數計算能力,每兩個整數單元等同於一個『簇』。
AMD為什麼要在核心設計中單獨增加整數單元的數目?這與AMD的異構計算策略不無關系。簡單來說,現有的GPU具有遠遠強於CPU的浮點計算能力。在AMD提出的GPU與CPU協同計算的平臺戰略下,與其事倍功半地提昇CPU的浮點計算能力,不如將浮點計算交與GPU完成。在這種情況下,整數計算能力將成為制約整個平臺性能的瓶頸,那麼,有意識地提昇APU的整數計算能力無疑就是一種必然的選擇。
上圖左為Bobcat的一個『簇』,它的整數單元(INT)只相當於Bulldozer(上圖右)的半個『簇』。
AMD的Bulldozer和Bobcat架構通過將兩個線程的整數運算獨立開來,從而達到了大幅度提昇基本應用的性能。需要說明的,盡管在架構上有所縮減,Bobcat架構依然保留了Bulldozer架構的基本規格,比如每個核心配備64KB一級緩存(32KB指令緩存+32KB數據緩存)和512KB二級緩存,並完整支持ISA、SSE1/2/3、SSSE3指令集和虛擬化技術。
支持完整亂序執行指令架構
亂序執行指令架構設計理念並不是一種新的技術,這一設計的目的是借助於處理器亂序執行指令的方式來提高性能。在這種結構下,CPU可以更靈活地安排指令,不必因為等待讀取內存信息或是特定的執行資源而浪費時間。這種結構有利有弊,好處是處理器的性能得到提昇,而代價則是功耗的增加和核心尺寸的增加。因此,為了控制功耗及核心尺寸以滿足成本需求,英特爾在針對上網本市場推出的凌動處理器上又回歸到以前的順序執行指令方式,這也是凌動能夠實現超低能耗的秘訣。之前威盛在C3系列到C7系列處理器中也使用類似技術。但這種設計讓程序指令只能嚴格按照既有順序運行,無法充分發揮硬件資源的效率,從而導致性能低下——凌動處理器的性能差強人意。這就給AMD有了可乘之機!
AMD的APU仍將采用完整亂序執行指令架構,集成了兩個解碼器,同時只能解碼兩條指令。雖然這比同一時鍾周期K8/K10的3指令執行能力以及Bulldozer的4指令執行能力精簡不少,但與采用順序執行設計的凌動相比,Bobcat仍然可以在指令效能方面佔據不少優勢。
全新C6節能更省電
從技術本身來說,APU是AMD的一次技術革新——通過整合的單芯片,能夠完成以往GPU和CPU雙芯片纔能完成的功效外,單芯片設計還將大幅度降低筆記本電腦的內部設計難度,而且能實現更小的能耗和更長的電池續航時間。另一方面,APU還導入了新的C6待機模式。
Bobcat的架構
處理器的運行模式都被統稱為C-states,C0代表處理器正常的運行模式,此時處理器的運行效能是100%。在C0以上的各種模式均屬於節電模式,節能模式級別越高,處理器的電路和信號被關掉的部分也就越多。例如,C1狀態的耗電量肯定會高於C2狀態,當處理器被喚醒時,它也就又回到了C0模式。在AMD的C6模式中,處理器幾乎完全關閉,二級緩存也被清空並關閉,處理器中只有一小部分緩存保持工作以供隨時喚醒。當處理器從C6模式被喚醒的時候,所有的內部單元會從這個靜態存儲單元內讀取配置信息。因此當處理器被喚醒時,它以前所作的工作都不會丟失。在C6模式下,Bobcat內核可以在不足1W的功率下維持工作,此時卻可以提供正常工作時90%的性能,采用雙核設計的Ontario APU的TDP更是只有9W之低。
AMD在移動市場的野心
AMD的Fusion APU處理器將是一個龐大的家族,在桌面和移動平臺都將會推出相應的型號,就目前的競爭態勢來看,移動平臺顯然是重中之重。針對移動平臺,AMD進行了非常細致的規劃,APU包含兩大平臺和三條產品線:定位主流市場的『Sabine』平臺將采用『Llano』APU,定位超輕薄、入門級主流市場領域的『Brazos』平臺則將搭配『Ontario』或者『Zacate』這兩款APU。
『Sabine』平臺主要針對高端和主流筆記本,Llano APU將基於目前的Phenom Ⅱ處理器架構,采用雙核或是四核設計。其所采用的DirectX 11圖形核心將擁有240個流處理器,並采用新的32nm工藝制造,功耗控制在35W。
『Brazos』平臺則是針對輕薄型筆記本、入門級主流筆記本、一體機(配Zacate APU)以及高清小本(配Ontario APU)市場。其中采用臺積電40nm工藝代工的Zacate APU具有E-240和E-350兩個型號,分別為單核1.5GHz和雙核1.6GHz的規格,圖形核心為AMD Radeon HD 6310,具備80個流處理器和500MHz核心頻率,能夠為用戶提供主流高清娛樂體驗,有AMD VISION的標識。而Ontario APU則擁有C-30和C-50兩個型號,規格相比要更低一些,但設計功耗僅有9W,提供高清互聯網瀏覽體驗,並搭配新的HD Internet標識。
APU型號 |
處理器 核心數 |
處理器 工作頻率 |
GPU型號 |
流處理 器數量 |
GPU 核心頻率 |
TDP |
AMD E-350(Zacate) |
2 |
1.6GHz |
Radeon |
80 |
500MHz |
18W |
AMD E-240(Zacate) |
1 |
1.5GHz |
Radeon |
80 |
500MHz |
18W |
AMD C-50(Ontario) |
2 |
1.0GHz |
Radeon |
80 |
280MHz |
9W |
AMD C-30(Ontario) |
1 |
1.2GHz |
Radeon |
80 |
280MHz |
9W |
由於APU采用全新的內核架構設計,因此AMD專為它們推出了配套的Hudson芯片組。它采用單芯片設計,被稱為『Fusion Controller Hub』(Fusion控制器中心),簡稱FCH。針對移動平臺的Hudson芯片組將分為三種不同版本:Hudson-M1、Hudson-M2、Hudson-M3,其中第一款對應Brazos平臺(Zacate/Ontario APU),後兩款則針對Sabine平臺(Llano APU)。
Fusion APU能否在移動市場掀起波瀾
Fusion APU是一款真正將CPU和GPU融合在一起的產品,它的誕生將統治軟件業界的x86 CPU與針對現代負載進行優化的GPU緊密融合在一起,並將兩者各自的優勢發揚光大。尤其對於移動平臺來說,APU的利好是顯而易見的,高集成化可大幅度降低筆記本內部設計的難度,並可有效提昇其散熱效率,降低整機的功耗,提昇續航時間。所以APU的出現將會帶出一種全新的筆記本內部架構,影響深遠,符合更低消耗、更低成本的效果,符合節約、低碳、環保的時代主題。尤其在AMD將其定義為『APU價值和精華』的超輕薄筆記本電腦市場上,APU的問世絕對是AMD的一枚重磅炸彈。最低低於1W的功耗設計,以及不到現今產品一半的核心面積實現90%的性能水平。AMD完全有機會在超輕薄市場逐步建立起自己的非對稱優勢,並最終在其他市場上對英特爾形成挑戰。