2023-06-16
AI晶片三強激鬥!AMD推出AI加速器、Intel轉向純GPU架構,劍指NVIDIA龍頭地位?
生成式AI的發展百花齊放,各式各樣的AI工具如雨後春筍般湧現,但用於AI運算的晶片,逾80%市佔率卻牢牢握在輝達(NVIDIA)一家公司手上。為求打破一家獨大的局面,超微(AMD)本月發布MI 300系列AI加速器,秀出超強勁硬件規格,惟公司股價不升反跌,而NVIDIA股價卻創歷史新高,形成此消彼長之勢。儘管AMD陣前失利,但外界仍看好其AI晶片前途,箇中原因為何?昔日半導體龍頭Intel亦已積極對AI晶片展開部署,究竟它是否有實力與AMD、NVIDIA一爭天下呢?
AMD MI 300X支援龐大記憶體
2023年6月13日,「AMD資料中心與人工智能技術發表會」在美國三藩市正式舉行,執行長蘇姿丰現場發表旗下首款數據中心級AI加速器——Instinct MI 300系列產品線的最新細節。所謂「加速器」(Accelerated Processing Unit),意指將中央處理器(CPU)和圖像處理器(GPU)整合在一起的高階晶片。
在AMD發表會上,蘇姿丰指出,高階型號加速器MI300X所支援的記憶體容量,比NVIDIA任何AI晶片都要多。(圖片來源:翻攝AMD官方YouTube影片)
每顆Instinct MI 300X封裝了1,530億個電晶體,並由12顆5奈米核心製程的小型晶片所組成。它採用新一代AMD CDNA 3加速器架構,支援192GB的HBM3記憶體,能夠為大型語言模型邏輯推論(Inference)與生成式AI工作負載,提供足夠的運算力和記憶體效率。
蘇姿丰表示,AMD會推出一款內建8顆MI300X的超級電腦,足以跟NVIDIA同類產品一較高下。(圖片來源:AMD官網)
相比起對手產品,AMD MI 300X的HBM(High Bandwidth Memory)暫存記憶體是NVIDIA H100的2.4倍,HBM傳輸頻寬則是H100的1.6倍,故此MI 300X可執行比H100更大的語言模型;只需使用一個MI300X加速器,便可以處理400億個參數的模型運算。
MI 300X能夠支援更龐大的記憶體容量,讓中小型公司訓練AI模型時,可以一口氣地執行完畢,無需分多次完成。倘若改用NVIDIA H100的話,數據訓練必需在某個斷點切割,再分階段推進,所需的時間和成本將會更多。
蘇姿丰表示,未來5年內,大家將會在AMD每項產品中看到AI,它將成為公司最大的增長動力。(圖片來源:翻攝AMD官方YouTube影片)
沒透露新晶片有哪些客戶願採購
蘇姿丰強調,暫存記憶體容量愈大,晶片能應付的模型規模便愈大,更強調記憶體多寡是衡量AI晶片效能的重要指標。縱然NVIDIA H100的運算力依然在AMD MI 300X之上,但整體購買成本卻是後者佔優,對資金有限的初創企業來說,可能更具吸引力。由此可見,H100與MI 300X與存在著明顯的市場區隔,但這樣的產品差異性能否討得投資者歡心,仍有待觀望。
然而,最令投資者失望的是,AMD沒透露有哪些客戶計劃購入MI 300系列產品。以往,AMD發表新一代晶片時,經常會提及重要的客戶有哪些,惟今次不但未有說明哪家公司決定採用MI 300,甚至連其定價、以對公司營收的貢獻度也隻字不提。後來消息傳出,亞馬遜旗下雲端運算供應商Amazon Web Services(AWS)正考慮採購MI 300X,惟至今仍未做出決定。
今次發布會上,Facebook母公司Meta也有幫忙站台,並宣布將會採購AMD晶片,但購入的並非MI 300X,而是代號為「Bergamo」的第四代EPYC伺服器級CPU。市調機構TIRIAS Research首席分析師凱文·克魯威爾(Kevin Krewell)指出,沒有大客戶表態採用MI300,可能會讓華爾街失望,因為他們希望在某些AI系統的設計中,已有AMD產品取代 NVIDIA晶片。
AMD ROCm挑戰NVIDIA CUDA
除新一代晶片外,AMD也發布了最新版本的開發工具軟件《ROCm》(Radeon Open Compute platforM)。AMD更新《ROCm》,正是要與NVIDIA的《CUDA》一較高下;《CUDA》就像Apple的《iOS》作業系統,已形成一個龐大的軟件生態圈,成為輝達AI晶片的護城河。
《ROCm》與《CUDA》的最大差別在於開放性,前者能夠在各種不同的硬件平台上運行,兼且程式碼完全免費開放;後者則是只限在NVIDIA晶片上執行。Meta副總裁欽塔拉(Soumith Chintala)在AMD發表會上表示,已跟AMD緊密合作,開發更容易使用的免費工具軟件,幫助AI開發人員擺脫「某家獨大供應商」的晶片,轉用其他公司產品,例如AMD的晶片。
曾協助開發AI開源軟件《PyTorch》的Meta副總裁Chintala表明,已跟AMD合作,幫助AI開發者從「某家獨大供應商」的晶片轉換到其他公司產品。外界相信,他所指的「獨大供應商」正是NVIDIA。(圖片來源:翻攝AMD官方YouTube影片)
有分析指出,像Meta般擁有優良技術的大企業,當然可以從AMD晶片中獲得良好的運算效能,但卻難以保證其他技術沒這麼好的小公司也有能力這樣做。科技分析及顧問公司Moor Insights & Strategy分析師塞格(Anshel Sag)直言,即使AMD在硬件表現上具備競爭力,惟人們卻不相信其軟件方案能夠媲美NVIDIA。
超微收購賽靈思強化AI研發實力
其實,市場一直有討論AMD與NVIDIA之間AI技術發展的差距。有業者指出,考慮到市場接受程度與平台發展成熟度,AMD可能還要再隔一世代,才有望追上NVIDIA的技術水平。但也有不少人認為,AMD既深耕AI領域已久,又願意砸大錢投資研發,故此仍有機會從後追上。
AMD對AI領域的最重要投資,是2022年以500億美元(約3,900億港元)收購晶片設計商賽靈思(Xilinx)。賽靈思發明的可編程邏輯晶片(Field Programmable Gate Array,FPGA),適用於AI運算,尤其是邏輯推論表現更優於其他晶片類型;而且賽靈思的研發人員也被AMD收麾下,成為公司AI團隊的核心。2023年5月,AMD更將內部多個AI團隊重組合併,由賽靈思前執行長Victor Peng領導新團隊,對AI軟硬件各方面進行研究。
AMD併購賽靈思後,取得FPGA晶片的技術專利,有助強化本身的AI晶片技術。(圖片來源:AMD官網)
賽靈思併入AMD後,前執行長Victor Peng獲委任為AMD總裁,負責制定AI策略和發展路線圖。(圖片來源:翻攝AMD官方YouTube影片)
當AMD與NVIDIA在AI領域鬥得如火如荼之際,昔日半導體霸主英特爾(Intel)亦蓄勢待發,意圖加入戰局。2023年1月,針對AI運算的第四代伺服器級CPU「Xeon」正式面世。它不但具備強大的推論能力,更首度加入AI模型訓練功能,適用於針對特定場景、數據量不大的模型進行訓練,例如客戶關係管理系統的運行,可能僅需一天的訓練時間。
Intel Server GPU多番推遲上市
2023年5月,Intel發表下一代伺服器級圖像處理器(Server GPU)「Falcon Shores」,支援288GB的HBM3記憶體與8位元浮點運算,以AMD MI300、NVIDIA Grace Hopper為假想敵。同時,英特爾亦宣布,由「Ponte Vecchio」所組建的Aurora超級電腦,即將交付給美國阿貢國家實驗室(Argonne National Laboratory);這顆GPU早於2021年發表,但推出日期卻被多番推遲,官方宣稱其性能比NVIDIA H100更為優勝。
Intel最初將Falcon Shores定位為「XPU」,採用「CPU + GPU」架構,但後來卻忽然宣布,將Falcon Shores定位調整為GPU,讓產業分析師感到震驚。Intel強調,並未放棄XPU項目,只是將計劃向後順延。(圖片來源: Intel官網)
事實上,目前市場上最熱賣的AI晶片正是NVIDIA H100,有伺服器製造商表示,要等超過6個月才能拿到這款晶片。AMD MI 300則已開始向客戶送樣,預計2023年第四季正式出貨,應可滿足部分市場需求。至於Intel Ponte Vecchio,之前一直未能量產上市,以致在Server GPU領域的市佔率微乎其微。
NVIDIA H100與A100被市場視為發展AI技術的最重要資產,全球各科技大廠均爭相搶購,致使產品嚴重缺貨;科技狂人馬斯克甚至用「比毒品還難取得」來形容的市況。(圖片來源:NVIDIA官網)
不過Intel預期,接續Ponte Vecchio推出的Falcon Shores,有望打開AI晶片市場。相比之下,AMD MI300與NVIDIA Grace Hopper均是「CPU + GPU」架構的超級晶片,而Falcon Shores原本亦是採用類似架構,但早前Intel卻突然宣布改弦易轍,轉向純GPU設計,並延遲到2025年上市。
AMD與NVIDIA各有市場區隔
估計在2025年前,無論是AMD MI300、抑或NVIDIA H100與Grace Hopper,後繼產品都已推出市場,讓Falcon Shores還沒上陣就變成落伍產品了。電腦資訊網站Tom's Hardware副總編輯 Paul Alcorn認為,這樣可能讓Falcon Shores難以跟MI300 與Grace Hopper競爭;加上Intel因此而錯過了一個重要的架構轉折點,更使其AI晶片長期陷於競爭劣勢。
一直到2025年的Falcon Shores上市前,Ponte Vechhio將會是Intel在高效能運算市場的主力GPU產品。(圖片來源: Intel官網)
國際市調機構Jon Peddie Research發表的2023年第一季GPU市場調查顯示,NVIDIA以83.7%市佔率雄霸市場,AMD則為12%,而Intel僅佔少得可憐的4%。由是觀之,英特爾在未來幾年都難以打破此市場格局。
根據瑞銀(UBS)預測,在生成式AI帶動下,1至2年內GPU市場規模將增加到100億至150億美元(約780至1,170億港元)。市調機構Bernstein分析師斯泰西·拉斯根(Stacy Rasgon)認為,目前投資者關注AMD,只是想要平價版的NVIDIA晶片,或許AI晶片市場大到AMD根本不需要有競爭力。
換句話說,未來AI晶片市場將會形成兩個區隔:財雄勢大的大企業以高價搶購NVIDIA晶片,本錢不足的小公司或開發者則會採購成本較低的AMD晶片。至於Intel,在未來AI晶片市場上能否有立足之地,就難以預料了。
延伸閱讀:
AI競賽隱形贏家!NVIDIA技壓Google、Intel、AMD,穩坐AI晶片龍頭,致勝關鍵全靠軟件!
【半導體版圖大洗牌】Intel霸權衰落,AMD、Apple背靠台積電強勢崛起!
【與拍賣官看藝術】東南亞藝術市場是下一個熱點?一探各地獨特及吸引之處!► 即睇