雲端伺服器產業鏈趨勢與未來展望

國泰第三季論壇
雲端伺服器產業鏈趨勢與未來展望
Call Memo
20230907

伺服器架構演進
每十年會有一次革命性的演進,十年前雲端伺服器興起,現在來到AI Server的興起
第一階段:大型計算主機,player以IBM為主
第二階段:微型電腦,player包括IBM、SunMicro、Digital、王安,從晶片到作業系統到整機都自行開發
第三階段:Intel、MSFT、Apple、DELL、HP興起後才開始PC時代,解構IBM獨大時代,台灣ODM也才開始切入供應鏈
第四階段:企業端一直由DELL、HP、IBM三大獨攬,直到三大CSP業者(Azure、AWS、GCP)開啟了企業用雲以及ODM Direct的時代
何謂雲端? 業者不再自行建置自有的伺服器,而是向公有雲租用VM或上面的infrastructure,抑或僅使用佈建在上面的雲端軟體
三大CSP業者原先也是向server廠買伺服器,但由於server廠會綁特定SPEC (e.g., firmware)不願意為CSP業者客製化,所以CSP業者選擇自己開始做伺服器,開啟ODM Direct時代
2016年ODM DIRECT量體已經超越各sever廠的總和

供應鏈轉型
台廠供應鏈轉型:OEM to ODM to ODM Direct
台廠從OEM開始,原先design part占比很小,而且也僅限PCB的生產(整機組裝還是在原廠),到後來台廠配置相關工程人力後才開始逐漸交由台廠(e.g., 英業達、廣達…等)
後來鴻海進入,鴻海CMMS(Component Module & Service)模式涵蓋全球運籌與品質掛帥
隨著ODM廠對於生產話語權持續提升,原廠才又將部分關鍵零組件收回管理,這也壓縮了台廠的獲利能力
在ODM Direct模式下各原廠還是有所差異
GCP:僅仰賴台廠的製造能力與產能,後端整機組裝&交貨還是由自己來
AWS & Azure:整機組裝&交貨比較會交由台廠(e.g., 廣達、鴻佰…等)
HP & DELL競爭時代,將PC/ NB的生產模式帶入伺服器供應鏈中
在ODM Direct初期,台灣ODM廠原先直接面對到CSP業者還能取得不錯毛利,但後來隨原HP/ DELL人力資源開始流到CSP業者,所以也開始習慣壓縮台灣ODM廠獲利

AI產業雲與端
AI並不是插了許多GPU就能跑,背後仍有許多軟體的整合,又回到過去大型計算機的時代
SMCI &技嘉推出的比較像是AI Box,企業端採用的相對有限,比較多是研究機構採用
端側應用:包括TESLA自駕系統、工業智能檢測,都會是未來AI端側很大的應用領域

AI Server架構為何複雜程度遠超過去?
硬體之上還有軟體、軟硬體合OS系統整合,意即複雜硬體結構、中間層CSP提供的ML/AI service,才到最終端的SW應用層
CUDA:GPU平行串連後,架構之上的ML、Deep Learning…等AI應用才能運行順利,CUDA為NVDIA可以維持現階段技術壁壘的關鍵
ML、Deep Learning…等AI應用仍然還是CSP業者提供,才會再到應用層的軟體應用(例如語言辨識能力極強的ChatGPT),未來仍會有許多應用服務更新(醫療、工廠、金融)
NVDIA掌握中間層以下(硬體&中間層),在早期即透過與學術機構建立深厚關係,這些機構與專家學者都很習慣應用他們的AI系統,因此後續開發的終端應用軟體也都是在NVDIA所提供的架構之上
AMD發展MI300,不會追不上,但NVDIA應該可以享受3-5年的領先壁壘(就如同當初IBM受到INTEL/ DELL/ HP的挑戰)
在CUDA之上建立好的軟體系統,要搬到新的(e.g., AMD)之上,會是大工程;但不會是不可能,三大CSP業者都有在嘗試,以個別企業角度而言資源可能沒有那麼充足
目前台灣掌握的都還是硬體以及(可能發展的)終端應用軟體,中間層幾乎都是美國原廠把持

現階段AI雲端服務平台包括:三大CSP、Meta、Oracle、IBM,目前都還在爭取市占
現有雲端服務平台目前還是主要與NVDIA合作
在未來NVDIA自己也有想要做雲服務,同樣地雲端服務平台業者在Intel、AMD GPU跟不上NVDIA後也可能開發自己的ASIC來制衡NVDIA

AI伺服器架構
x86 CPU : AMD or Intel,但也有業者逐漸想發展ARM架構CPU;AMD預計今年年底/明年量產的mi300仍然遇到一些瓶頸,也是Lisa Su來台灣最主要的原因
GPU: NVDIA or AMD,Intel原先要推的GPU又再度地延到2025年
Google不採用NVDIA的GPU,而是採用自己開發的TPU,也是最早導入水冷散熱的系統(量產階段)
傳輸介面:目前在PCIE 4.0 到 5.0之間
BMC: 信驊
CSP業者開發的自製晶片主要是for特定服務然後整合NVDIA的cuda之上
NVDIA獨規規範NVlink:不走標準介面PCIE,標準介面的傳輸速度跟不上nvlink
目前CPU旁邊接的快取記憶體,未來快取記憶體可能會像現在的Storage,可以成為一個pool跨CPU/ GPU access

AI伺服器集成
包括廣達雲達、緯創緯穎、英業達、鴻佰、聯想、技嘉、超微
廣達:自深耕NB再到SERVER起,engineering的能力是最強的(工程師人力資源也最充足),仍然在努力走出純odm/oem,也是最早切入odm direct的廠商;最大的轉機也是最大危機在於他想走出自己的solutions和渠道,這將分散內部資源的使用
緯創/緯穎:算是第三波才切入ODM Direct,一開始HP/ DELL的訂單大不如鴻海/英業達,後續才因為深耕FB建立起深厚關係
英業達:最早切入HP的台灣ODM廠,一開始最大領先;但也因為如此沒有選擇進入MSFT Azure供應鏈(HP/DELL表示反對)
鴻海/鴻佰:受惠鴻海集團整合能力,成本有相對競爭力,即便沒有接到第一單,後續也可以受惠成本能力再次切入second source
聯想:本身是陸資很難進入美系市場,但又是MSFT license的大客戶,所以MSFT還是會下單給他
SMCI:走channel為主,主要走小型的學術機構(量太小,很難對ODM Direct下單);講者認為SMCI比技嘉更有機會走出自己的solutions
技嘉: 也想走出自己的Cloud solutions;原先走電競筆電,因此與NVDIA長期關係非常好,在公板設計給予很多協助;

AI伺服器元件
NVDIA 主機板GPU OAM模組:鴻佰代工生產
GPU dashboard: 緯創,包括NVDIA and AMD
主機板集成:廣達、緯穎、英業達
電源供應:12v to 48v to 54v,還是以台達&光寶為主
其他:機殼、滑軌…等,講者強調AI server佔整體server比重還是很少

散熱系統
現在剛量產的AI server都尚未導入水冷,水冷何時能夠導入仍存疑
目前只有看到Google TPU有用Cold plate(cooler master出貨),目前最終DC降溫還是以air cooling為主熱水還是用冷背板+風扇冷卻,因為目前還是沒有辦法把冰水/室溫水到機櫃裏頭;目前都沒有看到真正水冷
Liquid to Liquid(冷水對熱水的交換):會是最有效的散熱方式,也是目前看到最有可能成形的方案;但整座原先建置DC的水電配線都要重新配置,所以尚未成形;新建置的DC可能可以預留管線
浸漠式水冷(server板or GPU板插入不導電液體),還是要demo系統在自己測試,安裝會是大工程(後續維護也是),在液體裏頭的電子訊號傳遞又有很大的技術;整體散熱效率&成本又沒有比liquid to liquid好很多,可能用在比較niche的產業,例如通訊、軍工

台達電:目前整體還是最完整的,但散落在不同事業體中;整體品質最高,遭遇殺價競爭可能性最小
奇鋐:鐵工廠出身才慢慢往風扇發展;很願意在客人那邊蹲點,CSP業者可以跳過ODM廠直接找奇鋐很適合csp業者客製化需求
雙鴻:在consumer相對領先,因此整體成本有相對領先,目前學習緯穎模式深耕meta
Cooler master:在consumer相對領先,遊戲機產品做很多因此跟NVDIA關係良好

僅供本公司內部同仁參考使用,非經本公司事先書面同意,不得轉發或轉載第三人

發表留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

在WordPress.com寫網誌.

向上 ↑