雲端伺服器產業鏈趨勢與未來展望

國泰第三季論壇
雲端伺服器產業鏈趨勢與未來展望
Call Memo
20230907

伺服器架構演進
每十年會有一次革命性的演進，十年前雲端伺服器興起，現在來到AI Server的興起
第一階段：大型計算主機，player以IBM為主
第二階段：微型電腦，player包括IBM、SunMicro、Digital、王安，從晶片到作業系統到整機都自行開發
第三階段：Intel、MSFT、Apple、DELL、HP興起後才開始PC時代，解構IBM獨大時代，台灣ODM也才開始切入供應鏈
第四階段：企業端一直由DELL、HP、IBM三大獨攬，直到三大CSP業者(Azure、AWS、GCP)開啟了企業用雲以及ODM Direct的時代
何謂雲端? 業者不再自行建置自有的伺服器，而是向公有雲租用VM或上面的infrastructure，抑或僅使用佈建在上面的雲端軟體
三大CSP業者原先也是向server廠買伺服器，但由於server廠會綁特定SPEC (e.g., firmware)不願意為CSP業者客製化，所以CSP業者選擇自己開始做伺服器，開啟ODM Direct時代
2016年ODM DIRECT量體已經超越各sever廠的總和

供應鏈轉型
台廠供應鏈轉型：OEM to ODM to ODM Direct
台廠從OEM開始，原先design part占比很小，而且也僅限PCB的生產(整機組裝還是在原廠)，到後來台廠配置相關工程人力後才開始逐漸交由台廠(e.g., 英業達、廣達…等)
後來鴻海進入，鴻海CMMS(Component Module & Service)模式涵蓋全球運籌與品質掛帥
隨著ODM廠對於生產話語權持續提升，原廠才又將部分關鍵零組件收回管理，這也壓縮了台廠的獲利能力
在ODM Direct模式下各原廠還是有所差異
GCP：僅仰賴台廠的製造能力與產能，後端整機組裝&交貨還是由自己來
AWS & Azure：整機組裝&交貨比較會交由台廠(e.g., 廣達、鴻佰…等)
HP & DELL競爭時代，將PC/ NB的生產模式帶入伺服器供應鏈中
在ODM Direct初期，台灣ODM廠原先直接面對到CSP業者還能取得不錯毛利，但後來隨原HP/ DELL人力資源開始流到CSP業者，所以也開始習慣壓縮台灣ODM廠獲利

AI產業雲與端
AI並不是插了許多GPU就能跑，背後仍有許多軟體的整合，又回到過去大型計算機的時代
SMCI &技嘉推出的比較像是AI Box，企業端採用的相對有限，比較多是研究機構採用
端側應用：包括TESLA自駕系統、工業智能檢測，都會是未來AI端側很大的應用領域

AI Server架構為何複雜程度遠超過去?
硬體之上還有軟體、軟硬體合OS系統整合，意即複雜硬體結構、中間層CSP提供的ML/AI service，才到最終端的SW應用層
CUDA：GPU平行串連後，架構之上的ML、Deep Learning…等AI應用才能運行順利，CUDA為NVDIA可以維持現階段技術壁壘的關鍵
ML、Deep Learning…等AI應用仍然還是CSP業者提供，才會再到應用層的軟體應用(例如語言辨識能力極強的ChatGPT)，未來仍會有許多應用服務更新(醫療、工廠、金融)
NVDIA掌握中間層以下(硬體&中間層)，在早期即透過與學術機構建立深厚關係，這些機構與專家學者都很習慣應用他們的AI系統，因此後續開發的終端應用軟體也都是在NVDIA所提供的架構之上
AMD發展MI300，不會追不上，但NVDIA應該可以享受3-5年的領先壁壘(就如同當初IBM受到INTEL/ DELL/ HP的挑戰)
在CUDA之上建立好的軟體系統，要搬到新的(e.g., AMD)之上，會是大工程；但不會是不可能，三大CSP業者都有在嘗試，以個別企業角度而言資源可能沒有那麼充足
目前台灣掌握的都還是硬體以及(可能發展的)終端應用軟體，中間層幾乎都是美國原廠把持

現階段AI雲端服務平台包括：三大CSP、Meta、Oracle、IBM，目前都還在爭取市占
現有雲端服務平台目前還是主要與NVDIA合作
在未來NVDIA自己也有想要做雲服務，同樣地雲端服務平台業者在Intel、AMD GPU跟不上NVDIA後也可能開發自己的ASIC來制衡NVDIA

AI伺服器架構
x86 CPU : AMD or Intel，但也有業者逐漸想發展ARM架構CPU；AMD預計今年年底/明年量產的mi300仍然遇到一些瓶頸，也是Lisa Su來台灣最主要的原因
GPU: NVDIA or AMD，Intel原先要推的GPU又再度地延到2025年
Google不採用NVDIA的GPU，而是採用自己開發的TPU，也是最早導入水冷散熱的系統(量產階段)
傳輸介面：目前在PCIE 4.0 到 5.0之間
BMC: 信驊
CSP業者開發的自製晶片主要是for特定服務然後整合NVDIA的cuda之上
NVDIA獨規規範NVlink：不走標準介面PCIE，標準介面的傳輸速度跟不上nvlink
目前CPU旁邊接的快取記憶體，未來快取記憶體可能會像現在的Storage，可以成為一個pool跨CPU/ GPU access

AI伺服器集成
包括廣達雲達、緯創緯穎、英業達、鴻佰、聯想、技嘉、超微
廣達：自深耕NB再到SERVER起，engineering的能力是最強的(工程師人力資源也最充足)，仍然在努力走出純odm/oem，也是最早切入odm direct的廠商；最大的轉機也是最大危機在於他想走出自己的solutions和渠道，這將分散內部資源的使用
緯創/緯穎：算是第三波才切入ODM Direct，一開始HP/ DELL的訂單大不如鴻海/英業達，後續才因為深耕FB建立起深厚關係
英業達：最早切入HP的台灣ODM廠，一開始最大領先；但也因為如此沒有選擇進入MSFT Azure供應鏈(HP/DELL表示反對)
鴻海/鴻佰：受惠鴻海集團整合能力，成本有相對競爭力，即便沒有接到第一單，後續也可以受惠成本能力再次切入second source
聯想：本身是陸資很難進入美系市場，但又是MSFT license的大客戶，所以MSFT還是會下單給他
SMCI：走channel為主，主要走小型的學術機構(量太小，很難對ODM Direct下單)；講者認為SMCI比技嘉更有機會走出自己的solutions
技嘉: 也想走出自己的Cloud solutions；原先走電競筆電，因此與NVDIA長期關係非常好，在公板設計給予很多協助；

AI伺服器元件
NVDIA 主機板GPU OAM模組：鴻佰代工生產
GPU dashboard: 緯創，包括NVDIA and AMD
主機板集成：廣達、緯穎、英業達
電源供應：12v to 48v to 54v，還是以台達&光寶為主
其他：機殼、滑軌…等，講者強調AI server佔整體server比重還是很少

散熱系統
現在剛量產的AI server都尚未導入水冷，水冷何時能夠導入仍存疑
目前只有看到Google TPU有用Cold plate(cooler master出貨)，目前最終DC降溫還是以air cooling為主熱水還是用冷背板+風扇冷卻，因為目前還是沒有辦法把冰水/室溫水到機櫃裏頭；目前都沒有看到真正水冷
Liquid to Liquid(冷水對熱水的交換)：會是最有效的散熱方式，也是目前看到最有可能成形的方案；但整座原先建置DC的水電配線都要重新配置，所以尚未成形；新建置的DC可能可以預留管線
浸漠式水冷(server板or GPU板插入不導電液體)，還是要demo系統在自己測試，安裝會是大工程(後續維護也是)，在液體裏頭的電子訊號傳遞又有很大的技術；整體散熱效率&成本又沒有比liquid to liquid好很多，可能用在比較niche的產業，例如通訊、軍工

台達電：目前整體還是最完整的，但散落在不同事業體中；整體品質最高，遭遇殺價競爭可能性最小
奇鋐：鐵工廠出身才慢慢往風扇發展；很願意在客人那邊蹲點，CSP業者可以跳過ODM廠直接找奇鋐很適合csp業者客製化需求
雙鴻：在consumer相對領先，因此整體成本有相對領先，目前學習緯穎模式深耕meta
Cooler master：在consumer相對領先，遊戲機產品做很多因此跟NVDIA關係良好

僅供本公司內部同仁參考使用，非經本公司事先書面同意，不得轉發或轉載第三人

雲端伺服器產業鏈趨勢與未來展望

發表留言取消回覆

部落格統計

分享此文：

相關

發表留言 取消回覆

部落格統計

發表留言取消回覆