Nvidia、AMD 與全新的運算競賽
全球科技產業正經歷一場關於運算能力定義與分配方式的重大變革。數十年來,中央處理器(CPU)一直是每台機器的核心,但那個時代已經過去了。如今,焦點已轉向專為處理現代人工智慧(AI)所需龐大數學運算而設計的特殊矽晶片。這不僅僅是誰能製造出更快元件的競爭,更是一場關於運算影響力的角力。Nvidia 與 AMD 是這場故事中的主角,其影響遠超硬體本身。這涉及了將定義未來十年軟體發展的基礎設施控制權。賭注非常高,因為贏家不僅僅是銷售產品,他們還建立了一個讓其他人為了保持競爭力而必須使用的平台。從通用運算轉向加速運算,代表了科技界層級結構的根本性轉變。
鎖定雲端的隱形程式碼
要理解為什麼一家公司目前能主導這個領域,就必須看透實體晶片之外。大多數觀察者只關注電晶體數量或 GPU 的時脈速度,然而真正的實力在於硬體與開發者之間的軟體層。Nvidia 花了近二十年時間建立了一個名為 CUDA 的專有環境。這個環境讓程式設計師能夠將 GPU 的平行處理能力用於與圖形無關的任務。由於現有的大量程式碼都是專為此環境編寫的,因此更換競爭對手的產品並非像更換一張卡那麼簡單,這需要重寫數千行複雜的指令。這就是所謂的軟體護城河,它阻止了即使是資金最雄厚的競爭對手也難以立即獲得優勢。這創造了一種硬體實際上成為特定軟體生態系統入場券的局面。
AMD 正試圖透過名為 ROCm 的開源方法來對抗這一點。他們的策略是提供一個不會將開發者鎖定在單一供應商的可行替代方案。雖然他們最新的硬體(如 MI300 系列)在原始效能上表現出巨大潛力,但軟體差距仍然是一個重大障礙。許多開發者發現最新的工具和函式庫優先針對 Nvidia 進行了優化,導致其他平台必須苦苦追趕。這種動態加強了現有霸主的地位。如果你是一位工程師,試圖在今天運行一個模型,你會選擇文件最完整、Bug 已被解決的地方。你可以透過官方技術文件找到更多關於 GPU 架構進展的詳細資訊。了解 人工智慧的基礎設施對於任何試圖預測下一波創新將從何而來的人來說至關重要。現在的競爭,開發者體驗與矽晶片本身同樣重要。
關於智慧的地緣政治壟斷
這場運算競賽的影響遠遠超出了矽谷的資產負債表。我們正目睹一種足以媲美二十世紀石油壟斷的權力集中。包括 Microsoft、Amazon 和 Google 在內的少數超大規模雲端服務商(Hyperscalers)是這些高階晶片的主要買家。這創造了一個回饋循環:最大的公司最先獲得最好的硬體,使他們能夠建立更強大的模型,進而產生更多收入來購買更多硬體。這種資源集中意味著較小的參與者,甚至整個國家,都發現自己處於日益擴大的鴻溝錯誤一側。那些擁有龐大運算叢集的人,能以其他人無法企及的速度進行創新。這導致科技業出現了雙層體系:運算資源豐富者與運算資源匱乏者。
各國政府已經注意到了這種失衡。矽晶片現在被視為具有國家重要性的戰略資產。出口限制已被實施,以防止先進晶片流入特定地區,有效地將硬體作為外交政策的工具。這些限制不僅是為了防止軍事用途,更是為了確保下一代軟體的經濟利益留在特定邊界內。這些晶片的供應鏈也非常脆弱。大多數先進製造業都集中在台灣的單一地點,這為整個全球經濟創造了一個單點故障。在過去,我們看到了供應限制如何導致多個產業停產。如果高階 GPU 的供應中斷,現代軟體的開發將實質上陷入停滯。這種對少數公司和單一製造合作夥伴的依賴,是許多分析師認為尚未完全反映在市場價格中的風險。根據 Reuters 的報導,這些供應鏈漏洞是全球貿易監管機構的首要任務。
運算飢渴的高昂代價
考慮一下當前環境下新創公司創辦人的日常現實。他們的主要擔憂不再僅僅是聘請最優秀的人才或找到產品市場契合點,而是花費大量時間協商伺服器使用時間。在典型的一天裡,這位創辦人可能會先審查他們的燒錢率(burn rate),卻發現大部分資金都直接流向雲端供應商以租用 H100 叢集的存取權。他們無法直接購買晶片,因為交貨期長達數月,而且他們缺乏在本地運行這些晶片的冷卻基礎設施。他們被迫在數位隊列中等待,希望更大的客戶不會以更高的價格搶走優先存取權。這與網際網路早期只需幾台廉價伺服器就能支撐全球平台的日子大相逕庭。嚴肅開發的入門價格已從數千美元躍升至數百萬美元。
他們的一天還在與技術債進行鬥爭。由於使用的是租賃硬體,他們必須優化每一秒的訓練時間。如果因為微小的程式碼錯誤導致工作失敗,可能會浪費數千美元的運算成本。這種壓力扼殺了實驗。當失敗成本如此之高時,開發者不太願意嘗試激進的新想法。
BotNews.today 使用 AI 工具研究、撰寫、編輯和翻譯內容。 我們的團隊審查並監督此過程,以確保資訊實用、清晰且可靠。
專有矽晶片的隱形稅
隨著我們深入這個加速運算時代,我們必須對長期後果提出困難的問題。現代科技的基礎由極少數實體控制,這健康嗎?當一家公司同時提供硬體、軟體環境和網路互連時,他們實際上擁有了整個技術堆疊。這對創新造成了一種隱形稅。每一位為專有系統編寫程式碼的開發者,都在為一個日益難以打破的壟斷做出貢獻。當資料必須在共享雲端環境中通過這些特殊晶片時,資料隱私會發生什麼事?雖然供應商聲稱資料是隔離的,但共享矽晶片的物理現實表明,新型側通道攻擊(side-channel attacks)可能是可能的。我們正在用透明度換取效能,而這種交易的全部代價尚不得而知。
環境永續性也是一個問題。這些新資料中心的電力需求令人震驚。我們正在建造巨大的設施,僅為了執行矩陣乘法就需要像小城市一樣多的電力。這對地球來說是一條可持續的道路嗎?如果這些模型的需求以目前的速度持續增長,我們最終將達到我們能提供多少能源的物理極限。此外,如果目前圍繞這些技術的興奮感達到平原期會怎樣?我們目前正處於大規模建設階段,但如果購買這些晶片的公司沒有實現經濟回報,我們可能會看到突然且劇烈的修正。無論其運行的軟體是否獲利,為建設這些基礎設施所承擔的債務仍需償還。我們必須考慮我們是在沙子上建立基礎,還是正在經歷世界運作方式的永久性轉變。
AI 引擎的內部運作
對於那些需要了解技術限制的人來說,故事不僅僅是關於 GPU。現代運算的瓶頸已從處理器轉向記憶體和互連。高頻寬記憶體(HBM),特別是 HBM3e,是目前世界上最搶手的元件。它允許處理器以以前不可能的速度存取資料。沒有這種記憶體,最快的 GPU 也會閒置,等待資料到達。這就是為什麼供應限制如此持久的原因。這不僅僅是關於製造更多晶片,而是關於協調來自不同供應商的多個複雜元件的生產。在未來,這種記憶體的可用性很可能會決定整個產業的總產出。這是軟體無法輕易克服的物理限制。
網路是拼圖的另一塊關鍵。當你在數千個 GPU 上訓練模型時,這些晶片相互通訊的速度就成了決定效能的因素。Nvidia 使用一種名為 NVLink 的專有互連技術,提供比標準乙太網高得多的傳輸量。這是護城河的另一層。即使競爭對手製造出的晶片在單獨運作時更快,如果他們的網路速度較慢,也無法匹配叢集的效能。進階使用者還必須處理嚴格的 API 限制和本地儲存瓶頸的現實。即使擁有最快的運算能力,將 TB 級的資料移入叢集仍然是一個緩慢且昂貴的過程。以下因素是目前高階使用者面臨的主要技術限制:
- 大規模推論任務期間的記憶體頻寬飽和。
- 高密度機架配置中的熱節流(thermal throttling)。
- 擴展到單一 Pod 之外時的互連延遲。
- 運算節點附近持久性儲存的高昂成本。
大多數組織發現他們無法在本地運行這些工作負載。特殊的電力和冷卻需求超出了標準資料中心的能力。這迫使人們依賴少數幾家有資本建造這些客製化環境的特定供應商。市場的極客部分不再是關於組裝自己的設備,而是關於了解遠端設施中虛擬機的配置選項。從本地硬體到抽象化雲端運算的轉變,對於高階工作負載而言已幾乎完成。
矽晶片戰爭的判決
Nvidia 與 AMD 之間的競賽並非單純的速度競爭,而是一場關於運算平台未來的戰鬥。Nvidia 擁有巨大的領先優勢,不僅是因為他們的硬體,更因為他們成功地將開發者社群鎖定在他們的軟體生態系統中。AMD 透過推廣開放標準進行艱苦的抗爭,但他們在克服現有程式碼庫的慣性方面面臨重大挑戰。到目前為止,真正的贏家是那些有資本大量購買這些矽晶片的超大規模雲端服務商,這進一步集中了科技業的權力。對於普通使用者或開發者來說,賭注是實際的。我們看到創新成本上升,以及一種新型守門人的出現。矽晶片戰爭正在重寫全球經濟規則,而我們才剛剛開始看到其真正的影響。焦點必須保持在這種權力集中是服務於更廣泛的社會利益,還是僅僅服務於那些擁有晶片的人的利益。
編者按: 我們創建這個網站,是為了那些不是電腦高手,但仍希望了解人工智慧、更自信地使用它,並追隨已經到來的未來的人們,提供一個多語言的人工智慧新聞和指南中心。
發現錯誤或需要修正的地方?請告訴我們。