必威:xAI推出搭載10萬塊NVIDIA芯片的“Colossus”AI訓練系統
作者:betway必威發布時間:2025-01-30
馬斯克旗下人工智能公司xAI已完成了一個擁有100000張顯卡的人工智能訓練系統的組裝。
馬斯克周一宣布了這一里程碑,該系統被xAI稱為Colossus,并于上周末上線。
馬斯克去年創辦了xAI,旨在與OpenAI競爭,這家初創公司開發了一系列名為Grok的大型語言模型。今年5月,xAI以240億美元的估值融資了60億美元。
馬斯克將新推出的Colossus描述為“世界上最強大的AI訓練系統”。這意味著該系統比美國能源部的Aurora系統更快,后者是世界上最快的AI超級計算機。在5月份的基準測試中,Aurora在87%的硬件處于活動狀態時達到了10.6 exaflops的最高速度betway必威。
馬斯克詳細介紹,Colossus配備了10萬塊NVIDIA H100顯卡。H100于2022年亮相,并在一年多的時間里被評為英偉達最強大的AI處理器,其運行語言模型的速度比英偉達上一代顯卡快30倍。
H100性能基于Transformer Engine模塊,這是一組經過優化的電路,用于運行基于 Transformer神經網絡架構的AI模型。該架構是GPT-4o、Llama 3.1 405B和許多其他前沿LLM 的基礎。
馬斯克詳細介紹了xAI計劃在幾個月內將Colossus的芯片數量翻一番,達到20萬片。他說,新處理器中5萬片將是H200。H200是H100的升級版,速度明顯更快。
與許多其他工作負載相比,AI模型更頻繁在運行芯片的邏輯電路和內存之間移動信息。因此,加速內存和邏輯模塊之間的數據移動可以提高AI模型的性能。NVIDIA H200執行此類數據傳輸的速度明顯快于H100。
H200的速度優勢得益于兩項架構升級。首先,NVIDIA將H100 HBM3內存換成了新型RAM“HBM3e”,這有助于加快芯片邏輯電路之間的數據傳輸速度。其次,該公司將板載內存容量增加了近一倍,達到141GB,這使得H200能夠將更多AI模型的數據保存在靠近邏輯電路的位置。
Grok-2是xAI的旗艦LLM,在15000個GPU上進行訓練。Colossus的100000個芯片可能有助于開發功能更強大的語言模型。據報道,xAI希望在年底前發布Grok-2的后續產品。betway必威
Colossus的部分服務器可能采用原本為特斯拉公司預留的芯片。今年1月,CNBC報道稱,馬斯克已要求NVIDIA將價值超過5億美元的12000臺H100從特斯拉轉移到xAI。同月,馬斯克估計特斯拉將在年底前在NVIDIA硬件上花費30億至40億美元。