用戶名: 密碼: 驗證碼:

Meta將超級計算機(jī)規(guī)?;a(chǎn)

摘要:Meta公司硬件與AI系統(tǒng)基礎(chǔ)設(shè)施工程副總裁Dan Rabinovitsj表示,為滿足AI算力需求,公司正以消費電子產(chǎn)品的規(guī)?;绞街圃斐売嬎銠C(jī)。其AI集群從單數(shù)據(jù)中心擴(kuò)展至吉瓦級、跨地域部署,并面臨可靠性、人才與減排等挑戰(zhàn)。

  ICC  在2025年OCP全球峰會上,Meta公司的Dan Rabinovitsj表示,超級計算機(jī)已從需耗時逾年在精英研究實驗室"精工細(xì)作"的項目,轉(zhuǎn)變?yōu)槊咳湛闪慨a(chǎn)數(shù)百臺的產(chǎn)品。

  "我們正在像量產(chǎn)產(chǎn)品一樣交付超級計算機(jī),"Meta硬件與AI系統(tǒng)基礎(chǔ)設(shè)施工程副總裁Rabinovitsj在主題演講中表示,"我們正將基礎(chǔ)設(shè)施轉(zhuǎn)型為消費電子產(chǎn)品的運營模式。"他補充道:"我們習(xí)慣于每年假日季推出新手機(jī)或新電視?,F(xiàn)在我們正以同樣節(jié)奏部署超級計算機(jī)。"

  這種規(guī)模是為滿足AI算力需求以服務(wù)Meta每日34億用戶所必需的。"我們已成功將AI整合到公司幾乎各項業(yè)務(wù)中,"Rabinovitsj說,"這確實是令人興奮的旅程,但也非常艱難。我曾以為硬件之所以叫硬件是因為它難,但實際上各方面都難。"

  在2022年生成式AI革命之前,Meta就已開始使用AI。該公司曾建成橫跨整個數(shù)據(jù)中心的單一AI集群。隨著時間的推移,Meta持續(xù)將集群中的GPU數(shù)量翻倍——從24,000個增至100,000個。他表示,公司目前正規(guī)劃吉瓦級數(shù)據(jù)中心,其數(shù)百萬GPU將跨越多個區(qū)域。

  規(guī)模的擴(kuò)大導(dǎo)致對錯誤控制的要求提高。為此,Meta提出了"服務(wù)器業(yè)力"的概念來預(yù)測服務(wù)器錯誤,使公司能夠主動將服務(wù)器下線以維持可靠性。"我們下一步的目標(biāo)更加瘋狂,"Rabinovitsj說。

  全棧創(chuàng)新

  Meta計劃將AI擴(kuò)展至相距數(shù)百公里的多個區(qū)域,這需要在軟件、硬件及技術(shù)棧的每個部分進(jìn)行創(chuàng)新,"一路深入到定制芯片中的晶體管"。公司近期與英偉達(dá)合作推出了Minipack3數(shù)據(jù)中心交換機(jī),并正在開發(fā)名為"非調(diào)度架構(gòu)"的新型網(wǎng)絡(luò)架構(gòu),專為最大規(guī)模的AI集群設(shè)計。"僅僅為了解決在如此遠(yuǎn)距離上構(gòu)建這些龐大集群的挑戰(zhàn),我們就需要一種方法來保證端到端的性能,"Rabinovitsj說。

  他指出,Meta的1吉瓦"Prometheus"集群已在俄亥俄州新奧爾巴尼市投入運行,其數(shù)據(jù)中心搭建在帳篷內(nèi)以便更快部署——就像他發(fā)表演講的OCP主題演講所用的大帳篷一樣。5吉瓦的"Hyperion"集群計劃未來幾年在路易斯安那州里奇蘭教區(qū)上線。Hyperion的跨度相當(dāng)于從紐約下城區(qū)到中央公園,步行需要三個小時。Rabinovitsj表示,這將是Meta及其他超大規(guī)模公司建設(shè)的眾多該規(guī)模集群之一。

  為實現(xiàn)此規(guī)模,Meta正在部署多種類型的標(biāo)準(zhǔn)化硬件,這帶來了軟件挑戰(zhàn),并需要向開發(fā)人員社區(qū)隱藏復(fù)雜性。這種多樣性在彈性、性能和冗余供應(yīng)鏈選項方面帶來了回報。

  如同移動非洲象

  Rabinovitsj表示,對于網(wǎng)絡(luò),只有以太網(wǎng)能滿足Meta的需求。Meta支持新引入的"面向縱向擴(kuò)展網(wǎng)絡(luò)的以太網(wǎng)"OCP工作流,該工作流也獲得了AMD、Arista、ARM、博通、思科、HPE、英偉達(dá)、OpenAI等AI和網(wǎng)絡(luò)領(lǐng)域領(lǐng)導(dǎo)者的支持。ESUN旨在提高縱向擴(kuò)展環(huán)境中的吞吐量并降低延遲。

  大型縱向擴(kuò)展域需要更大的機(jī)架。到2027年第三季度,Meta將需要支持多達(dá)256個加速器的機(jī)架。Rabinovitsj稱它們?yōu)?BFRs"。"我們讓你們自己想象'BFR'是什么,"他說。這些機(jī)架是滿足AI需求所必需的,但它們在設(shè)計、制造、運輸、運營和維護(hù)方面都很困難。例如,機(jī)架太大太重,無法放在搬運車上。一個60-70磅的托盤中間容易下垂,需要加固。

  Meta不得不設(shè)計一種新型牽引車在數(shù)據(jù)中心內(nèi)移動這些機(jī)架——"其等效質(zhì)量相當(dāng)于一頭非洲象"——并將把該設(shè)計開源給OCP。"這些東西如此之大,你必須以不同的方式構(gòu)建所有結(jié)構(gòu),以確保在移動這些機(jī)架時具備所需的剛性和完整性,"他說。這些機(jī)架采用液冷,內(nèi)部有"許多昂貴且精密的設(shè)備,因此設(shè)計中所投入的考量確實令人印象深刻。"

  泡沫?何種泡沫?

  Rabinovitsj駁斥了關(guān)于AI是經(jīng)濟(jì)泡沫、即將像互聯(lián)網(wǎng)泡沫或上世紀(jì)90年代和本世紀(jì)初的光纖建設(shè)熱潮那樣崩潰的言論。"這種容量需求至少在未來幾年內(nèi)將持續(xù)存在,并且需要'以質(zhì)量和可靠性'來交付,"他說。

  "從事基礎(chǔ)設(shè)施建設(shè)多年,我們曾以為已經(jīng)掌握了關(guān)于規(guī)模的一切,但老實說,AI每天都在挑戰(zhàn)我們所有人的極限,"Rabinovitsj表示,"我們必須挺身而出,找出解決這些挑戰(zhàn)的方法。"然而,這種需求導(dǎo)致了技能短缺。"整個行業(yè)都急需高質(zhì)量的工程師,"他說。這也適用于合作伙伴,他們需要雇傭熟練工人在工廠工作。

  此外,數(shù)據(jù)中心需要設(shè)計得能減少溫室氣體排放。"我們需要尋找非常顯著且富有創(chuàng)意的方法來減少所有這些基礎(chǔ)設(shè)施相關(guān)的排放,"Rabinovitsj說。

  他總結(jié)道:"對我來說,在Meta工作最有趣的事情之一是我們能夠致力于從PyTorch到晶體管的所有技術(shù)棧層面,這極大地有助于理解這些挑戰(zhàn)的規(guī)模和背景。"

內(nèi)容來自:訊石光通訊網(wǎng)
本文地址:http://www.partyval.com//Site/CN/News/2025/10/16/20251016013418105328.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字:
文章標(biāo)題:Meta將超級計算機(jī)規(guī)?;a(chǎn)
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭議和其它問題,請聯(lián)系本網(wǎng),將第一時間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right