Mar 26, 2026

Interconnexió òptica per a la desagregació del centre de dades

Deixa un missatge

La desagregació del centre de dades separa el càlcul, la memòria, l'emmagatzematge i la xarxa en recursos independents i agrupats en lloc de bloquejar-los dins dels límits fixos del servidor. Aquesta separació crea una nova dependència arquitectònica: la capa d'interconnexió entre aquestes agrupacions ha de proporcionar prou amplada de banda, latència prou baixa i abast suficient per fer que tot el sistema es comporti com un teixit coordinat. La interconnexió òptica és la tecnologia de transport que ocupa cada cop més aquesta funció -, especialment quan els enllaços de coure arriben a límits físics de distància, potència i integritat del senyal.

En aquest article s'explica com la interconnexió òptica admet arquitectures desagregades, on supera el coure, com es relaciona amb CXL i l'òptica co-empaquetada i quan té sentit pràctic adoptar-la.

Disaggregated data center linked by optical fabric

Què és la desagregació del centre de dades?

En un model tradicional centrat en servidor-, la CPU, la memòria, l'emmagatzematge i la xarxa s'agrupen dins d'un únic xassís. Compreu un servidor i obteniu una proporció fixa de les quatre - tant si la vostra càrrega de treball necessita aquesta proporció com si no. La desagregació del centre de dades trenca aquest paquet. Cada tipus de recurs s'organitza en el seu propi grup i les càrregues de treball només extreuen el que necessiten de cada grup en un teixit compartit.

Això és important perquè les càrregues de treball modernes poques vegades s'equilibren. Una tasca d'entrenament de models d'idiomes gran pot saturar la memòria de la GPU i l'ample de banda est-oest mentre amb prou feines toca l'emmagatzematge local. Un canal d'anàlisi-en temps real pot necessitar una capacitat de memòria massiva, però només un càlcul moderat. En un disseny centrat en el servidor-, aquest desajust fa que els recursos estiguin encallats: cicles de CPU inactius al costat de la memòria esgotada o capacitat d'emmagatzematge que no utilitza cap càrrega de treball.

ElOpen Compute Project (OCP)ha estat impulsant dissenys de bastidors desagregats des de mitjans de la dècada de 2010, i hiperescaladors com Meta i Microsoft han desplegat emmagatzematge desagregat i xarxes a escala. L'aparició deCompute Express Link (CXL)ha estès aquesta visió a la desagregació de la memòria, fent que l'arquitectura sigui cada cop més pràctica per a una gamma més àmplia d'entorns.

Per què els dissenys tradicionals de servidor-centrics toquen un mur

Dues forces estan empenyent els equips d'infraestructura cap a la desagregació: la pressió d'utilització i la pressió de l'ample de banda.

Pel que fa a la utilització, els paquets de servidors fixos generen residus a escala. Les investigacions del sector suggereixen que aproximadament el 25% de la capacitat DRAM dels servidors convencionals no s'utilitza de mitjana, encara que la memòria representa gairebé la meitat del cost total del servidor. Multiplicada per milers de nodes, aquesta capacitat encallada representa una càrrega important de capital i energia.

Pel que fa a l'ample de banda, els clústers d'entrenament d'IA i les analítiques d'alt rendiment-generen patrons de trànsit que difereixen clarament de les càrregues tradicionals de servei del nord-sud-. Aquestes càrregues de treball produeixen un gran trànsit d'est-oest - GPU-a-GPU, accelerador-a-memòria i node-a-node - a centenars o milers de punts finals. Les topologies tradicionals centrades en servidor-amb tirades curtes de coure entre caixes fixes no es van dissenyar per a aquest patró. A mesura que les velocitats d'enllaç augmenten de 400G a 800G i més enllà, les limitacions elèctriques del coure es fan més difícils d'enginyar.

Com funciona la interconnexió òptica en un centre de dades desagregat?

Una vegada que els recursos de càlcul, memòria i accelerador es troben en grups separats, el teixit que connecta aquests grups es converteix en la capa-crítica de rendiment. La interconnexió òptica serveix a aquesta capa convertint els senyals elèctrics en llum i transmetent dadesmode{0}únicofibra multimode, i tornant a convertir-se en elèctric a l'extrem receptor.

La física del transport òptic li dóna avantatges estructurals per a aquesta feina. Els senyals lluminosos de la fibra experimenten molta menys atenuació per metre que els senyals elèctrics del coure, la qual cosa significa que els enllaços òptics poden mantenir la qualitat del senyal a distàncies més llargues sense el condicionament del senyal famolenc-potència (retemporitzadors, DSP, equalitzadors) que el coure demana a velocitats més altes. A 800 Gbps, el coure passiu és pràctic fins a aproximadament 3-5 metres. Els cables elèctrics actius s'estenen fins a potser 7 metres. Els enllaços òptics abasten habitualment entre 100 metres i 2 quilòmetres a la mateixa velocitat de dades, i l'òptica coherent pot arribar a desenes de quilòmetres.

Short copper links and longer optical connections

En una arquitectura desagregada, aquest avantatge d'abast no és abstracte. Determina directament a quina distància poden situar-se les agrupacions de recursos mentre segueixen comportant-se com un sistema unificat. Concretament:

  • Dins del bastidor:El coure encara domina per a connexions molt curtes del - servidor-a-la part superior-del-interruptor de bastidor, de GPU-a-GPU dins d'una safata. A distàncies inferiors a 2 o 3 metres, el coure és més senzill, més barat i una latència més baixa-.
  • Bastidor-a-bastidor (2–100 m):Aquí és on la interconnexió òptica es converteix en la pràctica predeterminada a 400G i superiors. Per connectar un bastidor de càlcul a un grup de memòria en un bastidor adjacent, o enllaçar safates de GPU a través d'una fila, normalment requereix la densitat d'ample de banda i l'abast que proporciona la fibra.Conjunts de cable de fibra òpticaiConnectivitat MPO/MTPsón estàndard per a aquests camins.
  • Habitació-a-habitació i edifici-a-edifici (100 m–10+ km):Només el transport òptic és viable a aquestes distàncies i velocitats. Aquest abast és important per a la-desagregació a escala del campus, on les agrupacions d'emmagatzematge, els recursos informàtics de còpia de seguretat o els recursos de recuperació-de desastres es troben en edificis separats.

Interconnexió òptica vs coure en centres de dades desagregats

L'elecció entre òptic i coure no és binària - sinó que depèn de l'abast-. A continuació es mostra com es comparen els dos entre els factors que més importen en un disseny desagregat:

Factor coure Fibra òptica
Accés pràctic a 800G 3–7 m (passiu/actiu) 100 m – 10+ km (segons el tipus d'òptica)
Densitat d'ample de banda Menor per cable; els cables són més gruixuts a velocitats més altes Més alt per cable; La fibra fina admet un nombre elevat de ports
Potència per bit (abast més llarg) Es requereixen DSP, retemporitzadors i condicionament del senyal - més alts Baixa a abast i velocitat equivalents
Latència (abast curt) Molt baix (el coure passiu no té cap sobrecàrrega de conversió) Una mica més alt a causa de la conversió electro-òptica
Immunitat EMI Sensible a interferències electromagnètiques La immunitat - és important en entorns densos i d'alta-potència
Pes del cable i flux d'aire Més pesat i voluminós a majors recomptes Més lleuger i prim, millor per al flux d'aire en bastidors densos
Cost (abast curt, velocitat baixa) Baixa per davant Més alt per endavant
Cost (a nivell-sistema, a escala) Pot ser més alt quan es factoritza la potència, la refrigeració i els límits d'abast Sovint, un cost total de propietat més baix a 400 G+ i camins més llargs
El millor ajust en el disseny desagregat Enllaços curts intra-safata, intra-rack Escala-a-rack, fila-a-fila,-a-habitació i-campus

La conclusió pràctica: utilitzeu el coure allà on encara hi guanya la senzillesa{0}}de curta distància. Utilitzeu l'òptica on l'abast, la densitat d'ample de banda, l'eficiència energètica o la gestió de cables esdevinguin la limitació d'unió. En un entorn desagregat, la proporció òptica de la interconnexió total creix perquè la pròpia arquitectura crea camins d'amplada de banda més llargs i-entre grups de recursos separats. Per a una comparació més profunda dels tipus de mitjans, vegeufibra òptica vs cables de coure: el que és adequat per al vostre desplegament.

Copper versus optical interconnect comparison

Beneficis clau de la interconnexió òptica per a la desagregació

Major densitat d'ample de banda per a grups de recursos separats

La desagregació augmenta el volum de trànsit que travessa la capa d'interconnexió perquè els recursos que abans estaven co{0}}ubicats ara es comuniquen a través del teixit. La fibra òptica admet aquesta demanda amb més ample de banda per-fibra i més fibres per cable. Un solcable de fibra de cintapot transportar centenars de fibres en una secció transversal compacta-, permetent el tipus de densitat de ports que requereixen els grups de memòria i els clústers de GPU desagregats.

Menor potència i càrrega tèrmica a escala

L'eficiència energètica importa més en un disseny desagregat perquè la capa d'interconnexió porta una part més gran del trànsit total del sistema. A 800 G i superiors, els enllaços de coure a distàncies moderades requereixen un processament DSP intensiu-en ambdós extrems. Els enllaços òptics a velocitats i distàncies equivalents consumeixen menys energia per bit. La documentació tècnica de NVIDIA sobre els informes de la plataforma de commutació d'òptica-empaquetada a3,5 × reducció del consum d'energiaen comparació amb els transceptors endollables tradicionals. A escala del centre de dades, aquesta diferència es tradueix directament en factures d'electricitat més baixes i infraestructures de refrigeració reduïdes.

Escalat modular i independent

Una de les promeses bàsiques de la desagregació és que la computació, la memòria i l'emmagatzematge poden escalar a diferents ritmes. La interconnexió òptica admet aquesta promesa perquè afegir capacitat a un conjunt de recursos no requereix redissenyar tot el teixit.Mòduls òptics connectableses pot actualitzar o afegir de manera incremental - de 400G a 800G a 1,6T - sense canviar la planta de fibra subjacent.

Flexibilitat per a càrregues de treball heterogènies

Quan els recursos s'agrupen i connecten mitjançant un teixit òptic-alt rendiment, els equips d'infraestructura poden assignar recursos a les càrregues de treball de manera dinàmica en lloc de configurar les càrregues de treball al voltant de configuracions fixes de servidor. Aquesta flexibilitat és especialment valuosa en entorns on coexisteixen treballs de formació en IA,-inferència en temps real, canalitzacions d'anàlisi i aplicacions pesades-d'emmagatzematge i competeixen per diferents tipus de recursos.

Com es relaciona la interconnexió òptica amb CXL i Co-Packaged Optics

CXL: la capa de protocol per compartir memòria i recursos

CXL (Compute Express Link) i la interconnexió òptica resolen diferents parts del problema de desagregació. CXL és un protocol estàndard obert - construït a la capa física PCIe - que permet una comunicació coherent de memòria cau-entre CPU, dispositius de memòria i acceleradors. Defineix com es poden agrupar i compartir de manera eficient els recursos separats a nivell de programari i protocol.

El Consorci CXL, els membres del qual inclouen Intel, AMD, NVIDIA, Samsung, Microsoft, Google i Meta, va llançar CXL 3.1 el novembre de 2023 amb suport explícit per acommutació multi-nivell i desagregació-basada en teixitmés enllà del bastidor. CXL 3.0 va introduir la compatibilitat amb fins a 4.096 nodes en un teixit unificat, la qual cosa va permetre l'agrupació de memòria a escala-rack i, potencialment, en clúster-.

La interconnexió òptica és el transport físic que pot transportar trànsit CXL (i altres protocols) entre aquests nodes distribuïts. Un equip que avalua l'agrupació de memòria basada en CXL-i un equip que avalua la interconnexió òptica estan treballant sovint en la mateixa iniciativa de desagregació des de diferents angles - un s'adreça a la lògica d'intercanvi de protocols i recursos-, l'altre s'adreça al transport físic.

CXL over optical transport with co-packaged optics

Òptica conjunta-: empènyer l'òptica més a prop del xip

L'òptica empaquetada (CPO) va més enllà integrant motors òptics directament al mateix substrat del paquet que l'ASIC o la GPU de l'interruptor, en lloc de dependre de transceptors connectables separats connectats mitjançant traces elèctriques en un panell frontal. D'aquesta manera s'eliminen les vies elèctriques-més llargues i amb més consum d'energia del sistema.

Al GTC 2025, NVIDIA va anunciar el seu primerplataformes de commutació fotòniques de silici empaquetades conjuntament(Quantum-X Photonics and Spectrum-X Photonics), que ofereix una amplada de banda de fins a 409,6 Tb/s amb 512 ports a 800 Gb/s. El director general de NVIDIA, Jensen Huang, va assenyalar que l'escalada a un milió de GPU amb transceptors endollables convencionals consumiria aproximadament 180 MW en potència del transceptor només - una xifra insostenible que CPO està dissenyada per abordar.

CPO no és una cosa que tots els equips que avaluen la desagregació han de desplegar avui. Els mòduls òptics connectables segueixen sent el factor de forma dominant per a la majoriacentre de dades de fibra òpticadesplegaments i ho continuaran fins almenys a finals de la dècada de 2020. Però CPO representa la direcció del full de ruta òptic, i els equips que planifiquen grans clústers d'IA o teixits desagregats-de propera generació haurien de fer un seguiment de la seva maduresa de prop.

Quan té més sentit la interconnexió òptica?

Entorns intensos d'IA i acceleradors-

Els clústers de formació d'IA es troben entre els casos d'ús més forts per a la interconnexió òptica en un context desagregat. Aquests sistemes generen trànsit massiu d'est-oest a través dels camins de la GPU-a-GPU-a-la memòria. A mesura que les mides de clúster creixen de centenars a milers de GPU, l'abast i les demandes d'amplada de banda superen ràpidament el que el coure pot suportar. A l'arquitectura GB200 NVL72 de NVIDIA, per exemple, els costos de xarxa (inclosos els transceptors òptics) representen entre el 15 i el 18% del cost total del clúster, i els transceptors òptics representen aproximadament el 60% d'aquest cost de xarxa. El cas econòmic i de rendiment per optimitzar la capa òptica és substancial.

Agrupació de memòria i infraestructura composable

Si el vostre equip està avaluant l'agrupació de memòria basada en CXL-, la capa de transport físic ha de suportar aquesta separació sense afegir una latència inacceptable ni limitar l'escala. CXL 3.1 s'orienta explícitament a la desagregació d'escala de teixit-més enllà del bastidor, la qual cosa significa que els camins d'interconnexió abastaran distàncies més llargues que els busos de memòria intra-tradicionals del servidor. Els enllaços òptics són l'ajust natural per a aquests camins.

Entorns a gran-escala amb necessitats d'escala desiguals

La interconnexió òptica també té més sentit quan el càlcul, la memòria i l'emmagatzematge necessiten escalar a diferents ritmes. Si la vostra capacitat de càlcul creix 3 vegades a l'any, però l'emmagatzematge creix 1,5 vegades, una arquitectura desagregada us permet ampliar cada grup de manera independent - i la interconnexió òptica ho fa físicament possible sense redissenyar la planta de cablejat cada vegada.

Quan NO té sentit

La interconnexió òptica no és el punt de partida adequat per a tots els entorns. Si el vostre centre de dades executa principalment càrregues de treball-de propòsit general equilibrades en servidors convencionals i el trànsit del vostre bastidor-a-del bastidor és modest i-ben servit per la infraestructura de coure existent, és possible que el cost i la complexitat d'un primer teixit-òptic no estiguin justificats. De la mateixa manera, si opereu a una escala on unes quantes desenes de servidors satisfan les vostres necessitats, la desagregació en si pot introduir més complexitat operativa de la que estalvia. L'arquitectura té els seus fruits quan l'escala, l'heterogeneïtat i el desequilibri de recursos són reals i mesurables - no hipòtesis.

Què cal avaluar abans del desplegament

1. Assigna el teu coll d'ampolla real

Comenceu amb una pregunta clara: quina és la restricció vinculant? És abast (els camins de coure massa curts per a la disposició del vostre bastidor)? Densitat d'ample de banda (no hi ha prou rendiment per cable per alimentar el vostre clúster de GPU)? Potència (enllaços elèctrics que consumeixen massa potència a 400G+)? Ús de recursos (servidors sobreprovisionats en un eix i morts de fam en un altre)? La interconnexió òptica és més valuosa quan el coll d'ampolla és físic i mesurable, no quan s'adopta com un gest de modernització general.

2. Avalueu el cost total del sistema, no el cost del cable

Un error comú és comparar el preu d'un cable de coure amb el preu d'uncable òpticen aïllament. Aquesta comparació és enganyosa. La comparació significativa inclou el consum d'energia, la sobrecàrrega tèrmica (i el cost de refrigeració que crea), la densitat de ports per unitat de bastidor, l'abast útil, la flexibilitat d'actualització i el cost dels recursos encallats a l'arquitectura més àmplia. En molts entorns desagregats a 400 G i superiors, el cost total de propietat de la fibra és inferior al del coure quan es té en compte el sistema complet.

3. Comproveu la compatibilitat i la preparació operativa

Avaluarprova de cable de fibra òpticarequisits, la interoperabilitat dels mòduls, les eines de supervisió i la familiaritat operativa del vostre equip amb la fibra. Els mòduls òptics connectables (OSFP, QSFP-DD) estan ben-estandarditzats i tenen una àmplia compatibilitat, però el vostre equip d'operacions s'hauria de sentir còmode amb el maneig, la neteja i la resolució de problemes de la fibra abans de desplegar-los a escala. Penseu en començar amb un domini pilot on podeu validar aquests factors operatius.

4. Planifiqueu la longevitat de la planta de fibra

Un avantatge important de la infraestructura de fibra és que la planta de fibra passiva - els cables, els panells de connexió i les vies - poden suportar diverses generacions de tecnologia de transceptor. Un bé-dissenyatconnectivitat del centre de dadesLa planta de fibra instal·lada avui per a 400G pot suportar actualitzacions de 800G i 1.6T intercanviant transceptors, sense tirar de nous cables. Això fa que la inversió inicial en fibra sigui més defensable en un horitzó de planificació de 10 anys.

Una ruta pràctica d'adopció

Pas 1: identifiqueu un domini restringit.Busqueu el lloc on l'abast del coure, la potència, la densitat d'ample de banda o l'encallament dels recursos ja estan creant un dolor mesurable. Pot ser una expansió de clúster de GPU, un coll d'ampolla de-a-rack en un entorn d'anàlisi o un pilot d'agrupació de memòria.

Pas 2: Pilotar i validar.Desplegueu la interconnexió òptica en aquest domini. Mesureu el comportament de latència, l'absorció d'energia, la complexitat operativa i l'economia d'expansió amb la vostra línia de base existent.

Pas 3: Amplieu-vos en funció de l'evidència.Utilitzeu les dades pilot per crear el cas tècnic i empresarial per a una adopció més àmplia. La desagregació i la migració òptica rarament es gestionen millor com un únic projecte-big bang. El llançament per fases us permet aprendre, ajustar i generar confiança en l'organització.

Llista de comprovació de decisions: la interconnexió òptica és adequada per a la vostra iniciativa de desagregació?

  • Les distàncies d'enllaç entre bastidors-a-rack o-a-habitació superen l'abast pràctic del coure a la vostra velocitat objectiu?
  • Teniu previst desplegar velocitats d'enllaç de 400 G o superiors a curt termini?
  • El consum d'energia de la interconnexió elèctrica s'està convertint en una part significativa del pressupost energètic del vostre centre de dades?
  • Esteu avaluant l'agrupació de memòria basada en CXL-, la infraestructura componible o l'expansió del clúster de GPU?
  • L'encallament dels recursos (computació inactiva, memòria o emmagatzematge bloquejat dins de servidors fixos) és un problema de cost mesurable?
  • El vostre entorn necessita escalar la informàtica, la memòria i l'emmagatzematge a diferents ritmes?

Si s'apliquen tres o més d'aquests, la interconnexió òptica mereix una avaluació seriosa com a part del vostre full de ruta de desagregació.

PMF

Què és la interconnexió òptica en un centre de dades?

La interconnexió òptica és una tecnologia de transport que utilitza senyals de llumcables de fibra òpticaper transportar dades entre dispositius de xarxa, servidors, commutadors, sistemes d'emmagatzematge i agrupacions de recursos dins i entre centres de dades. Ofereix una amplada de banda més gran, un abast més llarg i una potència per bit més baixa en comparació amb el coure a velocitats equivalents -, per la qual cosa és especialment important per a arquitectures desagregades i orientades a IA-.

En què es diferencia la interconnexió òptica de CXL?

Funcionen a diferents capes. La interconnexió òptica és una tecnologia de transport físic - que mou bits del punt A al punt B mitjançant la llum. CXL és un estàndard de protocol que defineix com les CPU, la memòria i els acceleradors es comuniquen de manera coherent. La interconnexió òptica pot transportar trànsit CXL, però CXL també passa per enllaços elèctrics per a connexions de -breu abast. Els equips sovint avaluen tots dos simultàniament perquè la desagregació crea demanda tant de millors protocols (CXL) com de millor transport físic (òptica).

El coure i l'òptica poden coexistir en un centre de dades desagregat?

Sí, i normalment ho fan. La majoria dels entorns desagregats utilitzen coure per a connexions intra-de bastidor molt curtes (menys de 3 a 5 metres) on segueix sent més senzill i més barat, i fibra òptica per a bastidor-a-, fila-a-fila i camins més llargs on l'abast, la potència i les limitacions del coure es converteixen en cau. La decisió depèn de l'abast-, no de tot-ni-res.

Què és l'òptica co-empaquetada i la necessito ara?

L'òptica empaquetada (CPO) co-integra els motors òptics directament al mateix paquet que l'ASIC o el processador de l'interruptor, eliminant la necessitat de transceptors connectables separats i reduint el consum d'energia i la latència. NVIDIA i Broadcom estan implementant CPO a les plataformes de xarxa d'IA-de propera generació. La majoria dels centres de dades no necessiten CPO avui dia -mòduls òptics connectablessegueixen sent l'estàndard -, però el CPO està al full de ruta per a la-infraestructura d'IA a gran escala en el període 2026-2028.

Quan NO hauria de buscar la desagregació amb la interconnexió òptica?

Si les vostres càrregues de treball estan bé-equilibrades entre la informàtica, la memòria i l'emmagatzematge; la vostra escala és modesta (unes quantes desenes de servidors); i la vostra infraestructura de coure existent gestiona les vostres necessitats actuals i a-ample de banda a curt termini sense esforços -, la complexitat afegida de la desagregació i la migració òptica potser no val la pena la inversió. Comenceu pel coll d'ampolla, no amb la paraula de moda.

Quins tipus de fibra s'utilitzen a la interconnexió òptica del centre de dades?

Fibra monomode{0}s'utilitza per a enllaços de llarga-distància i-velocitat més alta (normalment de bastidor-a-rack i més enllà).Fibra multimodeés habitual per a connexions intra-de-de dades més curtes de fins a uns quants centenars de metres. L'elecció depèn de l'abast, la velocitat i el perfil de cost requerits de cada enllaç.

 

Enviar la consulta