En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="5"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->La integración 3D definitiva prepararía las futuras GPU

La integración 3D definitiva prepararía las futuras GPU

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Eche un vistazo al interior del paquete de AMD o Nvidia productos de IA más avanzados, y encontrará una disposición familiar: la GPU está flanqueada en dos lados por memoria de gran ancho de banda (HBM), los chips de memoria más avanzados disponibles. Estos chips de memoria se colocan lo más cerca posible de los chips informáticos a los que sirven para reducir el mayor cuello de botella en la informática de IA: el energía y retraso para pasar miles de millones de bits por segundo de la memoria a la lógica. Pero, ¿qué pasaría si se pudiera acercar aún más la informática y la memoria apilando el HBM encima de la GPU?

Imec exploró recientemente este escenario utilizando simulaciones térmicas avanzadas y la respuesta, entregada en diciembre en la Reunión internacional de dispositivos electrónicos IEEE 2025 (IEDM)—fue un poco sombrío. El apilamiento 3D duplica la temperatura de funcionamiento dentro de la GPU, dejándola inoperable. Pero el equipo, liderado por Imec James Myers, no simplemente se rindió. Identificaron varias optimizaciones de ingeniería que, en última instancia, podrían reducir la diferencia de temperatura a casi cero.

Embalaje avanzado 2,5D y 3D

Imec comenzó con una simulación térmica de una GPU y cuatro matrices HBM tal como las encontraría hoy, dentro de lo que se llama un paquete 2.5D. Es decir, tanto la GPU como el HBM se asientan sobre un sustrato llamado intercalador, con una distancia mínima entre ellos. Los dos tipos de chips están unidos por miles de interconexiones de cobre a escala micrométrica integradas en la superficie del interposer. En esta configuración, el modelo GPU consume 414 vatios y alcanza una temperatura máxima de poco menos de 70 °C, típica de un procesador. Los chips de memoria consumen unos 40 W adicionales y se calientan algo menos. El calor se elimina de la parte superior del paquete mediante el tipo de refrigeración líquida eso se ha vuelto común en los nuevos centros de datos de IA.

“Si bien este enfoque se utiliza actualmente, no se adapta bien para el futuro, especialmente porque bloquea dos lados de la GPU, lo que limita futuras conexiones de GPU a GPU dentro del paquete”. Yukai Chen, dijo un investigador senior de Imec a los ingenieros del IEDM. Por el contrario, “el enfoque 3D conduce a un mayor ancho de banda y una menor latencia… La mejora más importante es el tamaño del paquete”.

Desafortunadamente, como descubrieron Chen y sus colegas, la versión más sencilla de apilamiento, simplemente colocar los chips HBM encima de la GPU y agregar un bloque de silicio en blanco para llenar un espacio en el centro, disparó las temperaturas en la GPU a unos abrasadores 140 °C, muy por encima del límite típico de 80 °C de una GPU.

Cooptimización de la tecnología del sistema

El equipo de Imec se propuso probar una serie de optimizaciones de sistemas y tecnologías destinadas a reducir la temperatura. Lo primero que intentaron fue desechar una capa de silicio que ahora era redundante. Para entender por qué, primero hay que entender qué es realmente HBM.

Esta forma de memoria es una pila de hasta 12 matrices DRAM de alta densidad. Cada uno de ellos ha sido adelgazado hasta decenas de micrómetros y está atravesado por conexiones verticales. Estos troqueles adelgazados se apilan uno encima del otro y se conectan mediante diminutos bolas de soldadura, y esta pila de memoria está conectada verticalmente a otra pieza de silicio, llamada matriz base. La matriz base es un chip lógico diseñado para multiplexar los datos: empaquetarlos en una cantidad limitada de cables que pueden pasar a través del espacio en escala milimétrica hasta la GPU.

Pero ahora que HBM está encima de la GPU, no hay necesidad de dicha bomba de datos. Los bits pueden fluir directamente al procesador sin importar cuántos cables quepan a lo largo del costado del chip. Por supuesto, este cambio significa mover los circuitos de control de memoria de la base a la GPU y, por lo tanto, cambiar el plano del procesador, dice Myers. Pero debería haber suficiente espacio, sugiere, porque la GPU ya no necesitará los circuitos utilizados para demultiplexar los datos entrantes de la memoria.

La eliminación de este intermediario de la memoria enfrió las cosas sólo un poco menos de 4 °C. Pero, lo más importante, debería aumentar enormemente el ancho de banda entre la memoria y el procesador, lo cual es importante para otra optimización que intentó el equipo: ralentizar la GPU.

Esto podría parecer contrario al propósito de mejorar la informática con IA, pero en este caso es una ventaja. Los modelos de lenguaje grandes son lo que se denominan problemas “ligados a la memoria”. Es decir, el ancho de banda de la memoria es el principal factor limitante. Pero el equipo de Myers estimó que el apilamiento 3D de HBM en la GPU multiplicaría por cuatro el ancho de banda. Con ese margen adicional, incluso ralentizar el reloj de la GPU en un 50 por ciento conduce a una mejora en el rendimiento, al tiempo que enfría todo en más de 20 °C. En la práctica, es posible que no sea necesario ralentizar tanto el procesador. El aumento de la frecuencia del reloj al 70 por ciento dio lugar a una GPU que era sólo 1,7 °C más cálida, afirma Myers.

HBM optimizado

Otra gran caída en la temperatura se produjo al hacer que la pila de HBM y el área a su alrededor fueran más conductivas. Eso incluyó fusionar las cuatro pilas en dos pilas más anchas, eliminando así una región que atrapa el calor; adelgazar la parte superior (generalmente más gruesa) de la pila; y rellenar más espacio alrededor del HBM con piezas de silicio en blanco para conducir más calor.

Chart showing 7 steps with temperatures listed on them. Imec exploró siete pasos para reducir la penalización térmica de apilar memoria en GPU. Imagen de origen: Imec

Con todo esto, la pila ahora funcionaba a unos 88 °C. Una optimización final devolvió la temperatura a cerca de 70 °C. Generalmente, alrededor del 95 por ciento del calor de un chip se elimina de la parte superior del paquete, donde en este caso el agua se lleva el calor. Pero agregar un enfriamiento similar a la parte inferior también hizo que las fichas apiladas bajaran unos últimos 17 °C.

Aunque la investigación presentada en IEDM muestra que podría ser posible, HBM-on-GPU no es necesariamente la mejor opción, afirma Myers. “Estamos simulando otras configuraciones del sistema para ayudar a generar confianza en si esta es o no la mejor opción”, dice. “La GPU en HBM es de interés para algunos en la industria”, porque acerca la GPU a la refrigeración. Pero probablemente sería un diseño más complejo, porque la potencia y los datos de la GPU tendrían que fluir verticalmente a través del HBM para llegar a él.

Publicado originalmente en {feed_name} el 14 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web