En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mezcla de modelos: unificación de agentes heterogéneos a través de una deliberación de autoevaluación de N-Way

Mezcla de modelos: unificación de agentes heterogéneos a través de una deliberación de autoevaluación de N-Way

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Este artículo presenta el protocolo N-Way Self-Evaluating Deliberation (NSED), una arquitectura de mezcla de modelos (MoM) en tiempo de ejecución que construye modelos compuestos emergentes a partir de una pluralidad de agentes expertos distintos. A diferencia de la combinación de expertos (MoE) tradicional que se basa en redes de control estáticas, NSED emplea un agente de experiencia dinámica, un motor de optimización del tiempo de ejecución que trata la selección de modelos como una variación del problema de la mochila, vinculando puntos de control heterogéneos a roles funcionales basados ​​en telemetría en vivo y restricciones de costos. En la capa de ejecución, formalizamos la deliberación como una red neuronal recurrente a escala macro (RNN), donde el estado de consenso retrocede a través de una puerta de olvido semántica para permitir el refinamiento iterativo sin escalamiento proporcional de VRAM. Los componentes clave incluyen un tejido de orquestación para una revisión por pares N-to-N sin confianza, una función de activación de votación cuadrática para un consenso no lineal y una actualización de estado basada en comentarios. La validación empírica en puntos de referencia desafiantes (AIME 2025, LiveCodeBench) demuestra que esta topología permite que conjuntos de modelos pequeños (menos de 20 mil millones) de nivel de consumo igualen o superen el rendimiento de los modelos de parámetros de más de 100 mil millones de última generación, estableciendo una nueva frontera de eficiencia de arbitraje de hardware. Además, las pruebas en el paquete de seguridad DarkBench revelan propiedades de alineación intrínsecas, con una corrección mediada por pares que reduce las puntuaciones de adulación por debajo de las de cualquier agente individual.

Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web