Densidad y estabilidad inducidas por rutas (RIDE): intervención controlada y análisis de mecanismos de metaindicaciones de estilo de enrutamiento en estados internos de LLM

Resumen: El enrutamiento se usa ampliamente para escalar modelos de lenguaje grandes, desde la combinación de expertos hasta la selección de múltiples modelos/herramientas. Una creencia común es que dirigirse a una tarea “experta” activa un cálculo interno más disperso y, por lo tanto, produce resultados más seguros y estables (la hipótesis de escasez-certidumbre).

Leer más →

Comentarios desactivados en Densidad y estabilidad inducidas por rutas (RIDE): intervención controlada y análisis de mecanismos de metaindicaciones de estilo de enrutamiento en estados internos de LLM

ChartDiff: un punto de referencia a gran escala para comprender pares de gráficos

Resumen: Los gráficos son fundamentales para el razonamiento analítico; sin embargo, los puntos de referencia existentes para la comprensión de los gráficos se centran casi exclusivamente en la interpretación de un solo gráfico en lugar del razonamiento comparativo entre múltiples gráficos.

Leer más →

Comentarios desactivados en ChartDiff: un punto de referencia a gran escala para comprender pares de gráficos

AEC-Bench: un punto de referencia multimodal para sistemas agentes en arquitectura, ingeniería y construcción

Resumen: El AEC-Bench es un punto de referencia multimodal para evaluar sistemas agentes en tareas del mundo real en el dominio de Arquitectura, Ingeniería y Construcción (AEC). El punto de referencia cubre tareas que requieren comprensión de dibujos, razonamiento entre hojas y coordinación a nivel de proyecto de construcción.

Leer más →

Comentarios desactivados en AEC-Bench: un punto de referencia multimodal para sistemas agentes en arquitectura, ingeniería y construcción

Fin del contenido

No hay más páginas por cargar