Trampas epistémicas: desalineación racional impulsada por una especificación errónea del modelo

Resumen: El rápido despliegue de modelos de lenguaje grande y agentes de inteligencia artificial en dominios sociales y técnicos críticos se ve obstaculizado por patologías conductuales persistentes que incluyen adulación, alucinación y engaño estratégico que se resisten a la mitigación mediante el aprendizaje reforzado.

Leer más →

Comentarios desactivados en Trampas epistémicas: desalineación racional impulsada por una especificación errónea del modelo

Aprendizaje curricular para una destilación eficiente de la cadena de pensamiento mediante enmascaramiento consciente de la estructura y GRPO

Resumen: Destilar el razonamiento en cadena de pensamiento (CdT) de grandes modelos lingüísticos a modelos compactos de estudiantes presenta un desafío fundamental: los fundamentos de los docentes suelen ser demasiado detallados para que los modelos más pequeños los reproduzcan fielmente.

Leer más →

Comentarios desactivados en Aprendizaje curricular para una destilación eficiente de la cadena de pensamiento mediante enmascaramiento consciente de la estructura y GRPO

CodeScaler: Capacitación de LLM de código escalable e inferencia en el tiempo de prueba a través de modelos de recompensa sin ejecución

Resumen: El aprendizaje reforzado a partir de recompensas verificables (RLVR) ha impulsado el progreso reciente en modelos de lenguajes grandes de código al aprovechar la retroalimentación basada en la ejecución de las pruebas unitarias, pero su escalabilidad está fundamentalmente limitada por la disponibilidad y confiabilidad de los casos de prueba de alta calidad.

Leer más →

Comentarios desactivados en CodeScaler: Capacitación de LLM de código escalable e inferencia en el tiempo de prueba a través de modelos de recompensa sin ejecución

Fin del contenido

No hay más páginas por cargar