Resumen: El rápido despliegue de modelos de lenguaje grande y agentes de inteligencia artificial en dominios sociales y técnicos críticos se ve obstaculizado por patologías conductuales persistentes que incluyen adulación, alucinación y engaño estratégico que se resisten a la mitigación mediante el aprendizaje reforzado.
Leer más →
Resumen: Destilar el razonamiento en cadena de pensamiento (CdT) de grandes modelos lingüísticos a modelos compactos de estudiantes presenta un desafío fundamental: los fundamentos de los docentes suelen ser demasiado detallados para que los modelos más pequeños los reproduzcan fielmente.
Leer más →
Resumen: El aprendizaje reforzado a partir de recompensas verificables (RLVR) ha impulsado el progreso reciente en modelos de lenguajes grandes de código al aprovechar la retroalimentación basada en la ejecución de las pruebas unitarias, pero su escalabilidad está fundamentalmente limitada por la disponibilidad y confiabilidad de los casos de prueba de alta calidad.
Leer más →