Resumen: La planificación del lenguaje natural a menudo implica predicados vagos (p. ej., sustituto adecuado, suficientemente estable) cuya satisfacción está inherentemente graduada.
Leer más →
Resumen: El aprendizaje por refuerzo con recompensas verificables (RLVR) ofrece un mecanismo sólido para mejorar el razonamiento matemático en modelos grandes.
Leer más →
Resumen: La planificación del tiempo de inferencia con modelos de lenguaje grandes frecuentemente falla bajo observabilidad parcial: cuando las condiciones previas de la tarea crítica no se especifican en el momento de la consulta, los modelos tienden a alucinar hechos faltantes o producir planes que violan restricciones estrictas.
Leer más →