Resumen: Las indicaciones de cadena de pensamiento (CoT) mejoran el razonamiento LLM pero generan una alta latencia y costos de memoria debido a los rastros detallados, lo que motiva la compresión de CoT con corrección preservada.
Leer más →
Resumen: Estudiamos la planificación sensible al riesgo bajo observabilidad parcial utilizando la medida de riesgo dinámico Valor en Riesgo Condicional Iterado (ICVaR). Se desarrolla un algoritmo de evaluación de políticas para ICVaR con garantías de desempeño en tiempo finito que no dependen de la cardinalidad del espacio de acción.
Leer más →
Resumen:Nuestro diseño experimental asigna cuatro roles distintos (Proponente, Respondedor, Monitor, Traductor) a diferentes sistemas de IA en seis condiciones, probando si los grandes modelos de lenguaje actuales pueden interactuar sustancialmente con marcos de alineación complejos. Utilizando Claude, Gemini y GPT-4o, llevamos a cabo 72 turnos de diálogo con un total de 576.
Leer más →