Resumen: Consideramos el problema de aprender tiras proposicionales modelos mundiales de trazas de acción solas, utilizando una arquitectura de aprendizaje profundo (transformadores) y descenso de gradiente.
Leer más →
Resumen: El razonamiento de la cadena de pensamiento (COT) se ha convertido en una herramienta poderosa para mejorar el rendimiento del modelo de lenguaje grande en tareas complejas, pero el trabajo reciente muestra que los pasos de razonamiento a menudo no influyen causalmente en la respuesta final, creando resultados quebradizos y no confiables.
Leer más →
Resumen: Introducimos a DirectingControl, un punto de referencia para evaluar los métodos de dirección de representación a través de los objetivos de alineación del núcleo (sesgo, generación dañina y alucinación) y sus efectos sobre comportamientos secundarios como la sycophancy y la moral de sentido común.
Leer más →