Resumen: Introducimos a DirectingControl, un punto de referencia para evaluar los métodos de dirección de representación a través de los objetivos de alineación del núcleo (sesgo, generación dañina y alucinación) y sus efectos sobre comportamientos secundarios como la sycophancy y la moral de sentido común.
Leer más →
Resumen: El razonamiento de la cadena de pensamiento (COT) se ha convertido en una herramienta poderosa para mejorar el rendimiento del modelo de lenguaje grande en tareas complejas, pero el trabajo reciente muestra que los pasos de razonamiento a menudo no influyen causalmente en la respuesta final, creando resultados quebradizos y no confiables.
Leer más →
Resumen: Proponemos la fusión semántica, un esquema liviano que aumenta un modelo de lenguaje de transformador (LM) con un canal paralelo de características de membresía difusa que codifica semántica a nivel de token.
Leer más →