DirectionControl: evaluación holística de la dirección de alineación en LLMS

Resumen: Introducimos a DirectingControl, un punto de referencia para evaluar los métodos de dirección de representación a través de los objetivos de alineación del núcleo (sesgo, generación dañina y alucinación) y sus efectos sobre comportamientos secundarios como la sycophancy y la moral de sentido común.

Leer más →

Comentarios desactivados en DirectionControl: evaluación holística de la dirección de alineación en LLMS

FRIT: Uso de la importancia causal para mejorar la fidelidad de la cadena de pensamiento

Resumen: El razonamiento de la cadena de pensamiento (COT) se ha convertido en una herramienta poderosa para mejorar el rendimiento del modelo de lenguaje grande en tareas complejas, pero el trabajo reciente muestra que los pasos de razonamiento a menudo no influyen causalmente en la respuesta final, creando resultados quebradizos y no confiables.

Leer más →

Comentarios desactivados en FRIT: Uso de la importancia causal para mejorar la fidelidad de la cadena de pensamiento

Fusión semántica con características de membresía difusa para modelado de idiomas controlables

Resumen: Proponemos la fusión semántica, un esquema liviano que aumenta un modelo de lenguaje de transformador (LM) con un canal paralelo de características de membresía difusa que codifica semántica a nivel de token.

Leer más →

Comentarios desactivados en Fusión semántica con características de membresía difusa para modelado de idiomas controlables

Fin del contenido

No hay más páginas por cargar