Resumen: La mayoría de los enfoques existentes de modelos de lenguaje grande (LLM) mejorados con memoria asumen implícitamente que la validez de la memoria se puede establecer a través de evaluadores externos que proporcionan señales de éxito específicas de la tarea o mediante modelos cognitivos internos, como la reflexión, para editar entradas de memoria.
Leer más →
Resumen: La evaluación comparativa en la optimización continua de caja negra se ve obstaculizada por la limitada diversidad estructural de los conjuntos de pruebas existentes, como BBOB. Exploramos si grandes modelos de lenguaje integrados en un bucle evolutivo pueden usarse para diseñar problemas de optimización con características de paisaje de alto nivel claramente definidas.
Leer más →
Resumen: La detección de alucinaciones es fundamental para implementar modelos de lenguaje grandes (LLM) en aplicaciones del mundo real. Los métodos de detección de alucinaciones existentes logran un rendimiento sólido cuando los datos de entrenamiento y de prueba provienen del mismo dominio, pero adolecen de una generalización deficiente entre dominios.
Leer más →