Resumen: Estudiamos el razonamiento estructurado basado en abstracciones para el Corpus de Abstracción y Razonamiento (ARC) y comparamos su generalización con enfoques de tiempo de prueba. Las arquitecturas puramente neuronales carecen de una generalización combinatoria confiable, mientras que los sistemas estrictamente simbólicos luchan con una base perceptiva.
Leer más →
Resumen: En sistemas multiagente impulsados por modelos de lenguaje grande (LLM), desobedecer la especificación de roles (no cumplir con las responsabilidades y limitaciones definidas de un rol asignado, lo que puede llevar a que un agente se comporte como otro) es un modo de falla importante cite{DBLP:journals/corr/abs-2503-13657}.
Leer más →
Resumen:A medida que los modelos de lenguaje grande (LLM) exhiben un rendimiento estancado en los puntos de referencia convencionales, persiste un desafío fundamental: evaluar su competencia en tareas complejas y abiertas que caracterizan la cognición genuina a nivel de experto.
Leer más →