Resumen: Logic proporciona un banco de pruebas controlado para evaluar razonadores basados en LLM, sin embargo, los puntos de referencia estándar estilo SAT a menudo combinan la dificultad superficial (longitud, redacción, orden de las cláusulas) con los fenómenos estructurales que realmente determinan la satisfacibilidad.
Leer más →
Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más como agentes autónomos para tareas de toma de decisiones de múltiples turnos. Sin embargo, los agentes actuales suelen depender de patrones cognitivos fijos: los modelos no pensantes generan respuestas inmediatas, mientras que los modelos pensantes participan en un razonamiento profundo de manera uniforme.
Leer más →
Resumen: Estudiamos cómo los algoritmos OR, los LLM y los humanos pueden interactuar y complementarse entre sí en un entorno de control de inventario de múltiples períodos.
Leer más →