Resumen: Introducimos a PlanQA, un punto de referencia de diagnóstico para evaluar el razonamiento geométrico y espacial en modelos de gran lenguaje (LLM). Planqa se basa en representaciones estructuradas de escenas interiores, como cocinas, salas de estar y habitaciones, codificadas en un formato simbólico (por ejemplo, JSON, diseños XML).
Leer más →
Resumen: Los avances recientes en modelos de idiomas grandes han demostrado un potencial considerable en dominios científicos como el descubrimiento de fármacos. Sin embargo, su efectividad sigue siendo limitada cuando el razonamiento se extiende más allá del conocimiento adquirido durante el pretrénmente.
Leer más →
Resumen: Presentamos un sistema de múltiples agentes para la automatización de tareas de investigación científica, CMBagent. El sistema está formado por aproximadamente 30 agentes del modelo de lenguaje grande (LLM) e implementa una estrategia de planificación y control para orquestar el flujo de trabajo de agente, sin humanos en el bucle en ningún momento.
Leer más →