Planqa: un punto de referencia para el razonamiento espacial en LLM utilizando representaciones estructuradas

Resumen: Introducimos a PlanQA, un punto de referencia de diagnóstico para evaluar el razonamiento geométrico y espacial en modelos de gran lenguaje (LLM). Planqa se basa en representaciones estructuradas de escenas interiores, como cocinas, salas de estar y habitaciones, codificadas en un formato simbólico (por ejemplo, JSON, diseños XML).

Leer más →

Comentarios desactivados en Planqa: un punto de referencia para el razonamiento espacial en LLM utilizando representaciones estructuradas

Hacia la inferencia conservadora en las redes creditales utilizando funciones de creencias: el caso de las cadenas de credal

Resumen: Este documento explora la inferencia de creencias en las redes de credales utilizando la teoría Dempster-Shafer. Al construir sobre trabajos anteriores, proponemos un marco novedoso para propagar la incertidumbre a través de una subclase de redes credales, a saber.

Leer más →

Comentarios desactivados en Hacia la inferencia conservadora en las redes creditales utilizando funciones de creencias: el caso de las cadenas de credal

Stardojo: Benchmarking Behaviors abiertos de LLM multimodales de agente en simulaciones de vida de producción con Stardew Valley

Resumen: Los agentes autónomos que navegan por la sociedad humana deben dominar tanto las actividades de producción como las interacciones sociales, pero los puntos de referencia existentes rara vez evalúan estas habilidades simultáneamente.

Leer más →

Comentarios desactivados en Stardojo: Benchmarking Behaviors abiertos de LLM multimodales de agente en simulaciones de vida de producción con Stardew Valley

Fin del contenido

No hay más páginas por cargar