Todos los días, miles de millones de personas confían en los sistemas digitales para ejecutar todo, desde la comunicación hasta el comercio hasta la infraestructura crítica.
Leer más →
Resumen: Este estudio evalúa los modelos de Llama 3.2 sintonizados para extraer información relacionada con las vacunas de las notas de clasificación del departamento de emergencias para apoyar la vigilancia de seguridad de vacunas en tiempo real. La ingeniería rápida se utilizó para crear inicialmente un conjunto de datos etiquetado, que luego fue confirmado por anotadores humanos.
Leer más →
Resumen: Introducimos a PlanQA, un punto de referencia de diagnóstico para evaluar el razonamiento geométrico y espacial en modelos de gran lenguaje (LLM). Planqa se basa en representaciones estructuradas de escenas interiores, como cocinas, salas de estar y habitaciones, codificadas en un formato simbólico (por ejemplo, JSON, diseños XML).
Leer más →