Resumen: La optimización de preferencias directas (DPO) se ha convertido en una alternativa popular y eficiente al modelado de recompensas y al aprendizaje de refuerzo para alinear modelos lingüísticos con preferencias humanas. A pesar de su éxito empírico, las propiedades teóricas y las limitaciones intrínsecas de DPO permanecen subexploradas.
Leer más →
Resumen: El tema generalizado del sesgo en la IA presenta un desafío significativo para la clasificación de pintura, y se está volviendo más grave a medida que estos sistemas se integran cada vez más en tareas como la curación y la restauración del arte.
Leer más →
Resumen: Introducimos a PlanQA, un punto de referencia de diagnóstico para evaluar el razonamiento geométrico y espacial en modelos de gran lenguaje (LLM). Planqa se basa en representaciones estructuradas de escenas interiores, como cocinas, salas de estar y habitaciones, codificadas en un formato simbólico (por ejemplo, JSON, diseños XML).
Leer más →