BuilderBench: un punto de referencia para agentes generalistas

Resumen: Los modelos de IA actuales aprenden principalmente a través de la imitación y el perfeccionamiento, por lo que no es sorprendente que tengan dificultades para resolver problemas más allá de los límites establecidos por los datos existentes. Para resolver problemas nuevos, los agentes deben adquirir habilidades para explorar y aprender a través de la experiencia. Encontrar un mecanismo de aprendizaje escalable para desarrollar agentes que aprendan a través de la interacción sigue siendo un importante problema abierto. En este trabajo, presentamos BuilderBench, un punto de referencia para acelerar la investigación sobre el entrenamiento previo de agentes que centra la exploración abierta. BuilderBench requiere que los agentes aprendan a construir cualquier estructura utilizando bloques. BuilderBench está equipado con $(1)$ un simulador acelerado por hardware de un agente robótico que interactúa con varios bloques físicos y $(2)$ un conjunto de tareas con más de 42 estructuras objetivo diversas que están cuidadosamente seleccionadas para probar la comprensión de la física, las matemáticas y la planificación a largo plazo. Durante la formación, los agentes deben explorar y aprender principios generales sobre el medio ambiente sin ninguna supervisión externa. Durante la evaluación, los agentes deben construir estructuras objetivo invisibles a partir del conjunto de tareas. Resolver estas tareas requiere una suerte de emph{razonamiento corporizado} que no se refleja en palabras sino en acciones, experimentando diferentes estrategias y uniéndolas. Nuestros experimentos muestran que muchas de estas tareas desafían la iteración actual de algoritmos. Por lo tanto, también proporcionamos un protocolo de “ruedas de entrenamiento”, en el que los agentes son entrenados y evaluados para construir una estructura objetivo única a partir del conjunto de tareas. Finalmente, proporcionamos implementaciones de archivo único de seis algoritmos diferentes como punto de referencia para los investigadores.

Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los métodos de diversificación de datos en la alineación mejoran el rendimiento de las matemáticas en LLMS

La descarga: tropiezo con AI y Bloqueo de los bots de rastreadores

CompactPrompt: un canal unificado para la compresión rápida de datos en flujos de trabajo de LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido