Resumen: El notable progreso del aprendizaje por refuerzo (RL) está intrínsecamente ligado a los entornos utilizados para entrenar y evaluar agentes artificiales. Yendo más allá de las revisiones cualitativas tradicionales, este trabajo presenta una investigación empírica a gran escala basada en datos sobre la evolución de los entornos de RL. Al procesar programáticamente un corpus masivo de literatura académica y destilar rigurosamente más de 2000 publicaciones principales, proponemos una metodología cuantitativa para mapear la transición de simulaciones físicas aisladas a agentes fundamentales generalistas impulsados por el lenguaje. Al implementar una taxonomía novedosa y multidimensional, analizamos sistemáticamente puntos de referencia en diversos dominios de aplicación y capacidades cognitivas necesarias. Nuestro análisis semántico y estadístico automatizado revela un cambio de paradigma profundo y verificado con datos: la bifurcación del campo en un ecosistema “previo semántico” dominado por modelos de lenguaje grandes (LLM) y un ecosistema de “generalización de dominio específico”. Además, caracterizamos las “huellas dactilares cognitivas” de estos dominios distintos para descubrir los mecanismos subyacentes de sinergia entre tareas, interferencia multidominio y generalización de tiro cero. En última instancia, este estudio ofrece una hoja de ruta cuantitativa y rigurosa para diseñar la próxima generación de simuladores semánticos incorporados, cerrando la brecha entre el control físico continuo y el razonamiento lógico de alto nivel.
Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original
