Resumen: Los agentes LLM conscientes de la ejecución ofrecen un paradigma prometedor para aprender a partir de la retroalimentación de las herramientas, pero dicha retroalimentación suele ser costosa y lenta de obtener, lo que hace que el aprendizaje por refuerzo (RL) en línea no sea práctico. La verificación de hardware de alta cobertura ejemplifica este desafío debido a su dependencia de simuladores industriales y señales de ejecución no diferenciables. Proponemos LLM4Cov, un marco de aprendizaje de agentes fuera de línea que modela la verificación como transiciones de estado sin memoria guiadas por evaluadores deterministas. Sobre la base de esta formulación, introducimos la curación de datos validados por ejecución, la síntesis de datos agentes conscientes de políticas y el muestreo priorizado en el peor estado para permitir un aprendizaje escalable bajo restricciones de ejecución. Además, seleccionamos un punto de referencia alineado con la realidad adaptado de un conjunto de verificación existente a través de un protocolo de evaluación revisado. Utilizando el proceso propuesto, un modelo compacto de 4 parámetros B logra una tasa de aprobación de cobertura del 69,2 % bajo evaluación agente, superando a su maestro en un 5,3 % y demostrando un desempeño competitivo frente a modelos de un orden de magnitud mayor.
Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original
