LLM4Cov: Aprendizaje agente consciente de la ejecución para la generación de bancos de pruebas de alta cobertura

Resumen: Los agentes LLM conscientes de la ejecución ofrecen un paradigma prometedor para aprender a partir de la retroalimentación de las herramientas, pero dicha retroalimentación suele ser costosa y lenta de obtener, lo que hace que el aprendizaje por refuerzo (RL) en línea no sea práctico. La verificación de hardware de alta cobertura ejemplifica este desafío debido a su dependencia de simuladores industriales y señales de ejecución no diferenciables. Proponemos LLM4Cov, un marco de aprendizaje de agentes fuera de línea que modela la verificación como transiciones de estado sin memoria guiadas por evaluadores deterministas. Sobre la base de esta formulación, introducimos la curación de datos validados por ejecución, la síntesis de datos agentes conscientes de políticas y el muestreo priorizado en el peor estado para permitir un aprendizaje escalable bajo restricciones de ejecución. Además, seleccionamos un punto de referencia alineado con la realidad adaptado de un conjunto de verificación existente a través de un protocolo de evaluación revisado. Utilizando el proceso propuesto, un modelo compacto de 4 parámetros B logra una tasa de aprobación de cobertura del 69,2 % bajo evaluación agente, superando a su maestro en un 5,3 % y demostrando un desempeño competitivo frente a modelos de un orden de magnitud mayor.

Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un marco XAI reducido por dimensionalidad para la rotonda de la gravedad de la gravedad

Chatbot para ayudar a los pacientes a comprender su salud

Escudo: solucionador de enrutamiento de vehículos multi-distribución de varias tareas con escasez y jerarquía

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido