Resumen: La generación automática de inmediato juega un papel crucial en permitir que los sistemas de agentes múltiples de uso general realicen diversas tareas de forma autónoma. Los métodos existentes generalmente evalúan las indicaciones basadas en el rendimiento de su tarea inmediata, con vistas a las cualidades intrínsecas que determinan su confiabilidad. Esta visión centrada en el resultado no solo limita la interpretabilidad, sino que tampoco tiene en cuenta la estocasticidad inherente de los modelos de idiomas grandes (LLM). En este trabajo, llamamos la atención sobre la estabilidad rápida: la consistencia de las respuestas del modelo en ejecuciones repetidas, como un factor clave para construir sistemas de generación de aviso robustos y efectivos. Para cuantificar esto, proponemos la estabilidad semántica como un criterio para evaluar la consistencia de la respuesta de las indicaciones y ajustar a un evaluador basado en el llama para medirlo automáticamente en las tareas. Estos componentes nos han permitido desarrollar el primer sistema de generación de aviso de uso general consciente de la estabilidad que aprovecha la retroalimentación de estabilidad para mejorar iterativamente tanto la calidad rápida como el rendimiento a nivel del sistema. Además, establecemos una cadena lógica entre la estabilidad rápida y el éxito de la tarea mediante el análisis de las dependencias estructurales dentro de nuestro sistema, lo que demuestra la estabilidad como una condición necesaria para la ejecución efectiva a nivel de sistema. Los resultados empíricos en tareas generales y específicas del dominio demuestran que nuestro marco consciente de la estabilidad mejora tanto la precisión como la consistencia del resultado. Al cambiar el enfoque de los resultados únicos a la confiabilidad persistente, nuestro trabajo ofrece una nueva perspectiva sobre el diseño rápido y contribuye con herramientas prácticas para construir sistemas de uso general más confiables.
Publicado Originalme en rss.arxiv.org El 20 de mayo de 2025.
Ver Fuente Original