Inestabilidad de optimización en flujos de trabajo agentes autónomos para la detección de síntomas clínicos

Resumen: Los flujos de trabajo agentes autónomos que refinan iterativamente su propio comportamiento son bastante prometedores, pero sus modos de falla siguen estando mal caracterizados. Investigamos la inestabilidad de la optimización, un fenómeno en el que la mejora autónoma continua degrada paradójicamente el rendimiento del clasificador, utilizando Pythia, un marco de código abierto para la optimización automática de mensajes. Al evaluar tres síntomas clínicos con prevalencia variable (dificultad para respirar en un 23 %, dolor en el pecho en un 12 % y confusión mental de COVID prolongado en un 3 %), observamos que la sensibilidad de validación oscilaba entre 1,0 y 0,0 en las iteraciones, con una gravedad inversamente proporcional a la prevalencia de clase. Con una prevalencia del 3 %, el sistema logró una precisión del 95 % y no detectó ningún caso positivo, un modo de falla oscurecido por las métricas de evaluación estándar. Evaluamos dos intervenciones: un agente guía que redirigió activamente la optimización, amplificando el sobreajuste en lugar de corregirlo, y un agente selector que identificó retrospectivamente la iteración de mejor rendimiento que evitó con éxito una falla catastrófica. Con la supervisión del agente selector, el sistema superó a los léxicos seleccionados por expertos en detección de confusión mental en un 331% (F1) y dolor en el pecho en un 7%, a pesar de requerir solo un término en lenguaje natural como entrada. Estos hallazgos caracterizan un modo de falla crítico de los sistemas autónomos de IA y demuestran que la selección retrospectiva supera la intervención activa para la estabilización en tareas de clasificación de baja prevalencia.

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Producción de información controlable

La siguiente pregunta después de la pregunta de Turing: Presentación de la prueba Grow-AI

La clonación no es sólo para mascotas famosas como el perro de Tom Brady

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido