Resumen: Central para la capacidad de agente y la confiabilidad de los agentes del modelo de lenguaje (LMA) es la medida en que mantienen la identidad estable, confiable, con el tiempo. Sin embargo, LMA heredan patologías de modelos de lenguaje grande (LLMS) (estatuto, estocasticidad, sensibilidad a las indicaciones e intermediación lingüísticamente) que pueden socavar su identificabilidad, continuidad, persistencia y consistencia. Este desgaste de la identidad puede erosionar su confiabilidad, confiabilidad y utilidad al interferir con sus capacidades agentes como el razonamiento, la planificación y la acción. Para abordar estos desafíos, presentamos textit {Agent Identity Evals} (AIE), un marco empírico riguroso, estadístico y impulsado por la estadística para medir el grado en que un sistema LMA exhibe y mantiene su identidad agente con el tiempo, incluidas sus capacidades, propiedades y capacidad para recuperarse de las perturbaciones estatales. AIE comprende un conjunto de métricas novedosas que pueden integrarse con otras medidas de rendimiento, capacidad y robustez de agente para ayudar en el diseño de infraestructura y andamios de LMA óptimos, como memoria y herramientas. Establecimos definiciones y métodos formales que se pueden aplicar en cada etapa del ciclo de vida de LMA, y trabajamos ejemplos de cómo aplicarlos.
Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original