Resumen: Central para la capacidad de agente y la confiabilidad de los agentes del modelo de lenguaje (LMA) es la medida en que mantienen la identidad estable, confiable, con el tiempo. Sin embargo, LMA heredan patologías de modelos de lenguaje grande (LLMS) (estatuto, estocasticidad, sensibilidad a las indicaciones e intermediación lingüísticamente) que pueden socavar su identificabilidad, continuidad, persistencia y consistencia. Este desgaste de la identidad puede erosionar su confiabilidad, confiabilidad y utilidad al interferir con sus capacidades agentes como el razonamiento, la planificación y la acción. Para abordar estos desafíos, presentamos textit {Agent Identity Evals} (AIE), un marco empírico riguroso, estadístico y impulsado por la estadística para medir el grado en que un sistema LMA exhibe y mantiene su identidad agente con el tiempo, incluidas sus capacidades, propiedades y capacidad para recuperarse de las perturbaciones estatales. AIE comprende un conjunto de métricas novedosas que pueden integrarse con otras medidas de rendimiento, capacidad y robustez de agente para ayudar en el diseño de infraestructura y andamios de LMA óptimos, como memoria y herramientas. Establecimos definiciones y métodos formales que se pueden aplicar en cada etapa del ciclo de vida de LMA, y trabajamos ejemplos de cómo aplicarlos.

Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original

Evalas de identidad del agente: medición de identidad de agente

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Evaluación y aprendizaje guiado por LLM de los racionales de codificación de ICD

JEDA: Búsqueda de pedidos clínicos sin consultas desde Ambient Dialogues

Reforzamiento Aprendizaje Mejoró el soporte de decisiones clínicas adaptativas en línea a través de políticas gemelas digitales y efecto del tratamiento Recompensa optimizada

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido