Resumen: Este documento presenta un marco de evaluación para los sistemas de IA de agente en contextos de negociación de misión crítica, abordando la necesidad de agentes de IA que puedan adaptarse a diversos operadores humanos y partes interesadas. Utilizando Sotopia como un lecho de prueba de simulación, presentamos dos experimentos que evaluaron sistemáticamente cómo los rasgos de personalidad y las características del agente de IA influyen en los resultados de la negociación social simulados por LLM, una capacidad esencial para una variedad de aplicaciones que involucran coordinación entre equipos e interacciones civiles-militares. El Experimento 1 emplea métodos de descubrimiento causal para medir cómo los rasgos de personalidad impactan las negociaciones de la negociación de precios, a través de los cuales encontramos que la amabilidad y la extraversión afectan significativamente la credibilidad, el logro de objetivos y los resultados de la adquisición de conocimiento. Las medidas léxicas sociocognitivas extraídas de las comunicaciones del equipo detectaron diferencias de grano fino en la comunicación empática de los agentes, las bases morales y los patrones de opinión, proporcionando ideas procesables para los sistemas de IA de agentes que deben operar de manera confiable en escenarios operativos de alto riesgo. El Experimento 2 evalúa las negociaciones laborales de Human-AI mediante la manipulación de las características simuladas de la personalidad humana y del sistema de IA, específicamente transparencia, competencia, adaptabilidad, demostrando cómo el agente de IA impactan la efectividad de la misión. Estos hallazgos establecen una metodología de evaluación repetible para experimentar con la confiabilidad del agente de IA en diversas personalidades de operadores y dinámica del equipo de agentes humanos, apoyando directamente los requisitos operativos para sistemas de IA confiables. Nuestro trabajo avanza la evaluación de los flujos de trabajo de IA de agente al ir más allá de las métricas de rendimiento estándar para incorporar la dinámica social esencial para el éxito de la misión en operaciones complejas.
Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original