Resumen: Los modelos de idiomas grandes (LLM) han hecho avances significativos, extendiendo sus aplicaciones a los sistemas de diálogo, la creación de contenido automatizado y las tareas de asesoramiento específicas del dominio. Sin embargo, a medida que su uso crece, han surgido preocupaciones con respecto a su confiabilidad en la simulación de un comportamiento complejo de la toma de decisiones, como la toma de decisiones riesgosas, donde una sola opción puede conducir a múltiples resultados. Este estudio investiga la capacidad de LLM para simular escenarios de toma de decisiones riesgosas. Comparamos decisiones generadas por el modelo con respuestas humanas reales en una serie de tareas basadas en lotería, utilizando datos de preferencias establecidas por el transporte de los participantes en Sydney, Dhaka, Hong Kong y Nanjing. Las entradas demográficas se proporcionaron a dos LLM, CHATGPT 4O y CHATGPT O1-Mini, que se encargaron de predecir las opciones individuales. Las preferencias de riesgo se analizaron utilizando el marco constante de aversión al riesgo relativo (CRRA). Los resultados muestran que ambos modelos exhiben un comportamiento más aversión al riesgo que los participantes humanos, con O1-Mini alineándose más estrechamente con las decisiones humanas observadas. Un análisis adicional de los datos multilingües de Nanjing y Hong Kong indica que las predicciones del modelo en los chinos se desvían más de las respuestas reales en comparación con el inglés, lo que sugiere que el lenguaje rápido puede influir en el rendimiento de la simulación. Estos hallazgos destacan tanto la promesa como las limitaciones actuales de los LLM en la replicación del comportamiento de riesgo humano, particularmente en entornos lingüísticos y culturales.
Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original