Resumen:A pesar de que los modelos visión-lenguaje (VLM) de última generación han demostrado sólidas capacidades de razonamiento, su desempeño en el razonamiento matemático multilingüe sigue sin explorarse, particularmente en comparación con el desempeño humano.
Leer más →
Resumen:El razonamiento geoespacial es esencial para aplicaciones del mundo real como análisis urbano, planificación del transporte y respuesta a desastres. Sin embargo, los agentes existentes basados en LLM a menudo fallan en el cálculo geoespacial genuino, confiando en cambio en la búsqueda web o la coincidencia de patrones mientras alucinan relaciones espaciales.
Leer más →
Resumen: Los modelos de lenguaje grande (LLM) son prometedores en el apoyo a las decisiones clínicas, pero corren el riesgo de ceder a la presión del paciente para que reciba una atención inadecuada. Presentamos SycoEval-EM, un marco de simulación de múltiples agentes que evalúa la solidez del LLM mediante la persuasión adversaria del paciente en medicina de emergencia. En 20 LLM y 1.
Leer más →