admin, Autor Asociación Mexicana del Internet de las Cosas A.C.

M3Kang: Evaluación del razonamiento matemático multimodal multilingüe en modelos visión-lenguaje

Resumen:A pesar de que los modelos visión-lenguaje (VLM) de última generación han demostrado sólidas capacidades de razonamiento, su desempeño en el razonamiento matemático multilingüe sigue sin explorarse, particularmente en comparación con el desempeño humano.

Leer más →

Comentarios desactivados

25 enero, 2026

Noticias externas

Agente espacial: razonamiento geoespacial agente con conceptos científicos básicos

Resumen:El razonamiento geoespacial es esencial para aplicaciones del mundo real como análisis urbano, planificación del transporte y respuesta a desastres. Sin embargo, los agentes existentes basados en LLM a menudo fallan en el cálculo geoespacial genuino, confiando en cambio en la búsqueda web o la coincidencia de patrones mientras alucinan relaciones espaciales.

Leer más →

Comentarios desactivados

25 enero, 2026

Lee más sobre el artículo SycoEval-EM: Evaluación de adulación de modelos de lenguaje grandes en encuentros clínicos simulados para atención de emergencia

Noticias externas

SycoEval-EM: Evaluación de adulación de modelos de lenguaje grandes en encuentros clínicos simulados para atención de emergencia

Resumen: Los modelos de lenguaje grande (LLM) son prometedores en el apoyo a las decisiones clínicas, pero corren el riesgo de ceder a la presión del paciente para que reciba una atención inadecuada. Presentamos SycoEval-EM, un marco de simulación de múltiples agentes que evalúa la solidez del LLM mediante la persuasión adversaria del paciente en medicina de emergencia. En 20 LLM y 1.

Leer más →

Comentarios desactivados

25 enero, 2026

M3Kang: Evaluación del razonamiento matemático multimodal multilingüe en modelos visión-lenguaje

Agente espacial: razonamiento geoespacial agente con conceptos científicos básicos

SycoEval-EM: Evaluación de adulación de modelos de lenguaje grandes en encuentros clínicos simulados para atención de emergencia

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto