SycoEval-EM: Evaluación de adulación de modelos de lenguaje grandes en encuentros clínicos simulados para atención de emergencia

Resumen: Los modelos de lenguaje grande (LLM) son prometedores en el apoyo a las decisiones clínicas, pero corren el riesgo de ceder a la presión del paciente para que reciba una atención inadecuada. Presentamos SycoEval-EM, un marco de simulación de múltiples agentes que evalúa la solidez del LLM mediante la persuasión adversaria del paciente en medicina de emergencia. En 20 LLM y 1.

Leer más →

Comentarios desactivados en SycoEval-EM: Evaluación de adulación de modelos de lenguaje grandes en encuentros clínicos simulados para atención de emergencia

M3Kang: Evaluación del razonamiento matemático multimodal multilingüe en modelos visión-lenguaje

Resumen:A pesar de que los modelos visión-lenguaje (VLM) de última generación han demostrado sólidas capacidades de razonamiento, su desempeño en el razonamiento matemático multilingüe sigue sin explorarse, particularmente en comparación con el desempeño humano.

Leer más →

Comentarios desactivados en M3Kang: Evaluación del razonamiento matemático multimodal multilingüe en modelos visión-lenguaje

Doc2AHP: Inferir modelos de decisión estructurados de criterios múltiples a través de árboles semánticos con LLM

Resumen:Si bien los modelos de lenguajes grandes (LLM) demuestran una notable competencia en la comprensión semántica, a menudo tienen dificultades para garantizar la coherencia estructural y la confiabilidad del razonamiento en tareas complejas de toma de decisiones que exigen una lógica rigurosa.

Leer más →

Comentarios desactivados en Doc2AHP: Inferir modelos de decisión estructurados de criterios múltiples a través de árboles semánticos con LLM

Fin del contenido

No hay más páginas por cargar