Evaluación de la calidad de la respuesta de LLM en el contexto del abuso facilitado por la tecnología

Resumen: En este trabajo, presentamos la primera evaluación manual dirigida por expertos de cuatro LLM (dos modelos sin razonamiento de propósito general ampliamente utilizados y dos modelos de dominio específico diseñados para contextos de IPV) centrados en su efectividad para responder a preguntas relacionadas con TFA. Utilizando preguntas del mundo real recopiladas de la literatura y foros en línea, evaluamos la calidad de las respuestas LLM de un solo turno generadas con un mensaje centrado en la seguridad del sobreviviente según criterios adaptados al dominio TFA. Además, realizamos un estudio de usuarios para evaluar la capacidad de acción percibida de estas respuestas desde la perspectiva de personas que han experimentado TFA.
Nuestros hallazgos, basados tanto en la evaluación de expertos como en los comentarios de los usuarios, brindan información sobre las capacidades y limitaciones actuales de los LLM en el contexto de TFA y pueden informar el diseño, desarrollo y ajuste de modelos futuros para este dominio. Concluimos con recomendaciones concretas para mejorar el desempeño del LLM para el apoyo a los sobrevivientes.

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Confuso aprendizaje robusto por refuerzo profundo: un enfoque causal

La restricción de calorías puede ayudar a los animales a vivir más tiempo. ¿Qué pasa con los humanos?

Benchmarking Modelos de idiomas grandes para orientación personalizada en el aprendizaje mejorado por AI

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido