Resumen: En este trabajo, presentamos la primera evaluación manual dirigida por expertos de cuatro LLM (dos modelos sin razonamiento de propósito general ampliamente utilizados y dos modelos de dominio específico diseñados para contextos de IPV) centrados en su efectividad para responder a preguntas relacionadas con TFA. Utilizando preguntas del mundo real recopiladas de la literatura y foros en línea, evaluamos la calidad de las respuestas LLM de un solo turno generadas con un mensaje centrado en la seguridad del sobreviviente según criterios adaptados al dominio TFA. Además, realizamos un estudio de usuarios para evaluar la capacidad de acción percibida de estas respuestas desde la perspectiva de personas que han experimentado TFA.
Nuestros hallazgos, basados tanto en la evaluación de expertos como en los comentarios de los usuarios, brindan información sobre las capacidades y limitaciones actuales de los LLM en el contexto de TFA y pueden informar el diseño, desarrollo y ajuste de modelos futuros para este dominio. Concluimos con recomendaciones concretas para mejorar el desempeño del LLM para el apoyo a los sobrevivientes.
Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original
