Resumen: La confiabilidad percibida sustenta la forma en que los usuarios navegan por la información en línea, sin embargo, aún no está claro si los grandes modelos de lenguaje (LLM), cada vez más integrados en los sistemas de búsqueda, recomendación y conversación, representan esta construcción de manera psicológicamente coherente. Analizamos cómo los LLM ajustados por instrucción (Llama 3.1 8B, Qwen 2.5 7B, Mistral 7B) codifican la confiabilidad percibida en narrativas similares a las de la web utilizando el conjunto de datos PEACE-Reviews anotado para evaluaciones cognitivas, emociones e intenciones de comportamiento. Entre los modelos, las diferencias sistemáticas de activación a nivel de capa y cabeza distinguen los textos de alta y baja confianza, lo que revela que las señales de confianza están codificadas implícitamente durante el entrenamiento previo. Los análisis de sondeo muestran señales de confianza linealmente decodificables y efectos de ajuste que refinan en lugar de reestructurar estas representaciones. Las asociaciones más fuertes surgen con evaluaciones de justicia, certeza y responsabilidad personal, dimensiones centrales para la formación de confianza humana en línea. Estos hallazgos demuestran que los LLM modernos internalizan señales de confianza con base psicológica sin supervisión explícita, ofreciendo una base representacional para diseñar sistemas de IA creíbles, transparentes y dignos de confianza en el ecosistema web. El código y el apéndice están disponibles en: esta URL https.
Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original
