Resumen: Los sistemas de IA confiables requieren grandes modelos de lenguaje (LLM) para exhibir comportamientos alineados con las preferencias y valores humanos. Sin embargo, la mayoría de los enfoques de alineación existentes operan en el momento del entrenamiento y dependen de datos adicionales de alta calidad, lo que incurre en importantes costos computacionales y de anotaciones. Si bien trabajos recientes han demostrado que la decodificación contrastiva puede aprovechar las distribuciones internas de un modelo para mejorar capacidades específicas, su aplicabilidad sigue limitada a escenarios y ámbitos de comportamiento limitados. En este trabajo, presentamos la decodificación contrastiva de indicación de polaridad (PromptCD), un método de control de comportamiento en el momento de la prueba que generaliza la decodificación contrastiva a configuraciones de mejora más amplias. PromptCD construye indicaciones guía positivas y negativas emparejadas para un comportamiento objetivo y contrasta las respuestas del modelo, específicamente distribuciones de probabilidad a nivel de token en LLM y patrones de atención visual en VLM, para reforzar los resultados deseables. Esta formulación extiende la decodificación contrastiva a una amplia gama de objetivos de mejora y es aplicable tanto a LLM como a Modelos de Visión-Lenguaje (VLM) sin capacitación adicional. Para los LLM, los experimentos sobre los objetivos de alineación “3H” (ayuda, honestidad e inocuidad) demuestran mejoras consistentes y sustanciales, lo que indica que los modelos post-entrenados pueden lograr una mejora personal significativa simplemente en el momento de la prueba. Para los VLM, analizamos más a fondo los efectos contrastantes sobre la atención visual, mostrando que PromptCD mejora significativamente el rendimiento de VQA al reforzar la base visual consistente con el comportamiento. En conjunto, estos resultados destacan a PromptCD como una estrategia simple, general y rentable para un control confiable del comportamiento en todas las modalidades.
Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original
