PromptCD: Mejora del comportamiento en el momento de la prueba mediante decodificación contrastiva de indicación de polaridad
Resumen: Los sistemas de IA confiables requieren grandes modelos de lenguaje (LLM) para exhibir comportamientos alineados con las preferencias y valores humanos. Sin embargo, la mayoría de los enfoques de alineación existentes operan en el momento del entrenamiento y dependen de datos adicionales de alta calidad, lo que incurre en importantes costos computacionales y de anotaciones.
Leer más →