Resumen: Obtener múltiples muestras significativamente diversas y de alta calidad de modelos de lenguaje grande para un aviso fijo sigue siendo un desafío abierto. Los métodos actuales para aumentar la diversidad a menudo solo operan a nivel de token, parafraseando la misma respuesta. Esto es problemático porque conduce a una pobre exploración en problemas de razonamiento y a agentes de conversación repetitivos y extraños. Para abordar esto, proponemos la generación intencionada de Facted (IFG), factorizando el proceso de muestreo en dos etapas. Primero, probamos una intención semánticamente densa, por ejemplo, un resumen o palabras clave. En segundo lugar, probamos el acondicionamiento de respuesta final tanto en el aviso original como en la intención desde la primera etapa. Esto nos permite usar una temperatura más alta durante el paso de la intención para promover la diversidad conceptual, y una temperatura más baja durante la generación final para garantizar que las salidas sean coherentes y autoconsistentes. Además, encontramos que impulsar al modelo a establecer explícitamente su intención para cada paso de la cadena de pensamiento antes de generar el paso es beneficioso para las tareas de razonamiento. Demostramos la efectividad de nuestro método en un conjunto diverso de tareas. Mostramos que este método mejora tanto Pass@K como el aprendizaje de refuerzo de los comentarios de los verificadores sobre las matemáticas y las tareas de código. Para el ajuste de instrucciones, combinamos IFG con optimización directa de preferencias para aumentar la diversidad conversacional sin sacrificar la recompensa. Finalmente, logramos una mayor diversidad al tiempo que mantenemos la calidad de las generaciones en una tarea general de modelado de idiomas, utilizando un nuevo conjunto de datos de comentarios de lectores y artículos de noticias que recopilamos y de código abierto. En resumen, presentamos un método simple para aumentar la diversidad de muestras de LLM mientras mantenemos el rendimiento. Este método se puede implementar cambiando el aviso y variando la temperatura durante la generación, lo que facilita la integración en muchos algoritmos para obtener ganancias en varias aplicaciones.
Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original