Semilla de pensamiento: impulso a los LLM para una generación diversa y fiel a la distribución

Resumen: Presentamos String Seed of Thought (SSoT), un nuevo método de estimulación para LLM que mejora el seguimiento de instrucciones probabilísticas (PIF). Definimos PIF como una tarea que requiere que un LLM seleccione su respuesta de un conjunto predefinido de opciones, cada una asociada con una probabilidad específica, de modo que la distribución empírica de las respuestas generadas se alinee con la distribución objetivo cuando se le solicita varias veces. Si bien los LLM se destacan en tareas con respuestas únicas y deterministas, a menudo fallan en PIF, mostrando sesgos problemáticos para aplicaciones que requieren comportamientos no deterministas, como la simulación del comportamiento humano, la diversificación de contenido y los juegos multijugador. También daña la diversidad de las respuestas generadas, un factor crucial en la escala del tiempo de prueba, al hacer que los resultados colapsen en un conjunto limitado de respuestas. Para abordar esto, proponemos SSoT, un método de solicitud simple que indica a un LLM que primero genere una cadena aleatoria para generar suficiente entropía. SSoT también indica al LLM que extraiga la aleatoriedad manipulando esta cadena para obtener una respuesta final, preservando así la diversidad y al mismo tiempo respetando restricciones específicas. Demostramos que SSoT mejora significativamente el rendimiento PIF de los LLM, acercándose al rendimiento ideal de un generador de números pseudoaleatorios. Además, nuestros experimentos en NoveltyBench muestran que los beneficios de SSoT se extienden más allá de las tareas cerradas a tareas abiertas al mejorar la diversidad de respuestas.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Cómo optimizar automáticamente las indicaciones para las tareas de dominio? Incitación y razonamiento adaptativos a través de la adaptación del conocimiento del dominio evolutivo

Modelo U-Net activado por la atención para la segmentación semántica de tumores cerebrales y extracción de características para el pronóstico de supervivencia

Maestro: generación de texto a imagen a través de autoinscripción a través de la orquestación del agente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido