El diálogo como descubrimiento: navegar la intención humana a través de una investigación basada en principios

Resumen:Un cuello de botella fundamental en la colaboración entre humanos e IA es la “brecha de expresión de intenciones”, la dificultad para los humanos de transmitir de manera efectiva pensamientos complejos y de alta dimensión a la IA. Este desafío a menudo atrapa a los usuarios en ciclos ineficientes de prueba y error y se ve exacerbado por los diversos niveles de experiencia de los usuarios. Replantamos este problema desde la instrucción pasiva siguiendo un paradigma de colaboración socrática, proponiendo un agente que busca activamente información para resolver su incertidumbre sobre la intención del usuario. denominamos al agente propuesto Nous, capacitado para adquirir competencia en esta política de investigación. El mecanismo central de Nous es un marco de formación basado en los primeros principios de la teoría de la información. Dentro de este marco, definimos la ganancia de información del diálogo como una señal de recompensa intrínseca, que es fundamentalmente equivalente a la reducción de la entropía de Shannon en un espacio de tareas estructurado. Este diseño de recompensa nos permite evitar la dependencia de costosas anotaciones de preferencias humanas o modelos de recompensa externos. Para validar nuestro marco, desarrollamos un proceso de simulación automatizado para generar un conjunto de datos a gran escala basado en preferencias para la desafiante tarea de generación de diagramas científicos. Experimentos completos, que incluyen ablaciones, evaluaciones subjetivas y objetivas y pruebas en todos los niveles de experiencia del usuario, demuestran la eficacia de nuestro marco propuesto. Nous logra una eficiencia y una calidad de producción líderes, sin dejar de ser resistente a las diferentes experiencias de los usuarios. Además, su diseño es independiente del dominio y mostramos evidencia de generalización más allá de la generación de diagramas. Los resultados experimentales demuestran que nuestro trabajo ofrece un paradigma basado en principios, escalable y adaptable para resolver la incertidumbre sobre la intención del usuario en una colaboración compleja entre humanos y IA.

Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El software de Neptuno anuncia el cambio: la construcción de la empresa con AI para SAP y más allá

TOLEAP: Repensar el desarrollo del aprendizaje de herramientas con modelos de idiomas grandes

Evaluación de modelos de idiomas grandes para tareas de ingeniería del mundo real

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido